大多数产品人都是通过增长实验来完成用户及产品的增长。什么是增长实验?它的正确设计模型又是什么呢?本文将会告诉你答案。
在增长工作中,大家常会通过增长实验来确定增长策略的有效性和影响范围。而设计增长实验时常会遇到一些坑。比如:
本文将通过以下三小节的内容来简单分享下如何避免以上这些常见的问题。
一、制定实验指标
正确的实验指标能够全面准确地检验实验假设的真伪,从而衡量实验结果的成败。
衡量实验成败,主要可以分为三类指标:
1. 核心指标
核心指标是决定实验成败的关键指标,该指标是后期实验数据进行统计显著计算的关键。核心指标确定的前提是实验最终目标的确立。根据该实验目标判断想要影响的指标是哪一个。是否可以通过这个指标确定实验组的改动是成功的。
2. 辅助指标
辅助指标是实验可能影响到的其他重要指标,通过这些重要指标可以全面了解实验结果。常见的辅助指标如漏斗细分步骤的各节点转化率,可以通过这些转化率更全面的了解实验改动对整个漏斗的影响。
3. 反向指标
反向指标是提示实验可能出现的负面影响。通过反向指标的高低来判断实验结果是否成功。如果实验没有负面影响或负面影响较小,可以接受,才能宣布实验成功。如果负面影响很大,可以否决实验的正向结果。
常见的反向指标如页面退出率,订单取消率,Push退订率,应用删除率等。
二、确定实验对象
在确定了实验目标后进入了增长实验设计的第二步,确定实验对象。这一步骤主要解决实验对象的包含范围和实验所需的样本数量。
1. 确定实验对象的包含范围
如果所设计的增长实验希望所有用户都进入该实验范围,那则不需要这一步。如果希望仅有符合特定条件的用户才可进入实验范围,则需要设置实验对象范围。通过此设置可针对特定用户群组进行实验,帮助生成更精细的产品优化方案。通常设置实验对象范围类型可通过第三方A/B测试工具自带分组来设置。
设置实验受众可以通过一些第三方A/B测试工具来完成。
很多第三方的测试协助工具都会有默认受众分组,比如:操作系统,浏览器类型,设备类型,应用版本等等。
我们也可以自定义受众分组,比如:
2. 预估实验所需的样本数量
首先我们先来看一个案例,某公司想通过改变按钮颜色提高“下单”按钮的点击率。
在实验上线2小时后,进行了一次数据统计:
在实验上线2天后,再进行了一次数据统计:
在实验上线1年后,又进行了一次数据统计:
通过上述案例可发现从结果可靠性的角度看,样本量越大,实验时间越长,实验结果则越可靠。
但从实际工作的成本角度出发,样本量越小,实验时间越短,实验的试错成本就越小,实验迭代速度也越快。
因此在保障实验结果可靠性的同时又尽可能最小化样本量,不会浪费过多的实验时间显得至关重要。我们可以通过对增长实验结果进行统计显著性检验找到这个平衡点。
统计显著性(Statistical significance):是指零假设为真的情况下拒绝零假设所要承担的风险水平,又叫概率水平,或者显著水平。在增长实验中是指对照组和实验组之间转化率差异的真实水平程度。
如:对比对照组和实验组的某个实验指标发现转化率有差别,而统计显著性为90%。则代表造成差别中有90%的可能性是真实存在的。而10%的可能性是随机误差引起的。
当统计显著性越高,则随机误差的可能性就越低,得到的结果就越可靠。我们可通过确认结果统计性显著所需的最小样本数来预估实验所需样本数量。
影响实验所需样本数量的因素主要有三个:
原版本的转化率:如原版本的转化率越低,则实验所需要的样本数量越大。
新版本的转化率:如果新版本和原版本的转化率差别越小,则检测所需的敏感度越高,实验所需要的样本数量越大。
统计显著性要求:统计显著性要求越高,对结果的需求越确定,则实验所需要的样本数量越大。建议一般情况统计显著性要求至少为95%。
我们继续刚才的案例。假设原版本,也就是蓝色按钮的点击转化率为10%,而预计改为红色后,点击转化率为12%,我们通过第三方A/B测试样本计算器工具,在统计显著设置为95%的情况下,预估出实验所需要的样本数量为2900。我们预估每天的的页面访问数为500。而这个实验一共存在红色按钮和蓝色按钮两个实验样本,则样本总数为5800,所以需要的实验时长是12天。
三、设计实验版本
在完成了确定实验指标和实验对象后,就可以开始设计实验版本了。在设计实验版本时,需要思考实验组相比对照组都做了哪些改动。确定实验版本数量,版本之间的关联和区别是什么。实验受众的流量在实验版本之间如何分配。
实验版本的数量和区别可以通过以下三个方面来确定:
版本数量取决于实验假设的数量,只选择高质量的实验假设。
明确实验类型,是优化型实验还是探索型实验。优化型实验:每个版本只改变单一变量,明确改动的影响。探索型实验:可以同时改变多个变量,设计全新的实验版本。
版本数量越大,则需要的总样本数量越大。
实验受众的流量在实验版本之间分配原则是保证每个实验版本的样本分流均匀随机。样本分流是否均匀随机,会极大影响实验结果的可信性。均匀随机的样本分流可消除一切外在因素的影响。保证对照组和实验组唯一区别就是实验改动。
样本科学分流是A/B测试工具的重要功能之一,需要达到以下四个标准:
四、增长实验案例
这里通过一个虚拟的案例来简单分享一下如何设计一个增长实验。
假设你现在需要设计一个增长策略方案,来提高keep的用户的关注转化率。
1. 实验想法
1)实验目标
提升用户对其他用户的关注率。
2)实现想法
通过最佳实践(微博案例),可得出实验想法一:落地页的发现页签下信息流中每个用户的动态cell,如未关注,则显示【关注】按钮。增加关注功能曝光量,可提升用户的关注点击率。
根据用户行为路径,收集用户行为数据:
通过数据定量分析发现,用户点赞和收藏行为与用户关注博主行为相关性较大。
因而得出实验假设:在动态详情页中,首次触发对该用户的简单社交行为(点赞,收藏)时,如未关注用户时,调起弹框引导用户关注发布者。【关注该用户,及时获得TA的最新动态。】「关注」「取消」。
3)实验假设
基于以上实验想法分析,得出以下假设:
2. 优先级排序
通过ICE优先级模型,得到优先级结论:推荐动态页-增加关注按钮的综合得分最高。
3. 实验设计
实验假设: 如果在动态详情页,如果用户在内容上停留5秒以上,“关注”按钮变亮变大,提示用户可以关注此博主,关注率预计可提升至6%,因为用户阅读每条动态内容的是平均时长为10秒,阅读5秒以上,表示用户对该内容感兴趣,此时突出关注按钮,更容易诱发用户完成关注博主的动作。
1)制定实验指标
2)确定实验对象
实验对象范围:根据用户行为路径,该实验对象访问内容详情页且停留时间2秒以上的用户群体。
原因:
3)设计实验版本
通过第三方工具,比如云眼计算样本数量,可以得到以下结论:
题图来自 Unsplash,基于 CC0 协议