新媒易动态
NEWS CENTER
NEWS CENTER
2020-06-07
在增长工作中,大家常会通过增长实验来确定增长策略的有效性和影响范围。而设计增长实验时常会遇到一些坑。比如:
本文将通过以下三小节的内容来简单分享下如何避免以上这些常见的问题。
正确的实验指标能够全面准确地检验实验假设的真伪,从而衡量实验结果的成败。
衡量实验成败,主要可以分为三类指标:
核心指标是决定实验成败的关键指标,该指标是后期实验数据进行统计显著计算的关键。核心指标确定的前提是实验最终目标的确立。根据该实验目标判断想要影响的指标是哪一个。是否可以通过这个指标确定实验组的改动是成功的。
辅助指标是实验可能影响到的其他重要指标,通过这些重要指标可以全面了解实验结果。常见的辅助指标如漏斗细分步骤的各节点转化率,可以通过这些转化率更全面的了解实验改动对整个漏斗的影响。
反向指标是提示实验可能出现的负面影响。通过反向指标的高低来判断实验结果是否成功。如果实验没有负面影响或负面影响较小,可以接受,才能宣布实验成功。如果负面影响很大,可以否决实验的正向结果。
常见的反向指标如页面退出率,订单取消率,Push退订率,应用删除率等。
在确定了实验目标后进入了增长实验设计的第二步,确定实验对象。这一步骤主要解决实验对象的包含范围和实验所需的样本数量。
如果所设计的增长实验希望所有用户都进入该实验范围,那则不需要这一步。如果希望仅有符合特定条件的用户才可进入实验范围,则需要设置实验对象范围。通过此设置可针对特定用户群组进行实验,帮助生成更精细的产品优化方案。通常设置实验对象范围类型可通过第三方A/B测试工具自带分组来设置。
设置实验受众可以通过一些第三方A/B测试工具来完成。
很多第三方的测试协助工具都会有默认受众分组,比如:操作系统,浏览器类型,设备类型,应用版本等等。
我们也可以自定义受众分组,比如:
首先我们先来看一个案例,某公司想通过改变按钮颜色提高“下单”按钮的点击率。
在实验上线2小时后,进行了一次数据统计:
在实验上线2天后,再进行了一次数据统计:
在实验上线1年后,又进行了一次数据统计:
通过上述案例可发现从结果可靠性的角度看,样本量越大,实验时间越长,实验结果则越可靠。
但从实际工作的成本角度出发,样本量越小,实验时间越短,实验的试错成本就越小,实验迭代速度也越快。
因此在保障实验结果可靠性的同时又尽可能最小化样本量,不会浪费过多的实验时间显得至关重要。我们可以通过对增长实验结果进行统计显著性检验找到这个平衡点。
统计显著性(Statistical significance):是指零假设为真的情况下拒绝零假设所要承担的风险水平,又叫概率水平,或者显著水平。在增长实验中是指对照组和实验组之间转化率差异的真实水平程度。
如:对比对照组和实验组的某个实验指标发现转化率有差别,而统计显著性为90%。则代表造成差别中有90%的可能性是真实存在的。而10%的可能性是随机误差引起的。
当统计显著性越高,则随机误差的可能性就越低,得到的结果就越可靠。我们可通过确认结果统计性显著所需的最小样本数来预估实验所需样本数量。
影响实验所需样本数量的因素主要有三个:
我们继续刚才的案例。假设原版本,也就是蓝色按钮的点击转化率为10%,而预计改为红色后,点击转化率为12%,我们通过第三方A/B测试样本计算器工具,在统计显著设置为95%的情况下,预估出实验所需要的样本数量为2900。我们预估每天的的页面访问数为500。而这个实验一共存在红色按钮和蓝色按钮两个实验样本,则样本总数为5800,所以需要的实验时长是12天。
在完成了确定实验指标和实验对象后,就可以开始设计实验版本了。在设计实验版本时,需要思考实验组相比对照组都做了哪些改动。确定实验版本数量,版本之间的关联和区别是什么。实验受众的流量在实验版本之间如何分配。
实验版本的数量和区别可以通过以下三个方面来确定:
实验受众的流量在实验版本之间分配原则是保证每个实验版本的样本分流均匀随机。样本分流是否均匀随机,会极大影响实验结果的可信性。均匀随机的样本分流可消除一切外在因素的影响。保证对照组和实验组唯一区别就是实验改动。