新媒易动态
NEWS CENTER
NEWS CENTER
2021-09-14
试验平台是怎么将用户分配到某个试验组中的?简单来说就是桶位算法。
可以理解为将用户流量分为了100个桶位(现实中会分成1000个桶位或更多),假设我们要开一个10%流量的试验,需要对用户onlyid进行哈希取余,如果余数落在前10个桶位,用户就命中这10%的流量,否则就不命中实验,用户也就不会进这个实验组。
AB试验可以单层,也可以多层,通常根据产品的用户量来决定是否采取多层试验,用户量较大,业务较多时,需要做的试验也越多,就需要通过多层试验模式去进行AB,实现流量最大化利用。
(1)单层试验
单层试验上,流量100%,每个试验的流量是互斥的,举例,试验1的用户,命中试验1,就不会再进同一个试验层上的试验2或试验3,在单层试验上,用户只能进一个试验的一个组,即便是对照组流量,也是如此。
每个试验的流量至少会分成2组,也有多组试验,有试验组和对照组,每个试验中的各试验组的流量分配可以均匀分配,也可以自定义分配。
(2)多试验层——分层流量
多层试验,可以理解是多个单层试验的组合,每个试验层就是上面说的单层试验,而试验层与试验层之间的流量是正交的,也就是说,在召回层的试验1和试验2的2个用户,在召回层是互斥的,但在粗排层,很有可能在一个试验中,而在其他层,可能又会中其他的试验,业务越复杂,试验层越多。
当两个试验处于不同层时,需要保证试验内容互不相关,也就是相同的试验配置需要开在一个单层试验层上互斥,否则将会干扰试验数据。通常,用户量大一些的公司,都会采取多试验层,这样试验流量也多,且各试验之间互不干扰。
AB试验的原理就是统计对照组用户和试验组用户的样本数据(主要是样本平均数和样本方差),通过正太分布公式,计算试验组总体样本数据比对照组总体样本数据提升或下降的概率。
怎么判断一个试验的结果是否置信?这里需要讲到2个概念:P值(p_value)和置信区间(可以看一些专业的相关文章)。
什么是P值?P值也叫显著性水平,可以理解P值是一个概率,是一个统计学上的衡量指标,有很多算法都可以统计出P值,通常用的比较多的是双侧双样本T检验,Z分数算出来P值(这里不做过多介绍)。
知道本质是通过进组用户样本算出检验统计量,再通过统计量算出P值就可以了。是指在原假设为真的条件下,样本数据拒绝原假设这样一个事件发生的概率。
置信区间(Confidence interval)就是用来对一个概率样本的总体参数的进行区间估计的样本均值范围。置信区间展现了这个均值范围包含总体参数的概率,这个概率称为置信水平。
(1)显著正向举例
置信区间为: [0.356269%, 3.063578%],p-value: 0.013292
试验版本样本均值对比对照版本的变化率为1.709294%。在95%置信度下,置信区间为[0.356269%, 3.063578%],统计显著正向说明当前的样本容量条件下已经检测出试验版本优于对照版本。