5.3.3 A/B测试的5个操作误区
A/B测试在实际操作层面容易出现不符合原始实验假设的多种行为。图5-6为几种常见实验操作误区及原因。

图5-6 A/B测试的常见操作误区
1.多重检验问题
每一个A/B测试应该尽量减少核心观察指标的数量,正如5.3节开篇介绍的,如果只观察一个指标是否在实验组和对照组上存在显著差异的置信度为95%,同时观察两个指标则置信度变为90.2%,观察到10个指标中至少一个指标存在一个显著差异的概率高于50%,这几乎和“随机猜测”无异。如果想观察多个指标是否存在显著差异,并且希望将置信度调整至95%,应使用Bonferroni校正:如果在同一数据集上同时检验n个独立的假设,那么用于每一个假设的统计显著水平应为仅检验一个假设时的显著水平的1/n。所以,当观察10个指标是否存在显著差异,并且希望将指标置信度水平保持在95%时,每一个变量的置信度水平应该提升到(1-0.05/10)=99.5%才可以。
2.人群不同时
实验中途修改流量,或者实验中临时增加某一个实验组,都是不规范的。但是这种情况经常出现,原因是不了解A/B测试原理并缺乏假设检验的基础理论。笔者将A/B测试的正确实验操作概括如下:A/B测试的任意两个组,在开启实验之后不要做任何事!请将这两组实验当作是已经压上弹匣的导弹,在实验终止日期来临之前请不要对它们做任何操作,不能加流量,也不能修改策略。如果需要更改任何策略或流量,请新建一个复制实验重新开启。
3.缺乏对照组
许多策略产品经理在开启实验时只开启了10%流量的实验组,而不另外开启10%流量的对照组,并认为剩下的90%流量都是对照组。这种方式也是错误的,因为如果不开启对照组,另外90%流量将被其他同页面的实验策略所“污染”,无法进行策略比较。正交只存在于不同的实验层之间。如果不将对照组流量限制在本实验层之内,则本组实验的实验组和对照组将不满足统计上的独立性假设。
4.延滞效应
延滞效应的出现是由于用户存在记忆,所以对于用户做的任何策略实验,在若干天内即使实验停止,仍然会有后续影响。如果我们将某一个刚刚结束的实验分桶,不做重新分流,就会产生严重的延滞效应(Carryover Effect)。比如第一个实验中对实验组用户应用“封面图优化策略”后,该实验组用户已经习惯了更有竞争力的封面图,如果此时不重新做用户打散,继续使用该分流方式叠加新的策略,则无法比较新的策略之间的效果,因为此时比较的是“旧策略+新策略”的混合效果,而非“新策略”的效果。与5.3节中面试题5类似的情况要尽量避免。
5.震荡效应
A/B测试的用户群体在感受到新策略以后,心理会产生与音叉振幅曲线接近的曲线变化。用户在感受到策略变化的前2到3天一般处于新鲜感中,部分用户可能会积极探索策略变化是什么,在后续的几天里新鲜感会逐渐褪去,直至收敛到水平线。在观察A/B测试的天级结果时,我们经常可以观察到这种现象,所以一般选取用户行为已经收敛的2到3天作为结束实验的时机。