5.3.2 分流均匀性检验和小样本问题

5.3.2　分流均匀性检验和小样本问题

一般来讲，在用户体量较大的产品中A/B测试后台的分流误差较小。但是大多数互联网从业者还是分布在更为长尾的小公司中，我们面临的大多数情况是公司用户体量较小，希望搭建A/B测试平台指导业务的前进方向。本节将介绍分流均匀性和小样本问题。

笔者曾经搭建过一次A/B测试后台并且较好地保证了分流均匀，降低了由于实验平台分流机制不完善而导致无法数据驱动的概率，从中得出的结论如下。

●AA测试实验是检验分流均匀性的第一方法。AA测试即两个空白策略的实验对照组，比较空白策略实验组之间是否存在指标显著差异（即H1假设成立）。如果空白策略实验组之间指标有显著差异，说明分流不均匀。换言之，无法用于正常的A/B测试实验。

●小样本情况下，AA预测试可以降低分流不均匀的概率。AA预测试即在A/B测试之前校验该哈希函数随机分流出的实验组和对照组的主要观察指标是否存在显著差异。如果在开启策略实验之前的若干天内，主要观察指标存在显著差异（即H1假设成立），需要重新划分用户和重新评估，直到选出AA预测试不显著的实验组和对照组。

●正交实验的经验数字，在同一页面场景里小样本产品最多同时测试4个实验，大样本产品最多同时测试7个实验。A/B测试的实验层与实验层之间是正交关系，比如策略产品经理小张和策略产品经理小王可以对同一个页面同时测验策略不冲突的实验。比如在首页漫画推荐页面，某一组实验可以测试“封面图选取优化逻辑”，另一组实验可以测试“低质内容过滤策略”，因为这两组实验不互相冲突。但不能同时测试和“封面图选取”有关的两个实验。所谓“正交关系”，是指两组不同实验的每一组都等比例地混合了另一个不同实验的两组。比如“封面图选取优化逻辑”的实验组中，50%是同时命中“低质内容过滤策略”，另外50%也同时命中了“低质内容不过滤的策略”。虽然正交实验的机制保证了可以在线同时进行多组实验，但这个数字并不是无限的，因为每一次的正交分组都是理论成立而非实际成立，同时存在着变量之间的交互作用。比如同一页面的多个实验变量之间不一定是完全独立的，由于分流无法达到100%均匀，每一个实验的分流误差都会放大。例如第一个实验理论上需要均匀地将50%的用户分流，实际上将51%的重度用户分到了某一组；第二个实验同样理论上是均匀地将50%的用户分流，但实际将49%的重度用户分到了某一组，并且如果第一个实验和第二个实验变量是不独立的，可能会导致虽然其中一个实验只有小幅度的误差，但产生了难以预料的变量交互。笔者的经验是，产品在每一个实验组中的用户量在百万级（产品DAU不应该低于1000万），则可以同时允许最多7组正交实验；若每一个实验组中的用户量在十万级或万级（DAU不应低于100万），则在同一个页面、策略不冲突下最多允许4个实验。如果用户量更低，需要酌情减少同时实验的数量，但每一组实验组的用户量不得低于1000人，否则A/B测试将遇到统计功效不足的问题。（以上数字没有严谨的统计依据，仅为笔者的经验数字。）

●复制实验将有效降低实验开启成本。复制实验是指使用相同的实验策略，对用户进行重新随机分层，然后观察实验结果。一般在第一次实验结果差异不够显著或与原始假设冲突较大时使用，主要对应Fisher三原则中的重复性原则。另外，复制实验经常用于发现实验相关配置有问题以后的重新开启，对于实验操作者而言十分方便。

●翻转实验将有效降低决策误判概率。翻转实验是指将原来实验的实验组和对照组进行策略对换，并开启新实验（更换实验ID），即原来实验组的策略变为对照组的策略、原来对照组的策略变为实验组的策略。对于小流量的实验来说，如果原实验和反转实验都呈现出相同的结果，则说明该策略真实有效；如果在疑似分流不均的两组用户上分别观察到了相似的结论，则基本可以排除是哈希算法分流不均带来的影响。