5.3.4 A/B测试的两种局限性

5.3.4　A/B测试的两种局限性

除了需要服从顶层设计之外，A/B测试还存在着两种局限性。

1.时间波谷效应

不同时间段的实验只能进行定性比较，不能进行定量比较。因为用户分布和用户活跃度发生了改变，尤其是遇到跨用户活跃度周期的情况。如果对比周末与周中的不同实验结果是不公平的，因为用户在工作日和周末的活跃度往往是不同的。同理，对比节假日的实验结果和平日的实验结果也是不公平的，因为用户群的分布发生了较大的改变，这取决于产品适用于假期活跃还是工作日活跃。

2.时间窗口效应

时间窗口效应即短期实验的效果不一定在长期持续。A/B测试是短期的罗盘，用户在刚进入实验组新策略时的新鲜感在长时间的实验以后会逐渐归于平淡。但从客观事实上讲，由于项目周期的压力，我们不可能让每一个实验都历时一年以上，所以需要在长期和短期实验上找到动态平衡。核心问题还是要验证当时的实验假设，如果能验证则说明当时的假设正确，即使用户对新的策略在长时间后归于平淡，我们也全量上线了一个能取得收益的正向策略。随着不断地增添正向策略，我们总会朝向正确的方向行进，与此同时，在设立长期对照组的情况下测量当时这些策略产生的综合效果。此时不关注每一个策略的单独效果，只要综合效果是正向的，就说明我们在项目周期内的工作是值得肯定的，也应该成为绩效考核之一。