AB 实验结果分析的多重性
在公司工作,普遍采用了AB实验去验证某个 Feature 的效果,但是客户端或者前端工作而言,我们在做实验分析的时候还需要做更多的事情。 去年自己遇到一个 Case 便是如此。这里不太会透露很多业务的细则。 比如自己再做的的一个实验 A, 它在前端整体跑下来的结果是 显著 positive 的。比如它从设计的出发,会带来某个指标的增长。从假设出发,到最后的结果,我们发现符合预期的。因此我们计划将它应用到全量用户。 总的来说这里没什么问题,但是我们都知道前端其实面临非常多设备型号, 有可能存在某种型号在这个 feature 上的失效,带来负面的影响。虽然我们看到了总体的增长,但是部分用户我们其实并没有看到预期增长,这个是我们工作需要去重视的。 因此后来我们也提议,在做实验结果 Review 的时候,可以 Review Top5 的机型指标增长情况。 很多人提出为什么不再测试阶段去针对多个机型的测试呢? 这里引入另外一个自己的 Case。前端工作的多重性,会让我们的工作总会有所疏漏。 自己在做的某个实验 B,它的假设是可以降低某种错误。然后我们开始进行多个平台的实验,发现普遍都取得了一些效果,然后我们准备去进行全量铺开。然后全量铺开的过程,发现它带来了某一项别的指标的异常上升。然后我们 Review 发现,它在某种机型某种条件下才会失效。 详情 »