增长观察|不能AB实验怎么办？-鸟哥笔记

用增长视角观察行业动态，洞察增长契机。主要会从用户价值、宏观机会、商业模式、数据驱动和营销技巧等五个维度中挑选合适的切入点，来盘点行业动态给用户增长带来的启示。

上图是我所理解的用户增长全局（姑且称“冰山图”），大众视野能看到的是各种营销策略，而在冰山之下，需要以用户价值为基础，需要对宏观机会和商业模式产生洞察找到切入点，再依靠数据驱动去更科学、更有效的落地增长策略。

本篇从数据驱动视角，针对用户增长领域一个常见的难题整理了一些已有研究和个人想法——不能做AB实验的时候，怎么评估效果？内容主要针对产品经理、产品运营，不涉及具体的技术实现，旨在抛砖引玉。文中难免有不当之处，期待随时交流。

我们知道，很多时候会因为成本问题、时间问题无法进行完备的实验，该如何尽可能准确评估某个增长策略的效果呢？

先说说自然实验。自然实验（Natural Experiments）实际上是一种观察性实验，不对任何用户进行干预，仅通过观察“随机”分组样本的实验结果，进行比较得出结论。请注意这里的“随机”无法像随机对照实验那样通过hash算法实现，而是基于经验选择两个接近相似的群体。比如经常需要评估一个紧急上线功能的效果，自然实验中的一组是使用某功能的用户，另一组是不使用某功能的用户。下面介绍的因果推断、双重差分就属于自然实验。

因果推断方法

因果推断（causal inference）是一类方法的统称，指通过各种数理手段，基于结果对其产生的原因进行估计。本质上随机对照实验也是一种因果推断的方法，并且是一种非常理想、直观的方法，甚至被认为是归因分析的“黄金法则”。然而很多时候我们没有办法做理想的随机对照实验，因果推断中的其他方法，可以提供补充，下面简单介绍断点回归和倾向性得分匹配两种。

断点回归

断点回归是一个直观的方法，结合例子来介绍：假设我们上线的是一个签到得现金红包的功能，签到满7天，才能获得一个现金红包，需要判断签到红包对用户的留存是否有正向作用。这个例子不能用随机对照实验的原因，是因为需要紧急上线，无法留一部分用户（无签到功能）作为对照组。断点回归顾名思义，找到6次签到无红包和7次签到有红包这个断点，观察签到6次，与7次两个用户群体之间的留存率差异，如果差异显著，说明签到红包对于用户留存有帮助；如果没有显著差异，则说明签到红包对提升留存大概率是无效的。如下图示例，可以看到本周签到6次和7次之间存在一个下周留存率的断点，可以说明，签到得红包对于用户的留存帮助明显。

图1 断点回归示例

倾向性得分匹配

倾向性得分匹配（Propensity Score Matching，PSM），是另一种常用的因果推断方法。PSM的核心在于“构造”一个于策略组可比的“对照组”。可以类比随机对照实验，通过倾向性得分匹配构造出一个对照组。如图2，虚框为构造出来的实验组和对照组，实验组使用的是被策略命中的用户群，而对照组是通过计算倾向性得分，从命中策略的用户以外“匹配”出于实验组倾向性得分接近的用户群。

图2 通过因果推断构造实验组和对照组

进行倾向性得分的计算和匹配，需要得到尽可能多的用户特征，比如用户属性、用户行为等详细数据，每种特征被赋予权重，最终为每一位用户计算出一个0到1之间的数值。匹配时，例如我们的策略命中人群得分为0.68，那就可以在备选人群中选择得分在0.68附近，例如0.67~0.69的用户群，作为“对照组”。PSM正是通过这种方式实现了对照组的“无中生有”，其准确定性依赖于用户特征的完备程度，理论上需要尽可能多的特征种类，在匹配前除了看匹配分数外，还需要检验分数的分布，以确保“实验组”和“对照组”的可比性。

双重差分方法

双重差分（Difference-in-Difference，DID）常用于政策效果评估。因为政策下达通常是指定某些城市或区域执行政策，无法做随机对照实验，和PSM一样只能采用构造一个“对照组”的思路。由于城市样本有限，我们甚至无法完成构造，所以DID的思路是设法估算出政策的净效果。类比到用户增长，当评估某个策略的净效果时，需要首先排除时间因素以及其他策略的影响，下面用一个例子简单说明。

图3 双重差分示例

如图3，策略人群是我们要分析的目标人群，因为没有对照组，我们依据经验选择了各方面接近的作为参照人群。图中可见，需要观察的指标，在策略下发前后发生了较大变化（图中a1和b1分别为策略人群策略下发前后的指标均值，a2和b2为参照人群指标均值）。现在需要分析策略效果，如果直接对比策略人群前后指标，得到

策略效果 = a1 - b1

显然，这个差异中包含了指标随时间的波动情况，需要消除掉。而理论上，如果这个参照人群和策略人群足够相似，时间因素的影响对于参照人群也同样存在，进一步得到

策略效果 = (a1 - b1) - (a2 - b2)

类似的，其他策略的影响，在这里也同样存在于对照人群，可以在第二次作差是消除掉。

以上方法有一个前提，需要两个人群满足“共同趋势假设”的条件，即当受到外接影响时，策略人群和对照组有同样的变化趋势。此外，参照人群的选取有很多主观性，难以保证严格相似和可比，所以总体上双重差分建议作为一种快速获得定性结论的方法，其计算得到的策略效果仅作为参考。双重差分之外，还有三重差分的方法，引入了另外一个策略组但原理类似，感兴趣的读者可以自行了解。

边际效果归因

因果推断和双重差分之外，边际效果归因也可以用于定性判断策略是否有效。这种方法基于一个假设：如果策略对用户有影响，加大策略的力度能够看到观测指标发生相应变化。例如图4中，可以看到随着策略力度加大，观测指标同步提升，说明策略是有效的，而没有明显变化则说明策略是无效的。

图4 边际效果归因示例

本质上，边际效果归因是基于预设的因果关系去做假设验证，除了改变策略力度外，下发频次、时间等可能改变策略效果的因素，都可以作为变量去进行验证。如果可以做随机对照实验，这样可以得到严谨的定量结论；如果不能做，即只能针对所有用户都去下发，则需要考虑下发间隔时间等因素（会对用户造成持续打扰，影响效果）。所以，边际归因的方法，也仅仅是一种无法做随机对照实验的补充。

我是尾巴

对以上方法做一个小结：如果条件和成本允许，尽可能使用随机对照实验；如果无法进行随机对照实验，可以尝试探索因果推断、用倾向得分匹配的方法获得接近于实验的结论；如果只想得到一些定性的结论，可以使用双重差分和边际效果归因。

预告：增长观察的下一篇，将针对内容消费中的数据驱动策略，做具体的思考和探讨。

也许现在你还用不到，可以转给需要的TA~

本文系作者：运营那些事儿授权发表，鸟哥笔记平台仅提供信息存储空间服务。

本文为作者独立观点，不代表鸟哥笔记立场，未经允许不得转载。

《鸟哥笔记版权及免责申明》如对文章、图片、字体等版权有疑问，请点击反馈举报