APP推广合作
联系“鸟哥笔记小乔”
​如何用A/B测试,给企业增长开挂?
2021-06-22 15:35:29

作者|吴鸿


字节跳动旗下的短视频APP“西瓜视频”,原本叫“头条视频”。但为了让其在短视频行业更具品牌辨识度,团队希望更名。

在经过用户调研和多轮征集筛选后,团队选定4个待选名字进行A/B测试:西瓜视频、奇妙视频、筷子视频、阳光视频。最终的测试结果显示:“西瓜视频”和“奇妙视频”的点击率位列前二,分别比原名称增加了5.22%、5.08%的点击率。结合用户调性等因素综合考量,“头条视频”最终更名为“西瓜视频”。

无独有偶,一次快手内部会议上,联合创始人程一笑在听到“只要公司开放更多资源,营收就能大幅提升”的说法时,也只提了一个要求:先做A/B测试。

上述决策过程反映的,其实是两家数字化时代企业的共同思路:数据驱动、决策不完全依赖个人经验判断。而A/B测试,正是该思路的集**现。

互联网巨头先行验证

大洋彼岸,在Google、Facebook、Netflix、亚马逊的传道下,A/B测试已是风靡硅谷的增长利器。在中国,这一方法论先在头部互联网企业中应用起来

目前,BAT均以内部自建的方式应用A/B测试。同样,新一代互联网巨头字节跳动、美团、滴滴也都建立了自己的A/B测试平台,比如美团的Gemini、滴滴的阿波罗、今日头条的Libra。

具体应用上,以即时配送业务为例,美团以“提出假设、定义指标、检验假设(A/B测试)、分析学习、发布”五个步骤完成精细化的策略迭代,实现降本增效。类似的逻辑,滴滴应用在城市运营领域、字节跳动则更是把A/B测试应用到了产品命名、交互设计、推荐算法、用户增长、广告优化等方方面面。

罗征曾任腾讯广告副总裁,也在谷歌公司任职八年,目前为“像素偏移” 联合创始人与CEO。据他的观察,目前互联网大厂普遍接受A/B测试的逻辑。在算法层面,技术团队基本都能认同A/B测试的价值。“国内(A/B测试)的起步虽然晚一些,但我不认为国内的发展比国外差。”

但另一重不容忽略的事实是:大厂之外,A/B测试的渗透尚处于早期阶段。

即使是同处于互联网行业的中小企业,A/B测试的应用仍然较少。自建A/B测试平台需要人才和资金,推进A/B测试需要时间,要得出可靠的测试结果需要足够的数据量。这些对于中小企业来说都是稀缺的。

此外,如果业务负责人缺少应用新工具的意识,那么A/B测试再管用,在公司内部也难以推行。而退一步讲,就算创业者乐于尝鲜、想靠外包的方式应用A/B测试,市面上也没有让人一下就能想到的值得信赖的工具品牌。

互联网行业尚且如此,传统行业自不必说。虽然金融行业已有应用A/B测试的案例,但主要针对的还是互联网相关的产品,比如金融类APP上的功能测试。

问题随之而来:产业数字化转型不是当前的大热点吗?既然A/B测试的价值已经得到巨头认可,为什么还没有获得广泛普及?

这既有客观条件的约束,也跟关键位置上的“人”对于A/B测试的感知有关。

对于中小团队来说,A/B测试的成本不菲,无论是时间、研发,还是对应的机会成本。创业公司从0到1的时候,尤其看重迭代速度,晚几天发布版本,目标市场可能就会被对手捷足先登,这样的损失没有人愿意承受。

再者,A/B测试存在较高的技术壁垒。分流是A/B测试的基础,企业需要建立靠谱的A/B测试平台,保证科学的流量分割、流量层直接的正交互斥,使得实验不受干扰。此外,A/B测试平台的指标设计和解读、置信度的统计方法,也对应着不小的研发资源投入。

成本和难度之外,A/B测试也对企业本身的数据基建提出要求。有些企业缺乏坚固的数据基建,并不具备使用A/B测试的能力。而当一个既认可“数据驱动”理念、数据基建也过关的企业想推进A/B测试时,它会发现,即使能够对数据进行联动打通,市场上也少有成熟、可靠的A/B测试产品可供使用。

目前,国内独立第三方A/B测试工具还处于相对分散的状态,尚待龙头企业树立标杆。部分互联网大厂虽然锤炼出了一些可靠的A/B测试产品,但是对外开放还处于起步阶段。

至于关键位置上的“人”的问题,一个典型的场景是,部分掌握话语权的产品经理更愿意相信自己对于人性的认知和对于审美的把握,在其看来,数据只是辅助,真正影响决策的,还得是人的经验和洞察。

这或许不是行业环境的问题,而要追溯到中外教育理念的差异。A/B测试的理念从根源上更贴近西方教育中的逻辑、实验、辩证思维。在国外,A/B测试基本不需要在理念层面做推广,而国内的情况则明显不同。

诸多的客观约束、加上人们对A/B测试的认识存在差异,种种因素的叠加下,行业存在不少对A/B测试的误读和两极化判断。但好在,已经有不少资深从业者躬身入局,他们的切身感受,正是破解误读的关键。

A/B测试的三大误区

根据「深响」与互联网资深从业者,尤其是有过A/B测试实践经验的专业人士的交流,目前行业内存在的误读和两极化判断,主要体现为以下三大误区:

  • 误区一:A/B测试是在浪费资源。

不只是中小企业,大公司内部在迭代业务时也会存在类似的质疑。除了上文已经提到的搭建测试平台所需的成本,A/B测试的资源投入还以更直观的形式体现于执行过程中。

一个最简单的例子,某公司旗下的APP想要提升注册转化,此时,业务部门想应用A/B测试,准备测试方案的过程需要协调各部门(比如设计、产品、运营)共同完成,而测试过程本身也是个需要投入时间的事情。测试做完,如果A/B测试效果不够突出,公司内部很容易出现“折腾一趟不划算”的想法。

成本,是A/B测试无法规避的问题。“越小的公司,对成本的容忍度就越低。这永远是一个取舍的问题”,罗征表示。

不过,小公司应用A/B测试的情况也不算罕见。早在2012年,有瞰学社创始人&CEO、知名互联网运营专家黄有璨就接触过A/B测试,丰富的互联网从业经验和创业经验,让其对A/B测试的价值有更切身的体会。

在黄有璨看来,如果公司业务处于早期,那么A/B测试稍微控制不好,肯定会造成一定资源浪费。但当业务比较成熟时,管理者思考的是:如果不做精细的A/B测试,要承担的风险是什么?

“假如这个测试能直接影响一年的收入,那么不做A/B测试,我要承担的风险可能是浪费三四个月的时间(在错误的决策上)。如果我投入资源做个详细的A/B测试,可能要花一百万或两百万,但这能帮助我节省下来三到四个月的风险,这笔帐肯定能算明白。”黄有璨告诉「深响」。

言而总之,A/B测试的成本问题,说到底是性价比问题。而看待A/B测试的性价比,不能只是静态地看测试的瞬间,而是要放长线来考虑。如果一次A/B测试帮助企业前置思考,避免了错误方案的执行,那绝对是“花小钱办大事”,不存在资源浪费一说。

如何评价一个A/B测试是好是坏?在黄有璨看来,一方面要看A/B测试本身的成本够不够低,或者效率是不是最高,即财务上要能算得过来,测试反馈也要足够快;另一方面,A/B测试结论的科学性和准确性和成本同样重要。

交流中,黄有璨多次提到了变量控制的难度——用户的构成、时间上的差异、以及用户来源渠道的不同等,都会影响A/B测试的准确性。只有当测试环境相对干净,不受额外变量的干扰,测试结果才有参考的价值。

“谁来设计A/B测试,他的思考或逻辑清晰不清晰,他是否能借A/B测试的信息反馈快速确定结论。这件事其实是更加重要的。”黄有璨表示。

  • 误区二:小公司不需要A/B测试。

小公司需不需要A/B测试?这个问题其实已经把A/B测试预设成“大费周章”的事,但流程只是表象,A/B测试真正重要的是其“对照实验”和“数据驱动”的核心理念。

黄有璨向「深响」介绍了一段亲身经历,在公司业务还未成熟的时候,为了测试一个课程的详情页转化效率,黄有璨自己做了两三个版本的详情页,将其放在不同的用户样本中进行测试,以“人肉”手段跑完了A/B测试,最后选用了数据最好的详情页版本。

在黄有璨看来,A/B测试不是巨头的专利,它小到“一个人都可以做”。当业务模型得到验证,团队规模发展到几百人时,需要做A/B测试的场景也会越来越多,这时公司可以考虑让第三方工具帮忙提升效率。

上述经历其实都在说明一件事:做不做A/B测试,跟公司规模无关。如果在意成本问题,那么接入第三方工具会是一个值得考虑的选择。

在这方面,罗征向「深响」着重表达了自己对于小公司接入第三方工具的认可。“大部分小厂可以采用专门的SaaS服务,大厂通常会因为需求比较复杂和独特而倾向自研。”

认为A/B测试浪费资源也好,认为小公司不需要A/B测试也好,这些其实都是可以通过“算账”解决的问题。全盘否定不可取,而盲目买单A/B测试的做法,同样不是明智之举。

  • 误区三:A/B测试是万能的。

互联网造就了诸多增长神话,也颠覆了各行各业的底层逻辑。因此,不少从业者将“数据驱动”、尤其是以数据驱动为核心理念的A/B测试奉为信仰,他们把A/B测试当作评判一切的标准,试图将所有业务进行量化。

这是个典型的“手拿锤子,看什么都是钉子”的思路。

据罗征总结,A/B测试更适用于用户数量大、且用户之间关联度不高,结果容易以数据衡量的领域,如广告行业、搜索系统等。如果行业本身并不具备这些特征,或者压根没法执行A/B测试,那么A/B测试的价值就很难体现。

罗征向「深响」描述了一个无法应用A/B测试的场景:大部分内容行业,比如综艺节目,就基本不可能做A/B测试,而且做产品原始设计的时候,其实也是不能A/B测试的。

“有些事情就没有办法A/B测试,或者A/B测试的成本过大,你就做不到了。”

A/B测试的真正价值

生于硅谷的光鲜背景、加上国内互联网大厂的带货,A/B测试概念的热度与日俱增。但太高的起点也让其被太多模糊焦点的信息所裹挟。纠偏的第一步,在于回本溯源,回答一个所有企业都关心的问题:A/B测试真正的价值到底是什么?

第一点,最直观的一点,A/B测试能真正落地数据驱动,帮助企业科学决策。在传统的经验主义运营模式下,业务负责人能力再强,也难免有失手的时候。但作为一种前置验证的手段,A/B测试的价值不仅能帮助企业准确评估哪个方案更好,还能评估出好多少、为决策提供量化参考。

今日头条APP曾因整体UI风格偏大龄被诟病。为了吸引更多年轻用户和女性用户,也为了在可接受的负向范围内改一版用户评价更高的UI,今日头条通过控制变量,开展了多次A/B测试,变量包括头部色值饱和度、字号、字重、文字间距、底部tab icon等。

经过多次测试,今日头条APP最终找到了一套综合效果最好的UI版本。新UI上线4个月后,图文类时长显著提升1.66%、搜索渗透显著提升1.47%。高频用户逐渐适应新UI的同时,用户调研也显示,年轻和女性用户对新UI表现出了更明显的偏好。

今日头条APP的案例正好解释了量化参考为何重要。在方案的实际执行中,业务人员需要在资金、人力、时间、后续维护等方面做好平衡,需要找到边际效益的临界点。A/B测试对不同方案效果的量化,恰好提供了对应的参考。

更重要的是,在不断的测试过程中,企业还将沉淀知识,建立起一套科学的运营、优化体系。这样一来,业务的创新不再高度依赖于某个关键位置上的“人”,领导者敢于放权,自下而上的创新得以实现。

第二点,同时也是科学决策的另一面,A/B测试能帮助企业规避风险。

假如一个带有错误特性的新版本全量推给用户,影响的可能是千万、甚至上亿用户的体验,后续挽回损失的代价也同样让企业难以承受。A/B测试可以通过分流出小部分流量进行测试,将负面影响控制在实验范围内,防止错误决策造成更大的损失。

“A/B测试本质上,是帮助我们提高选择、判断的准确性,以及提升决策时的效率,降低成本。”黄有璨告诉「深响」。

第三点,从企业发展的长远角度看,A/B测试是企业复利式增长的新标配,其尽可能地让企业的每个决策都带来正向收益,持续循环,最终实现指数级增长。

一家公司,从初创企业到独角兽,再到成为行业巨头,整个过程中最令人惊叹的地方往往是:这家企业需要在每个重要节点都做出正确的选择。如果稍有不慎,哪怕只是一次错误,也可能让原处于高歌猛进状态的企业走起下坡路。

道理不难懂,难点在于,没有人能看到未来,只能尽最大努力基于已有信息作判断。而A/B测试,是一个把消费者行为数据化、用数据对行为进行量化反馈的过程,这对企业预判趋势大有裨益。

从心理上,用户往往不知道自己要什么,但其选择偏好其实已经反映在了行为上,只是市场尚未有相应供给,告诉他们“你要的是这个”罢了。通过A/B测试,企业能够知晓消费者的选择偏好,由此动态做出决策,这相当于把“用户中心”往前再推一步,变成“用户决策中心”,确保每个决策都为企业带来正向收益,实现复利效应。

简言之,A/B测试让业务迭代、新品研发能够有的放矢,原本不确定的决策,将变成确定的决策,企业得以精准洞察商机。

除了驱动增长之外,A/B测试还可以帮助企业“做减法”。当前,很多企业推出了五花八门的服务,试图在广撒网中找到增长密码,但用户体验不增反降。而A/B测试,恰能帮助企业精准地“做减法”,帮用户简化场景中的选择。

最后,从更底层的理念层面看,A/B测试是落实数据驱动理念的最佳工具。让理念得到落实,进而辐射、渗透到企业的血脉中,才是A/B测试更大的价值。

小到UI设计的改变、转发按钮的放置,大到组织的迭代升级,A/B测试的价值可以贯穿企业增长的全过程。

但要做好A/B测试并不容易,需要有足够专业的人来设计测试方案,也需要决策者对A/B测试有足够的认同。这样,A/B测试才不至于在推行之初就阻力重重。

万事开头难,何况是一个投入先于效果、且极其考验决策者决心的工程。唯一可以确定的是,A/B测试的重要性日益凸显,价值已经非常明确。挑战当然有,但当企业真正掌握这把增长利剑时,业务增长路径就会豁然开朗。

-END-

深响
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
深响
深响
发表文章1426
深响是一支TMT领域新锐研究机构,由资深媒体人与投行人组成的精品团队,致力于深度研究全球范围内的商业案例,以优质的内容为行业与读者创造价值。
确认要消耗 0羽毛购买
​如何用A/B测试,给企业增长开挂?吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接