干货|A/B Testing学习法宝

作者：传兮留学发布时间：2023-10-19 14:55:34
文章标签：

00 标头Gif网站版本.gif

当我们在日常生活中做决策时

往往会面临各种选择

有时这些选择似乎是微不足道的

比如在早晨决定喝哪种咖啡或选择穿什么衣服

但在商业世界中

决策的复杂性和重要性往往高于我们的日常选择

这就是为什么A/B Testing

一项强大的数据驱动决策工具

如今已经变得如此不可或缺

今天就由传兮留学

带着大家一起探索A/B Testing的魅力

详解这项技能背后的种种！

[本文内容概览]

▓ 什么是A/B Testing？

▓ 为什么学习A/B Testing？

▓ A/B Testing面试是什么样的？

▓ A/B Testing步骤详解

▓ 常见A/B Testing考点

01 什么是A/B Testing？

A/B Testing（也称为A/B分组测试或对照测试）是一种实验性方法。在A/B测试中，一组样本被分成两个或多个随机的分组，然后对测试组进行试验，收集各组的数据，以便进行比较。最终通过显著性检验，判断这个试验是否对核心指标产生显著的影响。

02 为什么学习A/B Testing？

A/B Testing是DS工作者可能经常会接触到的项目类型。这种方法可以在许多领域使用，包括在线广告、电子商务、网站设计、移动应用开发、制定商业战略决策等，以帮助优化用户体验和提高业务绩效。在大厂中的应用更是十分广泛与成熟。

常见的A/B Testing在工作中的用途有：

1. 用于比较两个或多个版本的某个产品、网站或应用、商业决策，以确定哪个版本在用户体验、性能或其他关键指标方面表现更好。

2. 帮助决策者确定哪个版本能够更有效地实现目标，如提高点击率、增加销售量、提高用户满意度等。通过分析和比较不同版本的性能，可以根据数据和统计分析来做出更明智的决策，以改进产品或网站的设计和功能。

03 A/B Testing面试是什么样的？

1. 情景设计考察

Meta, Lyft, Uber等公司考察A/B Testing时一般会给一个产品或者情景询问你如何检测这个产品/决策的效果，一般情况下都需要面试者完完整整地设计一套A/B试验。面试官会在从中提出相对细节的问题考察你面对不同情况的处理应对思路与逻辑。当然这也很考察面试者对A/B Testing流程框架的熟悉度和product sense。

2. A/B Testing知识点难点问答

面试官可能会直接问一些A/B Testing的重要点或者难点。比如直接问面试者什么是Type I和Type II Error，它们如何与A/B测试相关联，或者实验组所需的样本量计算公式是什么。这十分考察面试者对于A/B Testing知识点难点的掌握程度。

3. 过去A/B Testing相关经历阐述

面试官会要求面试者描述一段过去做过的与A/B Testing相关的项目。面试者需要完整细节地将过去做过的A/B Testing相关经历用story telling的方式讲述出来。

04 A/B Testing步骤详解

确定目标和指标

首先，明确定义要测试的目标，并将其转化为可以量化的指标，比如增加点击率、提高转化率，还是提高用户满意度等。确定所需的关键性能指标，以便后续的分析和比较。这通常需要与相关的产品或者项目经理沟通明确，以保证大家目标一致。

生成假设

基于所制定的目标，提出一个假设。例如，假设修改A可以提高点击率。

分组随机化

将目标受众随机分成两个或多个组，通常是实验组被进行试验和对照组持续当前不进行任何改动。这一步的关键是确保随机性，以减少偏差。当然，确定样本量与测试时间也是必不可少的一环。

实施变化

在实验组中应用所要测试的变化，例如修改网页布局、广告内容，应用新功能、或进行商业战略改变。对照组则保持不变，作为基准进行比较。

数据收集

收集与指标相关的数据，包括用户点击、转化、滞留时间等。确保数据的准确性和完整性。

分析结果

对实验组和对照组的数据进行统计分析，比较实验组与对照组的差异，计算出是否存在显著差异。

做出决策

基于数据和统计显著性分析的结果，决定是采用变化（如果它表现更好）还是保留当前。

实施更改

如果决定采用新版本，应将其应用于实际业务中。如果对照组的版本胜出，可以继续优化新版本或重新思考假设。

监测效果

后续监测新版本的效果，得到更长时间线内其表现变化，确保改进在长期内仍然有效。

文档和分享

记录A/B测试的所有细节、结果和决策，保存并分享这些知识以便以后的团队学习和决策。

05 常见A/B Testing考点

1. 指标的分类：

选择适当的指标对于A/B测试的成功至关重要，因为它们决定了你是否能够准确地评估不同版本的性能。指标应与你的目标和假设相关，并且能够提供明确的、可测量的结果。以下指标为工作面试中需要设计的常用指标类型：

● 主要指标（Primary Metric）：这是核心关注指标，是决定测试是否带来显著影响的关键指标。例如，如果你的目标是提高销售转化率，主要指标可能是购买次数或销售额。

● 次要指标（Secondary Metrics）：除了主要指标外，你还可以选择一些次要指标，以更全面地了解测试的影响。次要指标应该与主要目标相关，但可能在次要程度上。例如，如果你关注销售转化率，次要指标可以包括访问次数、平均购物车价值等。

● 护栏指标（Guardrail metric）：一种监测和警告系统的指标，用于确保测试不会对业务或系统产生不可接受的负面影响。比如在广告投放测试中，我们希望其带来广告收益，也就是说，广告投放策略的主要指标通常是广告盈利。但如果广告太多，可能会导致用户体验不佳，活跃度下降，最终造成严重的客户流失的负面影响。在此试验中，我们需要制定例如客户日活量，平均在线时长作为护栏指标检测可能的负面影响。

2. 解释辛普森悖论（Simpson's Paradox）：

辛普森悖论是是概率和统计中的一种现象，其中趋势出现在几组数据中，但当这些组被合并后趋势消失或反转。这个悖论强调了对数据分析的复杂性，因为它强调了数据可能在不同层次或子群体之间发生变化的情况。

一个著名的例子是加州大学伯克利分校的性别歧视案。在不同学系中，男性和女性被录取的比例有显著差异，但合并所有学系的数据显示出了相反的趋势。这是因为不同学系的招生规模存在差异，导致了这个悖论的出现。辛普森悖论提醒我们在选取实验组和对照组时要特别小心不同子群体之间的差异。

3. 如何确定A/B测试的样本量？

样本量通常根据显著性水平、效应大小、方差和测试的统计方法来计算。样本量计算的目标是确保你有足够的观察值，以在测试中检测到所期望的效果。其计算公式为：

其中n是每组所需样本量，因为A/B测试一般至少2组，所以实验所需样本量为2n；α和β分别称为Type I error (false-positive) 概率和Type II Error (false-negative)概率，一般分别取0.05和0.2；Z为正态分布的分位数函数；Δ为两组数值的差异，如点击率1%到1.5%，那么Δ就是0.5%；σ为标准差，是数值波动性的衡量，σ越大表示数值波动越厉害。

从这个公式可以知道，在其他条件不变的情况下，如果实验两组数值差异越大或者数值的波动性越小，所需要的样本量就越小。

4. 什么是A/A测试？

A/A测试是一种特殊的A/B测试，其中两个实验组实际上是相同的，目的是验证测试系统的稳定性，确保随机化和数据收集的质量。

结语

以上就是关于A/B Testing的全部内容

感兴趣的同学记得收藏

想了解更多A/B Testing知识的同学欢迎联系传兮留学的老师咨询！

希望可以帮助到正在求职的各位同学~

干货|A/B Testing学习法宝

[本文内容概览]

金融行业Risk部门MLE岗位全介绍

干货 | CMU MCDS史上最全求职攻略