贝叶斯统计:A/B 测试人员的快速且无炒作的入门读物

已发表: 2022-06-23
贝叶斯统计 A:B 测试人员的快速且无炒作的入门读物

您对解释 A/B 测试工具提供的结果的能力有多大信心?

假设您使用的是基于贝叶斯统计的工具,它告诉您“B”有 70% 的机会击败“A”,因此“B”是赢家。 您知道这意味着什么以及它应该如何影响您的 CRO 策略吗?

在本文中,您将学习贝叶斯统计的基础知识,这将帮助您重新控制 A/B 测试,包括

  • 贝叶斯统计的公正观点
  • 频率论与贝叶斯的优缺点
  • 您需要自信地解释和使用贝叶斯 A/B 测试结果,同时避免一些常见的神话陷阱。
隐藏
  • 什么是贝叶斯统计?
    • 贝叶斯起源故事
    • 应用于 A/B 测试的贝叶斯统计示例
    • 对 A/B 测试人员很重要的贝叶斯术语简短词汇表
      • 贝叶斯推理
      • 条件概率
      • 概率分布/似然分布
      • 先验信念分布
      • 共轭
      • 共轭先验
      • 损失函数
    • 什么是频率统计?
    • 贝叶斯与频率论 A/B 测试
      • 频率论者框架
      • 贝叶斯框架
  • 贝叶斯统计实际上在 A/B 测试中告诉您什么?
    • 成为最好的概率 (P2BB)
    • 预期提升
    • 预期损失
  • 要避免的有关贝叶斯统计的神话
    • 误区一:贝叶斯主义者陈述他们的假设,频率论者没有
    • 神话#2。 贝叶斯方法给你你真正想要的答案
    • 误区 3:贝叶斯推理比频率推理更能帮助您传达不确定性
    • 神话#4。 贝叶斯 A/B 测试结果不受偷窥
    • 神话#5。 频率统计是低效的,因为您必须等待固定的样本量
  • 那么,您应该选择贝叶斯还是频率主义者? 两者都有一个地方。
  • 关键要点

准备好? 让我们从基础开始。

什么是贝叶斯统计?

贝叶斯统计是一种基于贝叶斯定理的统计分析方法,它在收集有关这些事件的新数据或证据时更新对事件的信念。 在这里,概率是对事件发生的信念的度量。

这意味着什么:如果您对某个事件有先验信念,并获得更多相关信息,那么该信念将改变(或至少被调整)为后验信念。

这对于理解不确定性或处理大量嘈杂数据很有用,例如电子商务的转化率优化和机器学习。

让我们想象一下:

举例来说,你正在观看一场大学购物车比赛,然后一位兴奋的观众向你发起挑战,打赌那个穿红色 T 恤的家伙推着穿绿色衬衫的女士会赢。 您考虑一下并反驳说,黑色夹克男和黑色连帽衫女孩会取而代之。

接力生活杂货车比赛
资源

头顶上的另一位观众低声向你小声提示:“红色 T 恤男赢得了 4 场比赛中的最后 3 场比赛。” 你的赌注会怎样? 你已经不太确定了,对吧?

假设您还了解到,上次黑夹克男戴上他的幸运太阳镜时,他赢了。 而他不穿的时候,那个红T恤的人赢了。

今天,你看到那个黑夹克的家伙戴着那副眼镜。 你的信念再次改变。 你现在对自己的赌注更有信心了,对吗? 在这个故事中,每次获得新数据的证据时,您都会更新您的信念。 这就是贝叶斯方法。

贝叶斯起源故事

当托马斯·贝叶斯牧师第一次想到他的理论时,他认为它不值得发表。 因此,它在他的笔记中保留了十多年。 正是当他的家人要求理查德·普莱斯检查他的笔记时,普莱斯发现了构成贝叶斯定理基础的笔记。

它始于贝叶斯的思想实验。 他想着背对着一张完全平坦的方形桌子,让助手把球扔到桌子上。

球可以落在桌子上的任何地方,但贝叶斯认为他可以通过用新信息更新他的猜测来猜测哪里。 当球落在桌子上时,他会让助手告诉他它是落在左边还是右边,前一个球落在了前面还是后面。

他注意到了这一点,并听着更多的球落在桌子上。 有了这样的额外信息,他发现他可以提高每次投掷的猜测准确性。 随着我们从观察中获得更多证据,这带来了更新我们理解的想法。

贝叶斯定理贝叶斯统计入门
资源

贝叶斯数据分析方法应用于科学和工程等各个领域,甚至包括体育和法律。

在在线随机对照实验中,特别是 A/B 测试中,您可以通过 4 个步骤使用贝叶斯方法:

  1. 确定您的先前分布。
  2. 选择一个反映您的信念的统计模型。
  3. 运行实验。
  4. 观察后,更新你的信念并计算后验分布。

您使用一组称为贝叶斯算法的规则来更新您的信念。

应用于 A/B 测试的贝叶斯统计示例

让我们举例说明一个贝叶斯 A/B 测试示例。

想象一下,我们在 Shopify 商店的 CTA 按钮上运行了一个简单的 A/B 测试。 对于“A”,我们使用“添加到购物车”,对于“B”,我们使用“添加到您的购物车”。

以下是常客将如何进行测试。

有两个可供选择的世界:一个是 A 和 B 没有区别,因此测试不会显示转换率有任何差异。 这就是零假设。 而在另一个世界中,存在差异,因此一个按钮会比另一个按钮执行得更好。

常客会假设我们生活在世界 1,CTA 按钮没有区别,也就是说,假设原假设为真。 然后他们会尝试以预先确定的确定性水平(称为显着性水平)证明错误。

但这就是贝叶斯将如何处理相同的测试:

他们首先相信按钮 A 和 B 都有相同的机会产生 0 到 100% 之间的转化率。 所以,一开始就有按钮平等——两者都有 50% 的机会成为表现最好的人。

然后开始测试并收集数据。 通过观察新信息,贝叶斯 A/B 测试人员将更新他们的知识。 因此,如果 B 表现出希望,他们可以根据该观察得出一个后验信念,即“B 有 61% 的机会击败 A”。

这两种方法之间存在核心差异。

这就是为什么我们对贝叶斯 A/B 测试保持公正的方法很重要。

大多数贝叶斯 A/B 测试工具——也许是出于营销目的——采取极端的反频率主义立场,并推动贝叶斯更善于告诉你哪个变体更“有利可图”的论点。

但是,是否有任何单一的 A/B 测试统计方法拥有洞察的专有权?

如果进一步推动贝叶斯论点,他们可能会面临研究,其中受访者说他们想知道什么是最佳行动方案,或者他们想最大化利润或类似的东西。 这将问题牢牢地置于决策理论领域——贝叶斯推理和频率论推理都无法直接说明这一点。

Georgi Georgiev, Analytics-toolkit.com 的创建者和“在线 A/B 测试中的统计方法”的作者

我们将在前面的部分中简要介绍这些细节。 现在,让我们让这本入门书的其余部分易于掌握。

对 A/B 测试人员很重要的贝叶斯术语简短词汇表

贝叶斯推理

贝叶斯推理是用新数据更新假设的概率。 它建立在信念和概率之上。

贝叶斯推理利用条件概率来帮助我们理解数据如何影响我们的信念。 假设我们从一个先验的信念开始,即天空是红色的。 在查看了一些数据之后,我们很快就会意识到这种先前的信念是错误的。 因此,我们执行贝叶斯更新来改进我们关于天空颜色的错误模型,最终得到更准确的后验信念

迈向数据科学的迈克尔·伯克

条件概率

条件概率是给定另一个事件发生的事件的概率。 也就是条件B下A的概率。

条件概率贝叶斯统计

翻译:在给定另一个事件 B 的情况下,事件 A 发生的概率等于 B 和 A 同时发生的概率除以事件 B 的概率。

概率分布/似然分布

似然分布是显示您的数据假设特定值的可能性的分布。

如果您的数据可以采用多个值,例如颜色类别可能是灰色、红色、橙色、蓝色等,那么您的分布是多项式的。 对于一组数字,分布可能是正态的。 对于可能是/否或真/假的数据值,它将是二项式的。

先验信念分布

或者先验概率分布,简称为先验,在您获得新数据的证据之前表达了您的信念。 因此,它是您最初信念的表达,在考虑使用贝叶斯分析(或推理)的一些证据后,您将对其进行更新。

共轭

首先,共轭是指连接在一起,通常是成对的。 在贝叶斯概率论中,共轭假设先验与可能性共轭。

如果后验与先验具有相同的函数形式,则先验与似然函数共轭。 这显示了似然函数如何更新先验分布。

共轭贝叶斯统计
资源

共轭先验

这与上面的定义有关。 如果后验与先验概率分布属于同一概率分布族(或具有相同的函数形式),则先验和后验是共轭分布。 在这种情况下,先验称为似然函数的共轭先验。

它们可以是主观的(基于实验者的知识)、客观的和信息性的(基于历史数据)或非信息性的。

损失函数

损失函数是一种通过测量我们当前估计的糟糕程度来量化损失的方法。 它有助于我们最大限度地减少假设检验的损失,特别是在表达位于一系列可能值范围内的推论时,并用我们的测试结果支持决策。

现在一切都结束了,我们可以继续前进。

如果您已经在这个街区呆了一段时间,那么您可能遇到过不止一些频率论者与贝叶斯统计模因。

关于贝叶斯与频率统计的模因
资源

双方似乎都在从相反的方向寻找答案,但事实真的如此吗? 为了更好地理解这一点(同时保持公正),让我们访问Frequentists 阵营。

什么是频率统计?

这是大多数人在统计学中学习的第一个推理技术。 频率统计计算事件(假设)在相同条件下频繁发生的概率。

使用频率论方法的 A/B 假设检验遵循以下步骤:

  1. 宣布一些假设。 通常,零假设是新的变体“B”并不比原来的“A”好,而备择假设则相反。
  2. 除非您使用顺序测试方法,否则请使用统计功效计算提前确定样本量。 使用考虑统计功效、当前转换率和最小可检测效果的样本量计算器。
  3. 运行测试并等待每个变体暴露于预先确定的样本量。
  4. 计算观察结果的概率至少与原假设下的数据一样极端(p 值)。 如果 p 值 < 5%,则拒绝原假设并将新变体部署到生产环境中。

这与贝叶斯相比如何? 让我们来看看…

贝叶斯与频率论 A/B 测试

在任何使用统计推断的地方,这都是一场臭名昭著的辩论。 坦率地说,这是没有意义的。 两者都有其优点和实例,它们是最好的使用方法。

与两个阵营中的大多数推动者所想的相反,它们在几个方面相似,并且没有一个比另一个更接近真相——尽管他们的方法不同。

例如,当应用于 A/B 测试时,没有任何具体的方法可以为您提供关于将导致业务增长的行动过程的绝对准确的预测。 相反,A/B 测试可以帮助您消除决策中的风险。

无论您如何分析数据——使用贝叶斯或频率论方法——你都可以在一定程度上确定你是对的。

因此,这两种统计模型都是有效的。 Bayesian 可能具有速度优势,但比Frequentist 的计算要求更高。

查看其他差异...

频率论者框架

我们大多数人都熟悉介绍性统计课程中的常客方法。 我们定义了上述方法——从宣布零假设、确定样本量、通过随机实验收集数据,最后观察到具有统计学意义的结果。

在频率论中,我们认为概率从根本上与重复事件的频率相关。 因此,在公平的抛硬币中,频率论者认为,如果他们猜得足够频繁,他们将在 50% 的时间中正确地猜出正面,反面也是如此。

频率论者的心态: “如果我在相同的条件下一遍又一遍地重复实验,我的方法得到正确答案的机会有多大?”

贝叶斯框架

虽然常客方法将每个变量的总体参数视为(未知)常数,但贝叶斯方法将每个参数值建模为具有某种概率分布的随机变量。

在这里,您可以直接计算感兴趣参数的概率分布(以及期望值)。

为了对每个变体的概率分布进行建模,我们依靠贝叶斯规则将实验结果与我们对感兴趣度量的任何先验知识相结合。 我们可以通过使用共轭先验来简化计算。

Alex Birkett 这样总结贝叶斯算法:

  • 定义包含您对参数的主观信念的先验分布。 先验可以是不提供信息的或提供信息的。
  • 收集资料。
  • 使用贝叶斯定理用数据更新您的先验分布(尽管您可以在不明确使用贝叶斯规则的情况下使用贝叶斯方法 - 请参阅非参数贝叶斯)以获得后验分布。 后验分布是一种概率分布,表示您在查看数据后对参数的更新信念。
  • 分析后验分布并总结它(平均值、中位数、标准差、分位数……)。

简而言之,贝叶斯实验者专注于他们自己的观点以及概率对他们意味着什么。 他们的意见随着观察到的数据而发展。 另一方面,频率论者相信正确的答案就在某个地方。

了解频率论者与贝叶斯论者的争论不会对 A/B 测试后的分析产生太大影响。 两个阵营之间的主要区别更多地与可以测试的内容有关。

概率统计在后续分析中一般不会大量使用。 Bayesian-Frequentist 论点更适用于 A/B 范式中要测试的变量的选择,但即便如此,大多数 A/B 测试人员也违反了研究假设、概率和置信区间

Rob Balon 博士到 CXL

Georgi 进一步阐述:

有多个在线贝叶斯计算器和至少一个主要的 A/B 测试软件供应商应用贝叶斯统计引擎,它们都使用所谓的非信息先验(有点用词不当,但我们不要深入研究)。 在大多数情况下,这些工具的结果在数值上与对相同数据的常客测试的结果一致。 假设贝叶斯工具将报告类似“B 优于 A 的概率为 96%”,而常客工具将产生 0.04 的 p 值,对应于 96% 的置信水平。

在上述情况下,这比某些人愿意承认的要普遍得多,即使解释不同,两种方法都会导致相同的推论,并且不确定性水平相同。

贝叶斯对这个结果会怎么说? 在查看没有先验信息的场景时,它是否会将 p 值转换为适当的后验概率? 还是所有这些贝叶斯测试的应用都被误导为使用非信息性先验本身?

真的没有必要选择一个营地并在掩体后面找一个地方向另一个营地扔石头。 甚至有证据表明这两个框架产生了相同的结果。 不管你选择哪条路,目的地可能都是一样的。 这取决于您如何使用Frequentist vs Bayesian到达那里。

例如:

  1. 有数据表明贝叶斯测试更快,是交互式实验的首选:

    由于贝叶斯范式允许实验者正式量化信念并结合额外的知识,它比传统的统计分析更快。

    在贝叶斯 A/B 测试模拟中,当调整决策标准(即增加对错误的容忍度)时,75% 的实验在传统方法所需观察值的 22.7% 范围内结束(在 5% 的显着性水平上)。 它只记录了 10% 的 II 类错误。
  2. 贝叶斯也被认为更宽容,而频率主义者则规避风险:

    虽然许多频率学检验使用 95% 的统计显着性,但贝叶斯主义者可以满足于低于此值。 如果一个变体有 78% 的机会击败控件,这取决于预期的损失,那么部署该变体可能是一个合理的决定。

    如果你错了,预期损失不到百分之一,这对许多企业来说都是微不足道的损失。 这种杂乱无章的方法可能更适合在风险非常低的情况下快速做出决策。
  3. 然而,贝叶斯模拟和计算的计算量很大:

    另一方面,频率论者是基于笔和纸的。 警告:如果您的 A/B 测试工具使用贝叶斯,并且您不知道哪些假设被添加到您的数据中,那么您不能依赖供应商给您的“答案”。 用少许盐服用。 并运行您自己的分析。

贝叶斯并不全是阳光和彩虹。 就像 Georgi 用这个问题列表指出的那样:

  • “你想得到先验概率和似然函数的乘积吗?”
  • “你想要先验概率和数据的混合作为输出吗?”
  • “您是否希望将主观信念与数据混合以产生输出?” (如果使用信息先验)
  • “您是否愿意提供统计数据,其中假设与实际数据高度确定的先验信息混合在一起?”

通俗地说,这些都是贝叶斯统计的各个方面。

贝叶斯统计实际上在 A/B 测试中告诉您什么?

您设计了 A/B 测试以深入了解更改如何影响您感兴趣的指标,例如转化率或每位访问者的收入。

当您使用适用于贝叶斯统计的工具时,了解结果的含义很重要,因为“B 是赢家”并不完全是大多数人认为的那样。

贝叶斯 A/B 测试计算器
贝叶斯 A/B 测试计算器

这是一种展示结果的便捷方式,但这不是您的测试所揭示的。 相反,您想要的答案是“A”和“B”的后验比较。

以下是3种比较方法:

成为最好的概率 (P2BB)

A/B 测试概率中的贝叶斯统计成为最佳 P2BB

这是在贝叶斯 A/B 测试中宣布获胜的概率。

具有最佳概率的变体是最有可能继续优于另一个的变体。

这是从原始和挑战者感兴趣的度量的一组后验样本中计算出来的。

因此,例如,如果 B 最有可能提高您的转化率,则 B 被宣布为赢家。

预期提升

A/B 测试中的贝叶斯统计预期提升

那么,如果 B 是赢家,我们应该期待它有多大的提升呢? 它会继续提供我们在测试中看到的相同结果吗?

这就是预期提升试图提供的洞察力。 给定一组后验样本,选择 B 而不是 A 的预期提升被定义为百分比增加的可信区间(或平均值)。

在 A/B 测试中,我们通常将其作为挑战者与控制者进行比较。 因此,如果挑战者输了,它会以负值(如 -11.35%)和正值(如 +9.58%)表示,如果它赢了。

预期损失

A/B 测试中的贝叶斯统计预期损失

由于 B 不是 100% 的概率优于 A,因此如果您选择 B 而不是 A,则有可能记录损失。这表示为预期损失,就像预期的提升一样,它由挑战者反对控制的观点。

它告诉您选择 P2BB 变体的风险(即宣布的获胜者)。

在我们深入神话之前,非常感谢分析传奇人物 Georgi Georgiev。 他在 A/B 测试中对常客与贝叶斯推理以及贝叶斯概率和统计的深入分析启发了下一节。

要避免的有关贝叶斯统计的神话

贝叶斯与频率论者的争论几乎与不必要的一样古老,因此已经收集了很多意见——并引发了很多神话。

A/B 测试工具供应商推广这些神话(神话#2)中最大的一个,告诉你为什么一种方法比另一种更好。

但是在阅读了上面的部分之后,您会更好地了解。

让我们揭示这些神话中的漏洞。

误区一:贝叶斯主义者陈述他们的假设,频率论者没有

这表明贝叶斯以先验分布的形式做出假设,这些假设可供评估。 但是频率论者会做出隐藏在数学中间的假设。

错误原因:贝叶斯主义者和频率主义者做出了相似的基本假设,唯一的区别是贝叶斯主义者在数学之上做出了额外的假设。

频率论模型在数学中使用假设,例如分布的形状、观察结果的同质性或异质性以及观察的独立性。 而且它们并没有隐藏。 事实上,它们在统计界得到了广泛的讨论,并在每一个常客统计测试中都有说明。

真相:频率论者明确陈述他们的假设,并进一步测试假设:正态性检验、拟合优度检验(我们有样本比率不匹配检验)等等。

神话#2。 贝叶斯方法给你你真正想要的答案

这里的误解是 p 值和置信区间不能告诉测试人员他们想知道什么,而后验概率和可信区间可以。 人们想知道诸如

  • B 优于 A 的概率和
  • 结果不是巧合的可能性。

P 值和假设检验(直接推理)不提供该信息,但反向推理提供。

为什么会出错:这是语言学的问题。 通常,当非统计学家使用“可能性”、“机会”和“概率”等术语时,他们并没有考虑到它们的技术含义。 深入探究,你会发现他们对逆向推理和对直接推理一样感到困惑。

根据 Georgi Georgiev 的说法,这样的问题开始出现:

  • 什么是先验概率? 它带来了什么价值?”
  • “什么是似然函数?”
  • “什么‘先验’概率,我没有先验数据?”
  • “我如何为先验概率的选择辩护?”
  • “有没有办法在没有任何这些混合的情况下传达数据所说的内容?”

真相:应该更好地了解测试人员想知道什么,而不是他们对技术术语的误解。 P 值、置信区间和其他值可以告诉您收集的数据对结果的探测程度。 它们提供了一种确定性的衡量标准,不受主观、未经检验的先前假设的影响。

误区 3:贝叶斯推理比频率推理更能帮助您传达不确定性

因为测试的结果会产生更“有意义”的见解。

错误原因:频率论和贝叶斯方法都有类似的工具来帮助您传达确定性和 A/B 测试的结果。

频率论者贝叶斯
● 点估计● 点估计
● P 值● 可信区间
● 置信区间● 贝叶斯因子
● P 值曲线● 后验分布
(完成相同的任务
作为频率曲线)
● 置信曲线
● 严重性曲线等。

真相:这完全取决于你如何使用它们。 这两种方法在传达不确定性方面同样有效。 但是,它们在表示不确定性度量的方式上存在差异。

神话#4。 贝叶斯 A/B 测试结果不受偷窥

一些贝叶斯统计学家认为,一旦看到“明显的赢家”,就可以停止贝叶斯检验,这对最终结果几乎没有影响。

您可能知道这在频率测试中是不可接受的,因此与贝叶斯相比,它被视为劣势。 但真的是这样吗?

错误原因: Armitage 等人在 1969 年《皇家统计学会杂志》上的一项题为“对累积数据的重复显着性检验”的研究中。 展示了基于结果的可选停止如何增加错误概率。

当你注意到一个赢家时,你不能停下来,更新你的后验,并将其用作你的下一个先验,而不调整贝叶斯分析的工作方式。

真相:窥视对贝叶斯推理的影响与对频率论的影响一样大(如果你想做对的话)。

神话#5。 频率统计是低效的,因为您必须等待固定的样本量

CRO 社区的一些成员认为,频率统计测试必须以固定的、预定的样本量运行,否则结果无效。

结果,您等待的时间比获得所需结果的时间更长。

为什么它是错误的:频率统计已经有大约七十年没有被这样使用了。 使用常客顺序测试,您不需要固定的预定持续时间。

真相:今天更流行的顺序测试需要最大样本量来平衡 I 型和 II 型错误,但实际使用的样本量因情况而异,具体取决于观察到的结果。

那么,您应该选择贝叶斯还是频率主义者? 两者都有一个地方。

没有必要选择一方。 这两种方法都有自己的位置。 例如,使用更新的先验并需要快速结果的长期项目更适合贝叶斯方法。

另一方面,Frequentist 方法最适合需要在结果中有大量可重复性的项目。 例如在编写许多拥有许多数据集的人会使用的软件时。

正如谷歌决策智能负责人 Cassie Kozyrkov 所说,“统计是在不确定性下改变想法的科学”。

在她的贝叶斯与频率统计摘要视频中,她说:

“你可以将频率论者和贝叶斯论者的辩论全部归结为你正在改变主意的事情。 常客改变了他们对行动的看法,他们有一个偏好的默认行动——也许他们没有任何信念——但他们有一个他们在无知的情况下喜欢的行动,然后他们问:“我的证据 [或数据] 是否会改变我的想法?那个动作?” “根据我的证据,我觉得这样做很荒谬吗?”

另一方面,贝叶斯主义者以不同的方式改变主意。 他们从一个观点开始,一个数学表达的个人观点,称为先验,然后他们问,“在我纳入一些证据后,我应该有什么明智的观点?” 因此,频率主义者改变了他们对行动的看法,贝叶斯主义者改变了他们对信仰的看法。

根据你想如何制定决策,你可能更喜欢选择一个阵营而不是另一个阵营。”

最后,我们都在走向相似的结论——不同之处在于这些结论是如何呈现给你的。

如果常客和贝叶斯推理是编程函数,输入是统计问题,那么两者在返回给用户的内容上会有所不同。 常客推理函数将返回一个数字,代表一个估计值(通常是一个汇总统计量,如样本平均值等),而贝叶斯函数将返回概率。

摘自《黑客的概率编程和贝叶斯方法》一书

不太正确的是声称一个比另一个给出更多实际结果的说法。

关键要点

A/B 测试中的贝叶斯统计包括 4 个不同的步骤:

  1. 确定您的先前分布
  2. 选择一个反映您的信念的统计模型
  3. 运行实验
  4. 使用结果更新您的信念并计算后验分布

您的结果将指向有洞察力的概率。 所以你会知道哪个变体最有可能成为最好的,你的预期损失和预期的提升。

大多数使用贝叶斯统计的 A/B 测试工具通常会为您解释这些。 但是一个彻底的实验者将进行测试后分析以更好地理解这些结果。

因为你已经做到了这一步,所以对你来说有一个有趣的事实:你知道每个人都熟悉的托马斯贝叶斯的肖像吗? 这个:

托马斯贝叶斯肖像
托马斯贝叶斯肖像(来源)

没有人 100% 确定那是他。

CRO 大师
CRO 大师