A/B 测试统计：为什么统计在实验中很重要

已发表: 2020-11-16

统计和 A/B 测试快速指南：您需要知道的术语

如果不掌握统计数据，几乎不可能进行合理的 A/B 测试实验。

虽然像 Convert Experiences 这样的平台可以为您处理所有的统计测量、推理和分析，但对一些统计术语有基本的了解肯定会对您有所帮助。

让我们从基础开始。

样本和总体

从理论上讲，使用您网站的所有流量进行 A/B 测试可以让您大致了解您的人口。然而，这可能是对资源的次优利用，因为不可能捕获全部人口。这是样本派上用场的地方。虽然有不同的抽样方法，但使用随机抽样方法有助于确保在样本选择中没有固有的偏差。这种方法的灵感来自于随机对照试验的药学医学实践。

平均值、中位数和众数

用最简单的术语来说，均值代表平均值，中位数代表当所有数字线性对齐时位于中间的值（分布中的第 50^个百分位数），众数是重复次数最多的值。当您浏览 A/B 测试的摘要统计信息时，这三个术语会派上用场。

方差和标准差

这些是衡量数据点离散度的非常重要的概念。换句话说，数据离平均值有多远。标准差是方差的平方根。这就是为什么标准偏差可以更好地判断离散度的原因，因为它与平均值具有相同的测量单位。例如，美国成年男性的平均身高为 70 英寸，标准偏差为 3 英寸。如果我们在此示例中使用方差，则该值将是 9 平方英寸，因此不太直观。将标准偏差视为数据的“通常”偏差。

零假设和替代假设

一个零假设诉诸现状。您的零假设会指出，您在数据中观察到的任何变化（例如提升）都是由于纯粹的随机性。另一种假设是更改不是随机的，但它表明因果关系，这意味着您的更改确实对您的用户产生了影响。

例如，假设您正在尝试为您的目标网页充实最佳标题。您有一个控制变量和一个替代变量。您运行 A/B 测试并获得不同的转化率，因此会有提升（正面或负面）。这里的零假设是差异是由于随机性造成的。替代假设将指出该变化可归因于某个变体。

运行 A/B 测试时，您将获得以下四种结果之一：

你拒绝零假设。
你没有拒绝零假设。
你错误地拒绝了零假设。
你错误地没有拒绝零假设。

理想情况下，结果 a 和 b 应该是目标，因为这些是您可以从中学习的场景。这就是您如何使您的产品更好并最终增加您的底线的方法。结果 c 和 d 对应于以下错误。

I 型和 II 型错误

A/B 测试可能结果中的最后两个选项是 I 型和 II 型错误，也就是误报和误报。

I 型错误是您错误地拒绝了真正的空假设。意思是，您观察到的变化是偶然的，但您得出的结论并非如此，因此这是误报。在大多数情况下，减少误报所需要做的就是提高达到统计显着性所需的置信水平。这通常设置为 95%，但对于关键任务实验，您可能希望将其设置为 99% 的置信度，这样可以将出现此类错误的几率降低到只有 1%。

II 型错误正好相反。在这里，您无法拒绝错误的零假设。这意味着对转化率有真正的影响，无论是正面的还是负面的，但它似乎没有统计学意义，并且您错误地宣称这是由于随机机会造成的。大多数情况下，这是由于缺乏统计能力。

用统计能力的说法，希腊字母 α 代表 I 类错误，β 代表 II 类错误。很容易混淆统计功效和统计显着性。

这张表清楚地表明：

统计置信度

您的测试获得的访问者越多，您的统计置信度就越高，如果您让它运行足够长的时间，它就会达到 99%。但通常情况下，除非是关键任务，否则 95% 的置信水平对于大多数 A/B 测试来说已经足够好（它确保了产生误报的机会，即类型 I 错误最多为 5%）。

统计能力

统计功效与在存在效应时检测到效应的概率有关。

Statistical Power 和 Statistical Confidence 是相关的概念，它们共同作用以衡量 A/B 测试的演变。理想情况下，两者都应该在结束测试之前通过阈值（更多内容见下文）。

置信区间和误差幅度

通常，您的 A/B 测试实验的输出类似于“转化率为 3% +/- 1%”。在本声明中，“1%”代表您的误差幅度。简而言之，这是使测试结果保持可接受的合理转换结果偏差。误差范围越小，您的测试结果就越可靠。随着样本量的增加，您会注意到误差幅度在下降。

如果您使用 Convert Experiences 运行 A/B 测试，您可以访问体验报告，其中详细说明了每月唯一访问者的变化、转化率、改进、信心和转化。您应该获得至少 97% 的信心来宣布获胜者。默认情况下，Convert 平台已经过优化，仅在获得五次转化后才开始报告实验分析。为确保测试的可靠性，Convert 使用双尾 Z 测试。

在您的实验开始时，如果其中一个变体的表现明显更好，您仍应继续规定的测试持续时间。早期结果可能是由噪声或随机性引起的。

最小可检测效果

MDE 是要实现的最小提升，高于此更改变得值得实施。通过选择低 MDE 来准备测试可以让您的实验捕获更细粒度的变化。设置较高的 MDE 意味着您的实验只能检测到重大变化，因此即使样本量较小也可以工作。这里的问题是，在大多数情况下，除非您的网站从未进行过优化，否则不可能进行大刀阔斧的改变以产生足够大的提升。

考虑 MDE 的最佳方式是使用我们的样本量计算器。首先输入您的每周流量和转化次数，然后查看一段时间内可实现的目标。

P值

谷歌首席决策科学家 Cassie Kozyrkov 创造了一个非常简单的定义来解释 P 值：“p 值越低，零假设看起来越荒谬！”

A/B 测试中的 P 值是什么？

P 值定义为假设零假设为真，观察到的结果比观察到的结果极端或更极端的概率。因此，p 值是检查零假设有效性的数学工具。 p 值越小，我们就越确定应该拒绝原假设。

我们使用它的方式是将其与显着性水平进行比较。假设我们有一个 5% 的显着性水平，它直接对应于 95% 的置信水平，那么一旦 p 值变得低于 5/100 = 0.05，我们可以说我们的检验达到了统计显着性并且我们可以拒绝原假设。

如果我们想更加确定，我们将显着性水平设置为 1%，然后等待 p 值降至 0.01 以下。这相当于对我们的结果有 99% 的信心。

流量分布

流量分配有助于将一定比例的流量分配给实验。假设您每个月有 100 位访问者访问您的网站。由此，您可以选择将 30% 的流量分配给实验。默认情况下，A/B 测试中的每个变体都将获得同等份额的流量。因此，如果您有两个变体，每个变体将获得 15% 的流量。

使用转换体验可帮助您通过几次单击配置此流量分配。随着实验过程的发展，您可以创建更多变体并优化分配以满足您的需求。

统计数据如何帮助 A/B 测试？

为什么不能只比较变体 A 和 B 的性能？

即使使用像 Convert Experiences 这样方便的平台来运行 A/B 测试实验，也需要一些时间和精力方面的资源。那么，仅仅创建两个变体，衡量它们各自的转化率，然后选择一个性能更好的变体不是有意义吗？

虽然这听起来务实且足智多谋，但它可能导致错误的结论，甚至曲解结果，因为没有对数据进行统计测试。因此，观察变化是不够的，必须知道要等待多长时间才能确定变化，为此，必须执行 Z 检验、T 检验或 G 检验等统计检验。

仅查看提升或效果大小不会帮助您：

一个。确定与赢得一个变体相关的可能的因果因素

根据设计，A/B 测试会限制您选择只有一些实质性差异的两种变体。对于更大的差异集，您通常会进行更广泛的多变量测试。

A/B 测试的运行规则是，从一开始，您就知道实验中的因变量和自变量。例如，如果您创建两个具有不同 CTA 的集合并放置在相同的布局中，那么如果您可以反驳假设并看到转化率的变化，您就会知道 CTA 的差异是因果因素。

如果您只是运行两种完全不同的变体，即使您在其中一种上获得了相对更好的牵引力，它也无助于您深入了解您的受众或确定它为什么起作用。

湾。区分随机性和因果性

A/B 测试的结构需要一个零假设和一个替代假设。在确定转化率时，零假设通常会围绕随机性作为因果因素而不是您的变体之一的功效进行研究。当没有及时达到统计显着性时，不会反驳零假设，并且任何后续的可变性都被假定为随机性的结果。另一方面，如果你能拒绝零假设，这意味着你发现了一个对假设有正面或负面影响的因果因素的可能性很高（在设定的置信水平上，例如 95% 或 99%）。转换。

C。仅将成本分配给提高转化率的更改

进行的 A/B 测试还将附带统计量度，例如显着性水平、置信区间和误差幅度。大多数临时分析中不存在此类分析概念。

例如，比较两个在信息布局和显示方面存在重大差异的表单提交页面。一个比另一个表现相对更好。现在，您如何确定您将能够复制结果？由于您没有任何数据表明实验结果的重要性，因此无法判断实验结果是否可以复制。

评估和消除 A/B 测试中 I 类和 II 类错误的风险

I 类错误（真实的空假设被拒绝或误报）和 II 类错误（虚假的空假设未被拒绝或误报）可能会对您通过 A/B 测试优化的市场资产产生严重后果。

没有工具可以明确向您显示 I 型或 II 型错误，但它可以帮助您将它们最小化，例如，确保达到 95% 或更高的置信水平，并且统计功效至少达到 80%

假设您在购买周期中制作了最终页面的两个变体，在 10 天内将其展示给大约 10,000 名访问者，并获得结果。您会看到一种变体的性能更好，因此将其应用于您的电子商务网站。

这里的问题是，在您无法在现实中复制实验结果后，您将了解 A/B 测试实验中的 I 类或 II 类错误。有更好的方法可以确保您的 A/B 测试中没有 I 型和 II 型错误。

首先，确保您的样本量足够大，以确保进行合理的统计实验。您可以使用 Convert 的计算器来获得正确的样本量。

然后，确保您的显着性水平至少为 95%，并且在您的功效达到 80% 之前不要停止测试。通过计算器给出的正确 MDE 和实验长度，您几乎可以确保控制 I 类或 II 类错误。前者直接受您设置的显着性水平的影响，而后者受您愿意接受的统计能力的影响。理想情况下，您的置信水平应高于或等于 95%，并且您的统计功效应累积到至少 80%。在这两种情况下，越多越好。如果两个参数都达到 99%，则可以确保 I 类或 II 类错误的风险得到很好的控制，低于 1%。

仅由于 A/B 测试所依据的统计思维，才能发现和消除此类问题。

确定您的 A/B 测试实验是否可扩展

在上面的示例中，即使您看到一个变体在一个月内战胜了其替代方案，您也无法轻松扩展您的实验。这是因为 10,000 名访问者的样本量非常小。

A/B 测试统计数据为您提供了许多启发式指南，以确保您的测试具有可扩展性，其结果也是如此。每个 A/B 测试实验的输出都将为未来的更多测试铺平道路。

首先，首先确保您每个月都有足够的流量来测试您平台的 UI 或 UX 元素的任何变体。 Convert 的专家建议每个变体至少有 10,000 名访问者的流量和 1,000 次转化，以获得统计上合理的结果。一旦你有了这些，请确保你没有同时测试多个元素，允许测试运行相当长的时间，并且可以达到合理的显着性水平。

如果您有一小部分访问者，您仍然可以对电子邮件活动、社交媒体活动甚至 Google 广告组进行 A/B 测试。或者，您可以选择高 MDE 以获得有关您的受众的广泛见解。

使实验具有成本效益

为 A/B 测试分配任何百分比的流量都是有成本的。您正在向您的观众展示一个可能不是最佳的页面或 UX 元素，因此可能会失去一些潜在的收入。虽然 A/B 测试会给你一个明确的想法来扩展一个更优化的元素或页面，这可以弥补这些损失的可能收入，但这个成本可以用作优化测试过程的约束。

进行 A/B 测试后，您可以继续进行 A/B/n 测试，在该测试中您将有更多的变体要测试。

许多在线提供的免费计算器会向您显示此测试获得准确结果所需的样本量。这些计算器基于一个简单的假设运行——计算 A/B 测试的样本量，然后将其与实验中的变体数量相乘。这是一种低效的进行方式。我们的计算器提供高效的多重比较校正选项，例如 Šidak，因此请始终在实验的每一步使用正确的工具，以确保您获得必要的结果，而不会因计算错误而损失额外的资金。

使用 Convert 的 A/B 测试计算器开始计划您的测试

估计和控制样本中的随机性

虽然随机性有几个复杂的数学原理，但它们中的大多数都表明了相同的特征——不可预测性。

随机性可以被视为与明确定义的因果关系相反。您不必知道哪些因素导致了更高的转化率，而不得不依赖一些未定义的外部因素作为结果的可能因果因素。由于您无法控制这些外部因素，因此您无法大规模复制您的测试结果。

如果您没有使用统计上合理的 A/B 测试过程，您就不会费心检查随机性的影响。但是，随机性仍然存在。您最终可能会在测试期间转换但无法大规模运作的营销资产上部署资金。更糟糕的是，您最终可能会削弱现有转化渠道的影响。

A/B 测试统计可以帮助您解决这个问题。当您制定假设时，您正在创建一个场景，其中随机性可能是导致结果更改的原因。如果您可以反驳这种情况，那么您实质上已经驳斥了随机性作为更好转换的原因。随着流程中更多的测试集中在转化漏斗中的其他区域，您可以进一步消除转化优化过程中的随机空间。

理想的情况是定义一个包含一个主要指标和其他护栏指标的总体评估标准 (OEC)，并运行实验以优化前者，同时确保后者不会降级。例如，您希望提高转化率（主要指标），但不希望用户参与度下降，因为这表明客户不满意。

一本很棒的书，可能是迄今为止关于实验的最重要的书，是可信赖的在线控制实验：A/B 测试的实用指南，作者：Ron Kohavi、Diane Tang、Ya Xu。

确保您不需要更全面的多变量测试

Convert Experiences 等综合工具可以帮助您运行多个 A/B 测试。虽然这听起来像是一个微不足道的功能，但它可以帮助您了解您是否需要更全面的多变量测试，或者您的 A/B 测试结果是否足够令人满意。

所有这些都取决于您在了解测试结果后立即执行的操作。您是开始部署获胜的页面或元素，还是进行进一步的测试？如果您的样本量、显着性水平和 MDE 都令人满意，您通常可以部署获胜的替代方案。如果您在另一边，您可以使用进一步的测试来找出不同转换率的原因。

例如，假设您正在测试着陆页上的某个 CTA 是否有助于提高转化率。你运行你的 A/B 测试并有一个明显的赢家。但是，一些统计指标，如显着性水平，并不满足。因此，您采用获胜的变体并创建另一个变体来进行另一个 A/B 测试。

如果结果被复制，您可以对获胜的变体有更高的信心。如果您无法复制第一个测试的转化水平，您可能需要进行多变量测试来找到导致转化提升的元素。

A/B 测试可以帮助您避免依赖自我报告的数据

即使是最小的变量也会对检测到的用户行为产生重大影响。例如，闪烁效果对转化率有相当大的影响。闪烁是当访问者是用于 A/B 测试的示例流量的一部分时，默认登录页面显示在变体页面之前的情况。这可能会导致结果受到污染——即使您正在运行分析一致的流程。

当 A/B 测试等统计和分析过程可能存在问题时，运行自我报告的过程只会导致更多次优甚至错误的结果。自我报告过程经常受到一些偏见和嘈杂数据的污染，因为记住偏好和报告偏好的全部责任都留给了用户，他们没有任何诚实的动机。此外，还有可能导致数据错误的排序偏差和其他外部因素。

A/B 测试让您坐在观察椅上，无需任何形式的用户报告。使用 Convert 等工具，您甚至不必担心闪烁。

使组织决策数据驱动

A/B 测试实验在此过程中不留任何猜测空间。在每一步，您的测试平台都在收集观察结果、记录数据并执行分析。这样，无论您的上级或投资者或机构的偏好如何，您获得的结果都将是数据驱动的。

当过程中涉及多个利益相关者时，最终结果很容易出现次优。 A/B 测试是一个分析过程，它消除了任何此类分层决策或偏见思维的空间。

例如，您的代理机构可能会建议对您的着陆页进行 UI 大修，因为这会增加他们当月的帐单，如果做得好，甚至可能不会妨碍您的转化。但是，通过 A/B 测试，如果您的 Null Hypothesis 保持强大，您就会知道暂时不需要进行此类更改。既然你有数据来支持你的推理，你就不必屈服于你公司的领导地位。这也可以帮助您对抗 HiPPO（最高薪人士的意见）。数据不会说谎，A/B 测试是您可以使用的最佳证明。

通过透明计算了解实验结果

了解 A/B 测试的结果几乎与运行统计严格的测试一样重要。任何工具都可以运行测试、比较备选方案并为您赢得胜利。您需要的是因果关系的指示。虽然统计措施可以突出这一点，但转换体验的设计旨在提高计算的透明度。

该平台有 99.99% 的正常运行时间，允许 90 多个第三方集成，允许第三方目标跟踪，并支持代码和错误检查。这样，在测试过程结束时，您将清楚地知道哪个元素是赢家，为什么它更可取，以及是否需要更多测试才能更有信心扩展它。

使用 A/B 统计数据走向 CRO 成熟度

什么是 CRO 成熟度？统计上合理的 A/B 测试如何帮助您实现目标？

虽然转化率优化似乎是一种孤立的思维方式，但它需要整个公司进行基于流程的变革，以更加专注于转化。挑战在于 CRO 是一个相对较新的领域。在 2018 年的一项调查中，接近 62% 的营销人员在 CRO 工作的时间不到 4 年。

Shopify 的 CRO 专家创建了公司如何倾向于超越 CRO 成熟度的层次结构。当您深入研究此层次结构时，您会发现合理的统计实验对于发展您的组织流程至关重要：

1. 进行定性和定量研究以识别次优接触点

您的 Google Analytics（分析）仪表板通常会帮助您探索消费者体验中需要立即关注的页面或接触点。解决主页跳出率高、购物车废弃、表单填写不完整和跳过电子邮件订阅等特定问题可以作为优化转化漏斗的起点。

2. 在前期研究的基础上制定测试和实验思路

A/B 测试统计数据可以帮助您了解您的网站甚至竞争的基准性能。您可以使用它来了解哪些元素是滞后的，并开始执行更好的 A/B 测试变体。

3. 以最高优先级运行测试和试验想法

在转换体验中设置 A/B 测试想法时，您将设置 MDE 等指标。这些指标将帮助您优先考虑对您的业务产生最大影响的测试，涉及运行实验所需的资源分配。

4. 分析和记录测试结果

进行测试后，了解为什么会得到您所看到的结果变得至关重要。这就是转换体验等平台可以帮助您在随机性和高概率因果关系之间进行过滤的地方。凭借其透明的计算，Convert Experiences 将帮助您了解为什么您的获胜变体表现更好。

5. 创建后续测试

进行 A/B 测试并获得结果后，您可以继续进行更全面的多变量测试或使用另一个变体进行 A/B 测试。 Convert 可以轻松进行各种统计测试，帮助您增强支持获胜变体的信心。

CRO 成熟度模型侧重于跨公司战略与文化、工具与技术、人员与技能以及流程与方法论的整体流程，其中跨成熟度级别跟踪企业的进展，如初学者、有抱负、渐进式、战略性、和变革。

Convert Experiences 为您的 A/B 测试过程带来了严格的数据分析，不需要编码来进行测试，提供可视化和分析可访问的结果，并且测试结果是透明的。将平台作为 A/B 测试计划的核心，您的企业 CRO 成熟度可以更轻松地进入转型阶段。

A/B 测试在行动：基准案例研究

1. 使用谷歌分析和转换经验来生成假设

谷歌分析可以成为了解整个网站潜在改进领域的一个很好的起点。与页面时间相比，流量突然下降、跳出率高等可能是潜在问题的有力指标。

列出您在 Google Analytics（分析）报告中看到的所有挑战。与此同时，对您的网站、社交媒体句柄和电子邮件活动进行定性调查，询问您的受众他们在寻找什么。除此之外，您还可以使用 Hotjar 来了解访问者如何浏览每个页面上的元素。

然后，您可以根据所有这些数据创建有洞察力的变体并运行 A/B 测试。如果您已经在使用 Convert Experiences，您还可以使用 Convert Compass 假设生成工具来进一步加快流程。

2. 通过 A/B 测试增加废弃购物车的转化率

废弃的购物车对您的网站来说很昂贵，对您的访问者来说也很不方便，因为你们俩都投入了大量的时间和资源来实现这一点，但转换没有成功。

使用与其他平台集成的转换体验，您可以制定结构化的方法来应对这一挑战。

首先，首先将 Convert Experiences 集成到您的 Shopify、WooCommerce、PrestaShop、BigCommerce 或您正在使用的任何其他电子商务平台。
然后，使用 Google Analytics 在您的平台上设置目标，并使用 Hotjar 或 Crazy Egg 等工具来评估可能的问题。
借助转换体验，您可以使用这些数据、制定假设并以有组织的方式运行 A/B 测试。使用类似方法，客户观察到收入增长超过 26%。

Convert Experiences 与 100 多种工具集成。查看我们的数据库，了解我们是否与您当前技术堆栈中的工具集成。如果我们不这样做，请给我们留言，我们将构建它！

3.登陆页面优化

登陆页面是整个转换过程的核心。要从您的登录页面中获取最大价值，您可以使用各种工具，例如 Google Analytics、Adobe Analytics、Kissmetrics、百度分析或其他用于该用例的领先工具。 Convert Experiences 与这些平台无缝集成，可帮助您过滤低转化率的登录页面。

接下来，您可以使用 Hotjar 和 Convert 集成来了解页面的哪些元素不起作用。借助热图等高级工具，您可以直观地了解访问者如何访问您页面上的不同元素。除此之外，您可以使用 Convert Compass 生成假设，然后在平台上运行测试。

进行测试后，您可以使用 Convert 与领先的登陆页面构建平台（如 LanderApp、Instapage 或 Hubspot CMS）之间的集成。这些集成将帮助您在登录页面上运行简单的 A/B 测试实验。

使用相同的工作流程，CRO 专家发现转化率增加了 27%，添加到购物车的比率上升了 13%。

通过“卫生”A/B 测试实现更高的投资回报率

网站流量阈值：Convert 建议您拥有至少 10,000 名访问者的流量和超过 1,000 的转化率，可用于每个被测试的变体。

使用正确的 A/B 测试工具：没有正确的测试平台会给你带来污染的结果，让你运行次优的测试，或者对你的资源造成严重的限制。 Convert Experiences 旨在消除这些关键参数，同时确保测试过程可访问、透明和无缝。

您现在可以在 Convert Experiences 中免费运行测试长达 15 天。您将清楚地了解与您的其他转化分析工具集成的无缝、无闪烁和透明平台的感觉。

定义测试目标：您作为企业的目标必须保持一致。例如，当您优化最大注册量时，您团队中的其他一些单位不应该优化后续流程以获得最大销售额。不连贯的用户体验比次优用户体验造成的损害更大。

因此，在整个团队成员中保持目标的一致性。在测试级别，确保在运行 A/B 测试之前、期间和之后清楚地定义样本量、持续时间、统计显着性、假设和 MDE。

排除内部流量：当您运行 A/B 测试时，您的许多团队成员会访问客户旅程中的页面或点以客观地评估页面。这会给您的测试结果带来噪音。

Convert Experiences 旨在过滤此类流量并仅关注您定义的细分受众群，以便在 A/B 测试过程中记录、汇总和分析数据。

关于 A/B 测试统计的最终想法

A/B 测试是一项严格的分析工作，只能在统计严谨的情况下运行。如果没有构建过程中的统计数据，A/B 测试纯属猜测。

Convert Experiences 使您能够进行简化、可访问、可靠且资源高效的 A/B 测试实验。 While the process of A/B testing can seem a little overwhelming at first, it certainly unlocks value in the form of the right insight and analytical proven ideas it gives you. Make sure you never run an A/B test in isolation – it has to be followed up with more tests, and even multivariate tests.
With consistent optimization and unlimited tests made available by Convert Experiences, you can expect your enterprise to become a more analytical and data-driven operation in no time.