您应该每月进行多少次 A/B 测试?

已发表: 2023-01-19
您应该每月进行多少次 A:B 测试?

这是测试计划成功需要考虑的一个重要问题。

运行太多测试,您可能会浪费资源,而无法从任何单个实验中获得太多价值。

但是运行的测试太少,您可能会错过可能带来更多转化的重要优化机会。

那么,鉴于这个难题,理想的测试节奏是什么?

为了帮助回答这个问题,看看世界上一些最成功和最先进的实验团队就很有趣

亚马逊就是一个这样的名字。

这家电子商务巨头也是一个实验巨人。 事实上,据说亚马逊每年进行超过 12,000 次实验! 这个数量分解为每月大约一千次实验。

据说谷歌和微软必应等公司也保持着类似的步伐。

根据维基百科,搜索引擎巨头每年进行超过 10,000 次 A/B 测试,或每月进行约 800 次测试。

以这种速度运行的不仅仅是搜索引擎。

Booking.com 是另一个在实验中值得注意的名字。 据报道,该旅游预订网站每年进行超过 25,000 次测试,相当于每月进行 2000 多次测试或每天进行 70 次测试!

然而,研究表明,一般公司每月只进行 2-3 次测试。

因此,如果大多数公司每个月只进行几次测试,而世界上最好的一些公司每月进行数千次实验,那么理想情况下,您应该进行多少次测试?

在真正的 CRO 风格中,答案是:视情况而定。

它取决于什么? 您需要考虑许多重要因素。

运行 A/B 测试的理想数量取决于具体情况和因素,例如样本量、测试想法的复杂性和可用资源。

运行 A/B 测试时要考虑的 6 个因素

在决定每月进行多少次测试时,需要考虑 6 个基本因素。 他们包括

  • 样本量要求
  • 组织成熟度
  • 可用资源
  • 测试思路的复杂性
  • 测试时间表
  • 交互作用

让我们深入探讨每一个。

样本量要求

在 A/B 测试中,样本量描述了运行可信测试所需的流量。

要进行统计上有效的研究,您需要大量具有代表性的用户样本。

虽然从理论上讲,您可以只对几个用户进行实验,但不会产生非常有意义的结果。

小样本量仍然可以产生具有统计学意义的结果

例如,想象一个 A/B 测试,其中只有 10 个用户看到版本 A 和 2 转换。 只有 8 个用户看到版本 B,其中 6 个用户转换了。

如图表所示,结果具有统计显着性:

具有统计显着性的测试结果示例

版本 B 似乎优于 275%。 但是,这些发现并不是很可信。 样本量太小,无法提供有意义的结果。

这项研究动力不足。 它不包含大量具有代表性的用户样本。

由于测试动力不足,结果容易出错。 目前尚不清楚结果是随机发生的还是某个版本确实更优越。

有了这么小的样本,很容易得出错误的结论。

正确供电的测试

为了克服这个陷阱,A/B 测试需要有大量有代表性的用户样本来充分发挥作用。

多大才够大?

这个问题可以通过做一些简单的样本量计算来回答。

为了最轻松地计算您的样本量要求,我建议使用样本量计算器。 那里有很多。

我最喜欢 Evan Miller 的,因为它灵活而透彻。 另外,如果你能理解如何使用它,你几乎可以掌握任何计算器。

这是 Evan Miller 的计算器的样子:

埃文米勒样本量计算器

虽然计算本身相当简单,但理解其背后的术语却并非如此。 所以我试图澄清这个复杂的问题:

基准转化率

基线转化率是控制或原始版本的现有转化率。 在设置 A/B 测试时,它通常被标记为“版本 A”。

您应该能够在您的分析平台中找到此转化率。

如果您从未运行过 A/B 测试,或者不知道基线转化率,请做出最有根据的猜测。

大多数网站、垂直行业和设备类型的平均转化率在 2% 到 5% 之间。 因此,如果您真的不确定基准转化率,请谨慎行事,从 2% 的基准开始。

基准转化率越低,您需要的样本量就越大。 反之亦然。

最小可检测效应 (MDE)

最小可检测效应 (MDE) 听起来像是一个复杂的概念。 但是,如果将该术语分为三个部分,它就会变得更容易理解:

  • 最小= 最小
  • 可检测= 希望您通过运行实验来检测或发现
  • 效果= 对照和治疗之间的转化差异

因此,最小可检测效果是您希望通过运行测试检测到的最小转化率提升。

一些数据纯粹主义者会争辩说这个定义实际上描述了最小利益效应 (MEI)。 不管你怎么称呼它,目标是预测你希望通过运行测试获得多大的转化率提升。

虽然这个练习可能会让人觉得很投机,但您可以使用像这样的样本量计算器或 Convert 的 A/B 测试统计计算器来计算预期的 MDE。

作为一个非常普遍的经验法则,2-5% 的 MDE 被认为是合理的。 在运行真正功率适当的测试时,任何更高的值通常都是不现实的。

MDE 越小,所需的样本量就越大。 反之亦然。

MDE 可以表示为绝对量或相对量。

绝对

绝对 MDE 是控制和变体的转换率之间的原始数字差异。

例如,如果基线转化率为 2.77%,而您期望变体实现 +3% 的绝对 MDE,则绝对差异为 5.77%。

相对的

相反,相对效应表示变体之间的百分比差异。

例如,如果基线转化率为 2.77%,而您期望变体实现 +3% 的相对 MDE,则相对差异为 2.89%。

通常,大多数实验者使用相对百分比提升,因此通常最好以这种方式表示结果。

统计功效 1−β

功效是指在假设确实存在的情况下发现效果或转换差异的概率。

在测试中,您的目标是确保您有足够的能力准确无误地检测出差异(如果存在)。 因此,更高的功率总是更好。 但代价是,它需要更大的样本量。

0.80 的幂被认为是标准的最佳实践。 因此,您可以将其保留为该计算器的默认范围。

这个数量意味着有 80% 的机会,如果有影响,您将准确无误地检测到它。 因此,您只有 20% 的几率会错过正确检测效果的机会。 值得冒的风险。

显着性水平α

作为一个非常简单的定义,显着性水平 alpha 是误报率,或者检测到转换差异的时间百分比——即使实际上并不存在。

作为 A/B 测试最佳实践,您的显着性水平应为 5% 或更低。 所以你可以把它保留为这个计算器的默认值。

5% 的显着性水平 α 意味着您有 5% 的机会发现对照和变体之间的差异——当实际不存在差异时。

同样,值得冒的风险。

评估您的样本量要求

将这些数字输入计算器后,您现在可以确保您的站点有足够的流量来在标准的 2 到 6 周测试时间段内运行适当的测试。

要进行验证,请进入您首选的分析平台,查看您要测试的网站或页面在有限时间内的历史平均流量。

例如,在这个 Google Analytics 4 (GA4) 帐户中,通过转到“生命周期”>“获取”>“获取概览”选项卡,您可以看到在 2022 年 10 月至 11 月的最近历史时间段内有 36.5 万用户:

GA4用户数维度
使用此日期范围是为了避免节假日期间的季节性流量发生变化。

基于 3.5% 的现有基线转化率、5% 的相对 MDE、80% 的标准功效和 5% 的标准显着性水平,计算器显示每个变体需要 174,369 名访问者的样本量才能正确运行-动力 A/B 测试:

Evan Miller 样本量计算器示例

假设未来几个月的流量趋势保持相对稳定,则有理由预计该网站将在合理的测试时间范围内达到约 36.5 万用户或(36.5 万/2 个变体)每个变体 18.2 万访问者。

样本量要求是可以实现的,为继续进行测试开了绿灯。

重要说明,此样本量要求验证练习应始终在运行任何研究之前完成,以便您知道是否有足够的流量来运行正确的测试。

此外,在运行测试时,您永远不应该在达到预先计算的样本量要求之前停止测试——即使结果出现得更早。

在满足样本量要求之前过早地宣布赢家或输家就是所谓的“窥视”,这是一种危险的测试做法,可能导致您在结果完全出炉之前做出错误的判断。

如果您有足够的流量,您可以运行多少测试?

假设您要测试的站点或页面满足样本量要求,您可以运行多少次测试?

答案是,这又取决于。

根据微软 Bing 前实验副总裁 Ronny Kohavi 分享的一份报告,微软通常每天进行 300 多次实验。

但是他们有足够的流量来做这件事。

每个实验都会看到超过 100,000 个用户:

Microsoft Bing 300 并发测试

您的可用流量越大,您可以运行的测试就越多。

对于任何测试,您都需要确保您有足够大的样本量来运行动力充足的实验。

如果您是流量更有限的小型组织,请考虑进行更少的更高质量测试。

归根结底,重要的不是您运行了多少测试,而是您的实验结果。

无法满足样本量要求时的选择

如果您发现无法满足样本量要求,请不要担心。 实验对您来说并非不可能。 您有一些可用的潜在实验选项:

  1. 专注于流量获取

即使是大型网站,某些页面的访问量也会很低。

如果您发现网站流量或某些页面上的流量不符合样本量要求,请考虑集中精力获取更多流量。

为此,您可以采取积极的搜索引擎优化 (SEO) 策略,以在搜索引擎中排名更高并获得更多点击次数。

您还可以通过 Google Ads、LinkedIn 广告甚至横幅广告等渠道获得付费流量。

这两种获取活动都可以帮助增加网络流量,并让您更有能力测试哪些内容最能吸引用户。

但是,如果您确实使用付费流量来满足样本量要求,请考虑按流量类型对测试结果进行细分,因为访问者的行为可能因流量来源而异。

  1. 评估 A/B 测试是否是最适合您的实验方法

虽然 A/B 测试被认为是实验的黄金标准,但结果的好坏取决于其背后的数据。

如果您发现您没有足够的流量来运行适当的动力测试,您可能需要考虑 A/B 测试是否真的是最适合您的实验选择。

还有其他基于研究的方法需要小得多的样本,但仍然可以产生非常有价值的优化见解。

用户体验 (UX) 测试、消费者调查、出口民意调查或客户访谈是您可以尝试替代 A/B 测试的其他一些实验方式。

  1. 实现结果可能仅提供方向性数据

但是,如果您仍然专注于 A/B 测试,您仍然可以运行测试。

请注意,结果可能不完全准确,只会提供表明可能(而非完全可信)结果的“方向性数据”。

由于结果可能不完全正确,因此您需要密切监控一段时间内的转换效果。

也就是说,通常比准确的转换数字更重要的是银行账户中的数字。 如果它们在上升,您就知道您正在进行的优化工作正在发挥作用。

测试成熟度

除了样本量要求之外,影响测试节奏的另一个因素是测试组织的成熟度水平。

测试成熟度是一个术语,用于描述组织文化中根深蒂固的实验以及高级实验实践的程度。

像 Amazon、Google、Bing 和 Booking 这样的组织——每月进行数千次测试——拥有先进、成熟的测试团队。

这不是巧合。

测试节奏往往与组织的成熟度水平密切相关。

如果实验在组织中根深蒂固,管理层就会致力于此。 同样,通常鼓励整个组织的员工支持实验并确定实验的优先级,甚至可以帮助提供测试想法。

当这些因素结合在一起时,运行一个权宜之计的测试程序就容易多了。

如果您希望加强测试,首先查看您组织的成熟度级别可能会有所帮助。

首先评估问题,例如

  • 实验对 C-Suite 有多重要?
  • 提供哪些资源来促进实验?
  • 有哪些沟通渠道可用于传达测试更新?

如果答案是“无”或接近于“无”,请考虑首先致力于创建测试文化。

随着您的组织采用更先进的实验文化,自然会更容易加快测试节奏。

有关如何创建实验文化的建议,请查看本文和这篇文章等资源。

资源限制

假设您已经有一定程度的组织支持,下一个要解决的问题是资源限制。

时间、金钱和人力都是可能限制您测试能力的限制。 并快速测试。

要克服资源限制,从评估测试复杂性开始可能会有所帮助。

平衡简单和复杂的测试

作为实验者,您可以选择运行从超级简单到疯狂复杂的测试。

简单的测试可能包括优化元素,如副本或颜色、更新图像或在页面上移动单个元素。

复杂的测试可能涉及更改多个元素、更改页面结构或更新转换渠道。 这些类型的测试通常需要深入的编码工作。

通过运行数以千计的 A/B 测试,我发现始终同时运行大约 ⅗ 更简单和 ⅖ 更复杂的测试是很有用的。

更简单的测试可以让您快速、轻松地获胜。

但是更大的测试,更大的变化,通常会产生更大的效果。 事实上,根据一些优化研究,您运行的测试越多、越复杂,您成功的可能性就越大。 所以不要害怕经常进行大摆动测试。

请注意,代价是您将花费更多资源来设计和构建测试。 而且不能保证它会赢。

基于现有人力资源的测试

如果您是单独的 CRO 策略师,或者与一个小团队合作,您的能力是有限的。 无论简单还是复杂,您可能会发现每月 2-5 次测试对您很有帮助。

相比之下,如果您所在的组织拥有一支由研究人员、战略家、设计师、开发人员和 QA 专家组成的专门团队,您可能有能力每月运行数十到数百次测试。

要确定您应该运行多少测试,请评估您的人力资源可用性。

平均而言,一个简单的测试可能需要 3-6 个小时来构思、线框、设计、开发、实施、QA 和监控结果。

另一方面,高度复杂的测试可能需要 15-20 小时以上的时间。

一个月大约有 730 小时,因此您需要对测试和测试数量进行非常计算,您在这段宝贵的时间里运行。

计划并优先考虑您的测试想法

为了帮助您规划出最佳测试结构,请考虑使用测试优先级框架,例如 PIE、ICE 或 PXL。

这些框架提供了一种定量技术,用于对您的最佳测试想法进行排名、评估实施的难易程度以及评估哪些测试最有可能提升转化率。

进行此评估后,您的测试想法优先列表将如下所示:

CXL 的 PXL 优先级框架

在对您的最佳测试想法进行排名后,还建议您创建一个测试路线图,以直观地规划您的测试时间表和后续步骤。

您的路线图可能如下所示:

测试路线图示例

它应该包括:

  • 您计划测试的想法列表,按页显示。
  • 您预计每个测试阶段(设计、开发、QA 等)将花费多长时间。
  • 根据预先计算的样本量要求,您计划运行每个测试多长时间。 您可以使用像这样的测试持续时间计算器来计算测试持续时间要求。

通过规划您的测试想法,您将能够更准确地确定测试节奏和容量。

当您填充测试路线图时,您可能会很清楚可以运行的测试数量取决于您可用的资源。

你应该一次运行多个测试吗?

但仅仅因为你可以做某事,并不总是意味着你应该做。

当谈到一次运行多个测试时,关于最佳方法的争论很大。

Experiment Nation 领导人 Rommil Santiago 的文章,如这篇文章,提出了一个有争议的问题:同时运行多个 A/B 测试是否可以?

有的实验者会说,绝对不会!

他们会争辩说你应该只运行一个测试,一次一页。 否则,您将无法正确隔离任何效果。

我曾经参加过这个营地,因为那是近十年前我被教导的方式。

严格地告诉我,你一次只能在一页上运行一个测试,进行一次更改。 多年来,我一直以这种心态运作——这让那些想要更快获得更多结果的焦虑客户感到沮丧。

然而,Facebook 前数据科学家、现任 Statsig 首席数据科学家 Timothy Chan 的这篇文章彻底改变了我的想法。

Chan 认为,在他的文章中,交互作用被高估了。

事实上,同时运行多个测试不仅不是问题; 这真的是唯一的测试方法!

这一立场得到了他在 Facebook 期间的数据的支持,Chan 看到这家社交媒体巨头同时成功地进行了数百项实验,其中许多实验甚至在同一页面上进行。

Ronny Kohavi 和 Hazjier Pourkhalkhali 等数据专家一致认为:交互效应的可能性很小。 而且,事实上,测试成功的最佳方法是在持续的基础上多次运行多个测试。

所以,在考虑测试节奏时,不要担心重叠测试的交互效果。 自由测试。

概括

在 A/B 测试中,您应该运行的 A/B 测试没有最佳数量。

理想的数字是适合您的独特情况的数字。

这个数字基于几个因素,包括您站点的样本大小限制、测试想法的复杂性以及可用的支持和资源。

最后,与其说是你运行的测试数量,不如说是测试的质量和你获得的结果。 带来巨大提升的单个测试远比没有移动针头的多个不确定测试更有价值。

测试确实是关于质量而不是数量!

有关如何从 A/B 测试程序中获得最大价值的更多信息,请查看这篇 Convert 文章。