所有关于 A/A 测试：为什么以及何时应该运行 A/A 测试？

已发表: 2022-07-07

A/A 测试允许您测试两个相同的页面，并且在设置新的 A/B 测试工具时非常有用。

A/A 测试可用于

评估 A/B 测试平台的准确性，
确定您的 A/B 测试平台是否与您的内部分析完全集成，
识别您的 A/B 测试工具可能存在的技术问题，
为页面或渠道提供基准转化率，
确定用于 A/B 测试的适当样本量，以及
对您的网页和渠道的性能进行基准测试。

Convert 提供 A/A 和 A/B 测试功能，以确保您拥有成功设计和开发高转化率网站所需的一切。

继续阅读以了解更多关于 A/A 测试的重要性以及如何设置您的第一次体验的信息！

隐藏

什么是 A/A 测试？
为什么要运行 A/A 测试？
- 检查 A/B 测试平台的准确性
- 确定与您的内部分析的集成程度
- 识别可能的技术问题
- 为任何页面或渠道提供基准转化率
- 找到必要的样本量
- 对页面和渠道的性能进行基准测试
设置 A/A 体验
如何解释 A/A 测试结果？
- 我们预计 A/A 体验的结果不确定
- 如果您得到不同的变化，这意味着什么？
A/A 测试的挑战是什么？
- 随机性
- 大样本量
转换体验和 A/A 测试
- 如何在转换体验中设置 A/A 测试？
  - 纯粹的 A/A 体验
  - 校准的 A/A/B 或 A/A/B/B 体验
  - 运行许多 A/A 体验
- 我可以在 A/B 体验的同时运行 A/A 体验吗？
- 测试前 QA 流程：A/A 测试的有趣替代方案
- SRM 可以存在于 A/A 测试中吗？
A/A 测试的优点是否大于缺点？

也许你以前也遇到过这样的事情……

您运行 A/B 测试以查看您的新 CTA 按钮和标题是否会增加转化次数。
在接下来的一个月中，您向控制和变体目标网页发送相同数量的流量。
您的软件声明您的变体是赢家（有 99% 的置信度），所以您停止了。
然后你启动了你的“成功”设计，但是在几个商业周期之后，你发现你的转化率提高了 50% 对你的净收入几乎没有影响。

最可能的解释是假阳性测试结果。幸运的是，有多种方法可以处理不正确的测试。

您可能听说过的一种是 A/A 测试。

什么是 A/A 测试？

在我们深入了解 A/A 测试之前，让我们先谈谈 A/B 测试，这样我们就可以指出它们之间的区别。

在典型的 A/B 体验中，流量在两个或多个备选变体之间分配。

一种变体通常被指定为“对照”或“原始”。将体验的所有其他变体与对照进行比较，以确定在给定指标中哪个变体产生最大的提升。

另一方面，A/A 测试要求将流量分配给两个相同的变体，通常使用 50/50 拆分。

在正常的 A/B 测试中，目标是找到更高的转化率，而在 A/A 测试中，目的通常是检查变化是否具有相同的提升。

在 A/A 测试中，流量被随机拆分，两个组显示相同的页面。

然后，记录每组报告的转化率、点击率和相关统计数据，以期从中学到一些东西。

A/A 测试 = 2 个相同的页面相互测试

现在，让我们看一些可以使用 A/A 体验的示例，以确定它们是否对您有用。

为什么要运行 A/A 测试？

在网页设计和开发过程的各个阶段运行 A/A 测试可能特别有效，例如：

当您安装完新的 A/B 测试工具后，
当您当前的 A/B 测试工具的设置已升级或更改时，
当您创建新网站或应用程序时，
当您发现 A/B 测试的数据报告与您使用的其他分析工具之间存在差异时。

让我们更深入地研究每个用例。

检查 A/B 测试平台的准确性

A/A 体验可以由希望获得 A/B 测试平台的公司或希望尝试新测试软件（以确认其设置正确）的公司推出。

在 A/A 体验中，我们比较同一页面的两个完全相同的版本，目标是获得相似的转化价值。

如果控制和变异之间没有差异，则预期结果是不确定的。

在转换 A/A 体验中比较同一页面的相同版本 — *在 A/A 体验中比较同一页面的相同版本*

即便如此，有时会在两个相同的副本上宣布“获胜者”。

发生这种情况时，评估 A/B 测试平台至关重要，因为该工具可能配置错误或可能无效。

作为下一步，您应该：

检查您是否正确安装了 A/B 跟踪代码
检查您的站点区域
检查您的受众
检查你的目标
联系 A/B 测试支持团队，以确定在放弃您的平台之前是否可以解决问题。

希望问题是上述问题之一。如果你无法找出问题所在，这可能意味着 A/A 测试是结论性的，而你的 A/B 测试平台不准确。

确定与您的内部分析的集成程度

在检查 A/B 测试平台的准确性时，您可以使用 A/A 测试来评估该平台是否与您的分析工具完全集成。

无论您使用的是 Google Analytics、Heap Analytics、Adobe Analytics、Plausible、Matomo 还是其他任何工具，您都可以将 A/A 测试结果与您的内部分析工具进行比较，以确定集成是否按预期工作。

例如下面的例子，GA 已经在 Original 上识别了 620 位访问者，在 Variation 上识别了 592 位访问者（与 Original 页面相同）。

在同一日期范围内，Convert 显示原始访问者为 972 人，变体访问者为 980（与原始页面相同）。

这可能表明两个平台之间的集成没有按预期工作。

在 Convert Experiences 中使用 A/A 测试来评估您的 A/B 测试平台是否与您的分析工具完全集成 — *使用 A/A 测试来评估您的 A/B 测试平台是否与您的分析工具完全集成*。 GA 报告

识别可能的技术问题

您还可以使用 A/A 测试来识别可能的技术问题。

大多数 A/B 测试软件使用的方法有些不同，并且可能导致显着变化，具体取决于程序的推进程度。

这可能看起来是一种异常情况，但也可能表明存在以下情况之一的更严重的潜在问题：

数学和统计公式
随机化算法
浏览器 cookie

您可以使用 A/A 经验来揭示上述问题。

在下面的案例中，Wish 数据科学家注意到 SRM 对 A/A 测试的担忧。经过彻底检查，确定 SRM 是由于它们的随机化不是完全随机的。

在转换体验中使用 A/A 体验揭示随机化算法的问题 — *使用 A/A 经验揭示随机化算法的问题*Source

随机化技术对于可靠的实验结果至关重要。

随机样本的使用是 A/B 测试中使用的统计测试的基本假设。

随机化平衡了实验桶之间观察到的和未观察到的用户因素。它在被测试的产品特性和试验结果的任何变化之间建立了因果关系。

为任何页面或渠道提供基准转化率

如果你想提高任何一个数字，你必须首先掌握它的基线是什么样的。这可能是您的速度、体重或跑步时间。

同样，在执行任何 A/B 测试之前，您必须首先确定要比较结果的转化率。这是您的基准转化率。

您可能听说过单次体验会增加收入，但这可能会产生误导。单一的体验不会告诉您您的网站转换是否有所改善。

了解您的基准转化率很重要，因为如果您无法量化每次体验的提升，则需要经常比较总体预期转化率和已完成转化率。

运气好的话，每一次被视为“胜利”的体验都将帮助您的转化超出预期。

如果您经常这样做，您的转化率只会继续提高！

A/A 测试将帮助您实现这一目标。

假设您在一个着陆页上运行 A/A 测试，原始 A 和变体 B 提供几乎相同的结果：2.14% 和 2.13%。

因此，基线转化率可以设置为 2.13-2.14%。

考虑到这一点，您可以进行未来的 A/B 测试，目标是超过这个基准。

如果您在新版本的着陆页上运行 A/B 测试并获得 2.15% 的转化率，则结果在统计上不显着。

在转换体验中的新版本登录页面上运行 A/B 测试时的统计结果不显着 — *在新版本的着陆页上运行 A/B 测试时的统计结果不显着*

找到必要的样本量

在进行 A/B 体验之前，请仔细检查您的样本量，就像在进行公路旅行之前一样。

如果没有足够的样本（用户），您将无法观察到体验效果。另一方面，如果你有太多的样本，你可能会因为不断地让人们接触到糟糕的体验而减慢团队的进度。

理想情况下，您永远不应该在没有首先确定您将收集多少样本的情况下开始体验。

要了解原因，请考虑以下几点：

假设你有一枚硬币，你的假设是它有 50/50 的机会正面或反面。为了证明这一点，你折腾了一百次。

但是，假设您在前十次抛掷中有十次反面，并决定在那里停止实验。

拒绝原假设（硬币是公平的）可能看起来具有统计意义，但您提前终止了实验。您不知道该实验需要多长时间才能开始。

如果您不估计样本量，您也可能无法确定您将进行多长时间的体验。

那么我们该如何处理呢？

A/A 测试可以帮助您确定您需要从网站访问者那里获得多大的样本量。

也许，您周一早上的访客在统计上与周六晚上的访客完全不同。也许，您的假日购物者与在非假日季节购物的人在统计上有所不同。

您的桌面客户可能与您的移动客户在统计上有所不同。而且，通过赞助广告而来的客户与来自口碑推荐的客户不同。

在设备和浏览器等类别中查看结果时，您会惊讶于通过正确的样本量发现的趋势。

当然，如果您的样本量太小，结果可能不可靠。您可能会错过一些部分，这可能会影响您的体验结果。

较大的样本量会增加包括影响测试的所有部分的可能性。

通过运行 A/A 测试，您将能够确定哪种样本量可以实现相同变体之间的理想相等。

使用 Convert Experiences 中的 A/A 测试来确定哪个样本量允许您的相同变体之间相等 — *使用 A/A 测试来确定哪些样本量允许相同的变体之间相等*

简而言之，A/A 测试可帮助您确定可用于未来 A/B 测试的适当样本量。

对页面和渠道的性能进行基准测试

有多少访问者访问您的主页、购物车页面、产品页面和其他页面？

当你这样做时，你不关心你是否会找到赢家。相反，您正在为某个页面搜索更大的模式。

这些经验可以帮助您回答以下问题：

首页的宏观转化率是多少？
按访问者细分的转化率是多少？
按设备细分的转化率是多少？

A/A 体验为您提供了一个基准，您可以根据该基准比较网站任何部分的新鲜 A/B 体验。

有人可能会争辩说，您可以通过网站的分析获得相同的信息。

但是，这既是真实的，也是不真实的。

A/B 测试工具主要用于宣布获胜者（同时将测试数据发送到 Google Analytics 或执行其他计算），因此您仍然需要在运行时观察网站指标。

设置 A/A 体验

A/A 体验是转化率优化的一个非常重要的工具。

但是，A/A 体验的挑战在于决定在进行体验时使用哪个页面。

确保您为 A/A 体验页面选择的页面具有以下两个品质：

高流量。 访问页面的人越多，您就会越早注意到变体之间的一致性。
访客有能力购买或注册。您需要微调您的 A/B 测试解决方案，直至完成。

这些要求是我们经常在网站首页进行A/A测试的原因。

在下一节中，我将更详细地解释如何创建 A/A 测试活动，但简而言之，以下是如何在网站主页上设置 A/A 测试：

制作同一页面的两个相同版本：控件和变体。完成创建变体后，选择具有相同样本大小的受众。
确定您的 KPI。 KPI 是衡量一段时间内绩效的指标。例如，您的 KPI 可以是点击号召性用语的访问者数量。
使用您的测试工具将您的观众均匀随机分配，将一组发送到控制组，另一组发送到变体组。运行体验，直到控制和变化都达到一定的访问次数。
跟踪两个组的 KPI。因为两组都接触到相同的内容，所以他们应该采取类似的行动。
将您的 A/B 测试工具连接到您的分析软件。这将允许您仔细检查您的数据是否在您的分析程序中准确收集。

如何解释 A/A 测试结果？

我们预计 A/A 体验的结果不确定

虽然季节性不太可能改变 A/A 测试的结果，但其目的之一是检测意外结果。出于这个原因，我们建议在查看结果之前至少运行一周的测试。

在一周结束时，当您检查 A/A 测试的结果时，您应该注意到以下行为：

随着时间的推移，您的统计显着性将围绕给定值稳定下来。 10% 的时间，统计显着性将稳定在 90% 以上。
随着收集到更多数据，您的实验的置信区间将缩小，排除非零值。
在测试结果期间，原始版本和变体版本在不同点的表现可能不同，但两者都不应被正式标记为具有统计学意义的赢家。

因为变化之间应该没有差异，所以您应该只看到适度的差异并且没有统计上显着的结果。也许，您会看到以下内容：

在转换体验中运行 A/A 测试时的统计结果不显着 — *运行 A/A 测试时的统计结果不显着*

如果您得到不同的变化，这意味着什么？

如果 A/A 体验中两个相同的变体之间存在相当大的差异，则可能意味着您的A/B 测试软件没有正确实施或测试工具效率低下。

但是，也有可能是体验没有正确进行，或者结果是由于随机方差造成的。这种抽样误差是在测量样本时自然发生的，而不是测量所有访问者。

例如，95% 的置信水平表明每 20 次出现中奖结果将出现一次，这是由于抽样误差而不是两种变体之间的有意义的性能差异。

正确执行的 A/A 体验可能无法验证变体身份的另一个原因是目标受众的异质性。

例如，假设我们对一组女性进行 A/A 体验，针对不同年龄的女性提供不同的转化率。

即使我们正确地运行测试，使用准确的 A/B 测试工具，它仍然可能揭示两个相同变体之间的显着差异。为什么？在这个例子中，50% 的访问者可能年龄在 20 到 90 岁之间，而另外 50% 的访问者可能在 20 到 50 岁之间。不一致的结果不是平台的错误，而是表明这两个受众是非常不一样。

最后，在运行任何类型的测试（包括 A/A 测试）时，另一个常见错误是不断检查结果并在检测到统计显着性时过早结束测试。

这种过早宣布获胜变化的做法称为“数据偷看”，它可能导致无效结果。

在 A/A 测试中窥视数据可以让分析师看到一个变体的提升，而这两个变体实际上是相同的。

为避免这种情况，您应该提前决定要使用的样本量。做出此决定的依据是：

最小效应大小：低于该效应对您的组织没有意义的最小提升
力量
您认为可接受的显着性水平

A/A 测试的目的是避免在达到样本量后看到统计上显着的结果。

A/A 测试的挑战是什么？

除了 A/A 测试可以为您的实验策略带来许多好处之外，以下是 A/A 测试的两个主要缺点：

A/A 实验设置包含不可预测的元素。
需要高样本量。

让我们分别看看这些挑战中的每一个。

随机性

如前所述，执行 A/A 测试的主要原因之一是评估测试工具的准确性。

但是，假设您发现控制转换和变体转换之间存在差异。

A/A 测试的问题在于总是涉及到一些随机因素。

在其他情况下，统计显着性完全是偶然获得的。这意味着两种变体之间的转化率差异是概率性的，而不是绝对的。

大样本量

在比较相似的变体时，需要大样本量来确定一个变体是否比相同的变体更受青睐。

这需要大量的时间。

运行 A/A 测试会占用“真正的”测试时间。
大规模优化计划的诀窍是通过完全消除流程中的浪费、愚蠢和低效率来降低资源成本与机会比，以确保测试吞吐量和所学知识的速度。
在您的网站上进行实验有点像在主要国际机场运营一家繁忙的航空公司——您的起飞时间有限，您需要确保有效地使用它们。
CXL 的克雷格·沙利文