如何减少样本量污染以获得准确的 A/B 测试结果

已发表: 2020-08-08

你花了几个小时来制定你的测试策略。

你的团队提出了一个假设。

您运行测试并等待结果。

但是你发现你的测试失败了。结果被污染了。但是怎么做？

不要打自己。测试界有一个肮脏的小秘密，叫做样本量污染。

样本受众的污染可能会在不知不觉中导致测试在开始之前就注定失败。

测试失败的潜在原因有一长串，但最令人沮丧的原因之一是样本量污染。

本文将帮助您了解：

为什么会发生样本量污染。
如何知道您的测试是否被污染。
采取措施尽量减少样本量污染的发生。

我们来看一下…

样本量 101

样本量的定义

您可以使用 Convert 的 A/B 测试持续时间计算器等工具，它提供了样本量计算器或 CXL 样本量计算器。

推荐资源：Convert 的样本量计算器和示例

推荐资源：什么是唯一测试用户

大多数在线计算器都易于使用。使用 Convert 的计算器，您只需要插入三个值：

现有转化率
预期改进
置信水平

例子：
如果现有转化率为 3%，预期改进为 20%，同时以 95% 的置信度测试两个变体，则您需要 42,034 的样本量才能获得可信的结果。根据我们的持续时间计算器，这个测试组每天有 2,000 名访客，需要 22 天。

确定谁将出现在您的样本中

回答“谁？”这个问题的最简单方法。或细分，是通过查看您当前网站访问者的人口统计数据和来源。挖掘现有数据以获取线索。他们是谁？他们来自哪里？

转换实验之类的工具实际上允许您使用网站访问者的特定细分进行测试并创建自定义受众。

推荐资源：使用受众定位进行精确测试

有几个因素可以帮助您发现“谁”：

交通类型
你有季节性流量吗？您是否预计假期临近会有大量游客涌入？您的流量数字是否会根据一周中的某一天而波动？
流量来源
你的流量来自哪里？人们的行为会根据他们进入您网站的来源而有所不同。例如，来自 LinkedIn 的访问者可能不会像来自 Facebook 的人那样与您的网站进行交互。

检查 Google Analytics 以了解基于 Source 的访问者参与度。

新与旧
统计数据显示，回访者在您网站上停留的时间比新访问者长。想想这将如何影响您的测试。

此考虑阶段的目标是帮助您构建具有代表性的样本。

调查研究方法百科全书将代表性样本定义为：

代表性样本是指与样本所代表的目标人群相关的具有很强外部效度的样本。因此，调查结果可以自信地推广到感兴趣的人群。

为确保您拥有具有代表性的样本，Convert 建议至少运行一个业务周期的测试。这可确保您的测试有时间考虑一个周期内可能发生的访问者差异。

什么是样本量污染？

现在您了解了样本量是多少，您可以探索可能破坏样本量的因素，并搞砸您的测试。这就是样本量如何影响有效性。对测试结果产生负面影响的样本量因素称为样本量污染。

Invespcro 将样品污染定义为：

“......通过影响进行测试时使用的样本或数据使您的 A/B 测试数据无效的因素。”

这个问题比较常见。看看这个投诉：

有偏样本

在大多数情况下，您需要随机抽样，这意味着您网站的每个访问者在被分桶之前都有相同的机会看到特定的变化。一旦放入桶中，用户将在测试期间看到相同的变体。

但是，如果您使用的 A/B 测试工具不能很好地执行随机化，则无法保证随机化，并且可能会使测试无效。

对抗有偏抽样的一种简单方法是使用像 Convert 这样的优秀 A/B 测试工具，它可以正确执行随机化和分桶。从 A/A 测试开始您的测试，以检查随机化是否正常工作。

当您考虑测试的细节时，您需要意识到样本偏差的可能性。

导致样本量污染的来源

有四种常见的样本污染类型是时间、设备、浏览器和 cookie。

让我们来看看他们中的每一个……

定时

测试的长度会影响结果的有效性。因此，“我应该运行多久的 A/B 测试”是一个常见问题也就不足为奇了。

CRO 专业人士对什么是可接受的基准有相互矛盾的想法。实际上，您的测试变量应该驱动您的测试的适当长度。

一个简单的解决方案可能看起来只是让您的测试运行并运行并运行。但这也可能导致问题。增加的时间意味着来自外部因素的潜在污染增加。

你想找到甜蜜点。

关于测试长度的另一个常见错误是过早停止测试。这可能不会导致样本量污染，但会对您的测试产生负面影响。

如果在达到统计显着性时停止测试，情况也是如此。对于有效的测试，它还应该达到您计算的所需 MDE（最小可检测效应）的样本量。

沿着类似的思路，永远不要停止正在运行的测试的变体。这将造成灾难性的污染。您将无法将“停止”变体与“始终运行”控件进行比较。您无法将“苹果与苹果”进行比较。永远不要停止并稍后重新启动测试中的变体。

在数据与样本量一致之前，请勿中断您的测试。

饼干污染

Cookie 可能会导致最隐蔽的样本量污染形式。

根据技术百科的定义，cookies 是：

cookie 是 Web 浏览器存储在用户机器上的文本文件。 Cookie 是 Web 应用程序维护应用程序状态的一种方式。网站使用它们进行身份验证、存储网站信息/首选项、其他浏览信息以及在访问 Web 服务器时可以帮助 Web 浏览器的任何其他内容。 HTTP cookie 有许多不同的名称，包括浏览器 cookie、Web cookie 或 HTTP cookie。

作为营销人员，cookie 允许您跟踪访问者在您网站上的行为。

cookie 的寿命是不稳定的。访问者可以随意删除它们。

您的测试运行时间越长，您就越容易受到 cookie 被删除的影响——再次导致另一种形式的样本量污染。为了缓解这种现象，Convert 建议客户运行测试的时间不超过 90 天。

推荐资源：仅在欧洲同意后进行分析和 A/B 测试 Cookie

推荐资源：有意识的商业实践拥抱

设备污染

访问者通过多种设备访问您的网站：移动设备、笔记本电脑、平板电脑、台式机，甚至智能手表。

想想你的浏览行为。在健身房时，您可能会在移动设备上发现一些东西。当天晚些时候，您可以在台式计算机上重新访问该网站。

如果这种情况发生在您的 A/B 测试范围内，则可能看起来是两个不同的人访问了您的网站，而实际上是同一个人从两个不同的设备浏览。

对您的测试工作更危险的是，同一个人可能会在每台设备上看到不同的变体。

有一个相反的例子。当两个人使用同一设备访问您的网站时会发生什么？

想象两个兄弟住在同一个房子里。他们共用一台台式电脑。两人都在为假期做准备，需要订购新的 T 恤和鞋子。如果在他们访问电子商务网站时正在运行 A/B 测试，则数据会将这两个人显示为单个用户，这再次破坏了您的样本量。

浏览器污染

当普通人上网时，他们不会考虑使用不同的浏览器访问同一个网站对 A/B 测试的影响。但是从一个浏览器到另一个浏览器访问同一个网站，比如 Safari，然后是 Chrome，可能会导致类似的样本量污染，这种污染发生在多设备上。

但是，这种特定形式的污染很少见，因为大多数人会坚持每台设备使用一个首选浏览器。

新危险

浏览器、设备类型、cookie 和测试时间是最常见的样本量污染物，但看起来一种新的污染物正在进入对话。行业专业人士抱怨机器人会造成样本量污染。

值得庆幸的是，在 Convert，我们的工具中嵌入了强大的 bot 缓解措施，因此这不会成为问题。

推荐资源：A/B 测试聊天机器人：如何开始（以及为什么必须）

如何减少样本量污染的提示

由于样本量污染是一个主要问题，因此许多公司提出了创造性的解决方案，例如根据位置将用户放入不同的存储桶中。

但是这样的策略会剥夺“用户随机性”的测试，并且会降低你对测试结果有效的信心。

以下是您可以采取的一些措施来减少样品污染的机会：

对单独的设备运行测试。
为不同的浏览器运行测试。
识别模式。您的数据过去看起来如何？在测试过程中应该是相似的——数据一致性。

推荐资源：Convert 帮助中心

这里还有一些需要考虑的事情……

了解方差

方差和标准差与一致性密切相关。从本质上讲，他们会告诉你你的数字与平均水平相差多远。低方差意味着您的数据与平均值一致，从而降低了污染风险。

您可以自己手动计算，也可以使用简单的标准差计算器。

注意潜在的抽样问题

A/B 测试存在固有问题，包括样本量污染的可能性。

对潜在样本量问题的了解使您能够在选择测试目标、创建治疗和运行实验时做出更好的选择。

推荐资源：你可能犯的 A/B 测试错误

推荐资源：I 型和 II 型错误：优化实验中不可避免的错误

现在您可以战胜样本污染

良好的测试实践意味着您在开始项目时充分了解可能出现的问题。

样本量污染是运行 A/B 测试时遇到的负面副产品。您的工作是尽可能减少这些负面影响，以便您可以成功进行测试。

请记住，缓解发生在您的测试开始之前。

使用像 Convert 这样的强大工具，让您能够在一个支持复杂测试的简单平台内分割测试、对抗讨厌的机器人、使用良好的随机化技术。

您的实验策略和软件的功能将影响您将样本量污染降至最低的程度。

既然您知道测试中的这个潜在盲点，它就不会在您身上蔓延。