什么是 A/A 测试,营销人员为什么要关心?
已发表: 2017-05-18你经历过这样的场景吗? 您设置了 A/B 测试来发现您的新按钮和标题组合是否会产生更多转化……
您为两个点击后登录页面(控制和变体)带来了相同的流量,并在一个月后停止,当您的软件以 99% 的信心宣布您的变体获胜时……
您推出了新的“获胜”设计,但几个商业周期之后,50% 的转化率提升对您的底线没有影响。 你很困惑。 你生气了……
你可能是假阳性测试结果的受害者。
什么是假阳性测试结果?
为什么 50% 的转化率提升没有转化为更多的销售额? Copyhackers 的 Lance Jones 说,原因是它可能不存在。
您完全有可能(甚至可能)看不到测试带来的销售或收入提升,因为它一开始就没有出现过。 您可能在测试中不知不觉地收到了“误报”——称为 I 类统计错误,也称为错误拒绝真实零假设。 那是一口,所以我只记得它是误报。
不管是否满嘴,这些第 1 类统计错误比您想象的更常见。 据估计,大约 80% 的 AB 测试结果是虚构的。
点击鸣叫
如果您根据误报做出关键决策,充其量您就是在将优化留给机会。 在最坏的情况下,您实际上会降低点击后目标网页的转化率。
幸运的是,有一些方法可以对抗有毒数据。 其中之一类似于您可能已经熟悉的测试方法……
什么是 A/A 测试?
A/B 测试涉及将流量驱动到两个不同的页面——一个原始页面(您的控制)和另一个版本(您的变体)——以查看哪个表现更好。
同样,A/A 测试涉及将流量驱动到两个页面以查看哪个表现更好。 但与 A/B 测试不同的是,A/A 测试将两个相同的页面相互对比——他们的目标不是发现提升,而是发现控制和变体之间没有差异。
为什么要进行 A/A 测试?
我们不怪您挠头,想知道“相互测试两个相同的页面究竟会完成什么?”
这听起来可能很傻,但这是一些专业测试人员在测试前用来测试 A/B 测试的一种技术。 (嗯?)
准确的测试结果需要的不仅仅是统计显着性
任何人都可以运行 A/B 测试,但很少有人可以运行有效的 A/B 测试(请记住:只有大约 20% 的测试结果实际上是合法的)。
产生准确的测试数据涉及的不仅仅是通过大量且具有代表性的样本量达到统计显着性。 为了对您的结果充满信心,您必须确保样本没有受到许多有效性威胁的污染。
这些威胁之一,即仪器效应,是 A/A 测试最有助于对抗的威胁。
什么是乐器效果?
在开始 A/B 测试之前就开始防范有效性威胁。 CXL 的 Peep Laja 说,仪器效应是破坏测试结果最多的因素:
这是最常见的问题。 当测试工具(或仪器)出现问题时,就会导致测试中出现错误数据。 这通常是由于网站上错误的代码实现造成的,并且会扭曲所有的结果。
这就是为什么在设置测试时,确保您的工具配置正确并按应有的方式工作很重要。 如果不是,可能会出现以下常见问题:
- 关键绩效指标的误报。 一个工具中的一个错误可能会使您的数据混乱,这就是为什么您永远不应依赖单一平台来跟踪所有测试信息的原因。 至少,与 Google Analytics 集成以仔细检查您在测试软件和网站跟踪中看到的指标是否准确。 为了获得更好的结果,请使用其他工具进行三次检查。 对任何不相符的报告持怀疑态度。
- 点击后着陆页显示问题。 在 A/B 测试期间,小的编码错误可能会导致严重的有效性威胁,例如显示问题。 这就是为什么确保您的点击后登录页面在所有设备和浏览器上看起来都像预期的样子,并且您的访问者不会受到所谓的“闪烁效应”影响的原因。 其中,一个缓慢的网站可能会导致此问题,当您的控件在变化之前暂时显示给您的访问者时会发生这种情况。
- 过早停止测试。 一些测试软件会过早地宣布获胜页面——当样本量不够大或不能代表您的目标客户时。 请记住:达到统计显着性并不意味着该停止测试了。 运行时间越长,结果就越准确。
这些问题中的任何一个(以及更多)都可能导致测试结束时出现误报,这就是 Peep 警告测试人员保持警惕的原因:
当你设置一个测试时,像鹰一样观察它。观察你跟踪的每一个目标和指标都被记录下来。 如果某些指标未发送数据(例如添加到购物车点击数据),请停止测试,找到并解决问题,然后通过重置数据重新开始。
但并不是每个人都愿意立即双脚投入 A/B 测试——尤其是在使用新软件时。 因此,作为额外的预防措施,一些从业者会在开始 A/B 测试之前进行 A/A 测试以评估他们的工具。
如果您的实验设置正确,在 A/A 测试结束时,两个页面的转化率应该相似。 但是,正如以下测试人员所展示的那样,这并不总是发生。
A/A 测试示例
误报真的那么普遍吗? 一个页面真的能胜过它的克隆吗? 这些人使用 A/A 测试来找出并在以下博客文章中揭示了他们的发现……
1.首页拆分测试揭示了流行测试工具的主要缺点
2012 年 11 月 11 日,Copyhackers 团队开始在他们的主页上进行 A/A 拆分测试,如下图所示:
6 天后的 18 日,他们的测试工具以 95% 的置信度宣布获胜。 不过,为了准确起见,团队决定让测试再运行一天——此时他们的软件以 99.6% 的置信度宣布获胜:
根据该软件,他们的主页的性能比完全相同的页面高出近 24%,结果为误报的可能性仅为 0.4%。 尽管如此,该团队还是让测试又运行了大约三天,差异最终趋于平缓:
但这不是重点。 关键是:测试工具过早宣布获胜者。 如果 Copyhackers 团队没有让它继续运行,他们就会错误地认为他们的实验存在问题。 在此处阅读有关测试的更多信息。
2. A/A 测试:我如何通过什么都不做而将转化率提高 300%
这个讽刺的标题来自作者和自称“正在恢复的企业家”David Kadavy,他在 8 个月的时间里对 750,000 名电子邮件订阅者进行了多次 A/A 测试。 在那段时间里,他产生了具有统计意义的结果,例如:
这些结果包括:
- 电子邮件打开量增加 9%
- 点击次数增加 300%
- 退订率降低 51%
他说:
对于许多想要创业的人(包括我以前的自己)来说,这看起来像是“哦,哇,你增加了 10% 的机会!” 他们甚至可能将其输入 Visual Website Optimizer 的显着性计算器并看到 p=.048。 “这在统计上很重要!” 他们(或我)可能会惊呼。
但事实是,这些都是 A/A 测试。 相互测试的内容是相同的。 在这里查看他的更多结果。
你应该运行 A/A 测试吗?
这个问题的答案取决于你问谁。
尼尔·帕特尔 (Neil Patel) 一直看到转化率大幅提升,但这并不等同于增加收入,他说:“首先运行 A/A 测试非常重要,因为这有助于确保您不会将时间浪费在不准确的软件上。”
另一方面,CXL 的 Peep Laja 说 A/A 测试本身就是在浪费时间。 那么谁是对的?
A/A测试的两大问题
从理论的角度来看,A/A 测试很有意义。 最重要的是,在运行 A/B 测试时,准确性最为重要,测试您的测试只是确保准确性的众多方法之一。
然而,在现实世界的测试环境中,A/A 测试可能弊大于利。 克雷格沙利文解释说:
对我来说,问题总是消耗真实的流量和测试时间,因为必须用一段时间的 A/A 测试来预加载测试运行时间。 如果我试图每月运行 40 次测试,这将削弱我让东西上线的能力。 我宁愿对实验进行半天的 QA 测试,也不愿运行 2-4 周的 A/A 测试来检查它是否符合要求。
这是问题一。 A/A 测试会花费实时时间和流量,您可以使用这些时间和流量来通过 A/B 测试了解有关网站访问者的更多信息。
问题二在 Copyhackers 的案例研究中得到了例证。 与 A/B 测试一样,A/A 测试需要仔细设计和监控,因为它们也容易出现误报。
换句话说,您的 A/A 测试可能会告诉您一个页面的性能优于另一个页面,但实际上并非如此(这种可能性比您想象的要高得多 — 大约 50%)
如果 Copyhackers 的团队听取了他们的测试工具并在六天后宣布获胜者,他们会花更多的时间试图弄清楚为什么他们的主页比同卵双胞胎表现更好(但事实并非如此) .
A/A 测试的主要好处
尽管存在这些问题,A/A 测试仍有可能帮助您在实际测试中发现更大的问题。 当这些测试的结果是您做出重要业务决策的依据时,这是一个值得考虑的强大优势。
如果您确实决定进行 A/A 测试,则有一种可能不太浪费的方法,称为 A/A/B 测试。
A/A/B 测试与 A/A 测试
传统的 A/A 测试方法会浪费流量,因为它在结论时不会告诉您有关访问者的任何信息。 但是,如果您在该测试中添加“B”变体,它就可以。 这是两者之间的区别:
- A/A 测试= 2 个相同的页面相互测试
- A/A/B 测试= 2 个相同的页面和一个变体相互测试
A/A/B 测试将您的流量分成三个部分,这意味着需要更长的时间才能达到统计显着性。 但好处是,一旦你这样做了,你就会同时拥有关于你的测试工具和你的访问者的数据。
比较 A 与 A 的结果以确定您是否可以信任您的测试。 如果它们在统计上相似,请比较 A 与 B 的结果。如果它们不相似,则您将不得不丢弃整个测试的结果(这比传统的 A/A 测试运行时间更长)因为您的流量以三种方式分段)。
A/A 测试利大于弊吗?
一些专家说“是”,而另一些专家说“不是”。 Leadplum 的 Andrew First 似乎认为答案介于两者之间:
A/A 测试可能不应该每月进行一次,但是当您设置新工具时,花时间测试您的数据是值得的。 如果您现在拦截不良数据,您将对几个月后的测试结果更有信心。
最终,这取决于你。 如果您正在使用一种新工具,那么听取 Andrew 的建议可能是明智的。 但是,如果您不是,最好跟随 Craig Sullivan 的领导,而不是建立严格的预测试 QA 流程。 节省 A/B 测试的时间、资源和流量。
充分利用您的测试工作和数字广告活动,立即注册 Instapage Enterprise 演示。