2022 年多变量测试完整指南
已发表: 2020-11-05
多变量测试 (MVT) 不就是同时运行几个 A/B 测试吗?
不,这是关于 MVT 的最流行的神话之一。 它比这更微妙。
多变量测试类似于 A/B 测试,但您要针对多个变体而不是一个变体来测试您的控制。 你看,不只是 A 对抗 B,它也对抗 C、D、E 等等。 对于高流量站点来说,这是一种找到表现最佳的更改组合的有效方法。
所以…
- 什么时候应该使用 MVT 而不是 A/B 测试?
- 多变量测试与 A/B/n 测试相同吗?
- 多变量测试的一些例子是什么?
- 如何运行一个以获得可靠的结果?
我们将回答您关于多变量测试的问题,在此过程中提升您的实验和 CRO 技能,以便在本指南结束时,您可以在 30 分钟内部署您的测试。
- 什么是多元测试?
- 多变量测试与 A/B 测试:有什么区别?
- 何时运行多变量测试?
- 多变量测试的好处
- 多变量测试的缺点
- 1.需要大样本量
- 2. MVT 测试需要时间
- 3.运行成本更高
- 4. 你更容易出错
- 已显示出重大影响的多变量测试示例
- 多元检验统计:多元分析简介
- MVT 和流量:如何计算多变量测试的样本量?
- 何时停止多变量测试?
- 如何设计多变量测试?
- 多变量测试的数据收集
- 1. 全阶乘
- 2. 分数阶乘
- 多变量检验的假设生成
- 多变量测试的质量保证
- 多变量测试的数据收集
- 您如何进行多变量测试? 在转换体验中部署多变量测试。
- 什么是最好的 A/B 和多变量测试工具?
- 2022 年要避免的主要多变量测试错误
- 结论
如果您希望将您的实验技能提升到一个新的水平,那么本指南适合您。
听起来不错? 让我们开始…
什么是多元测试?
想象一下,您想同时测试网页上各种元素的不同版本以了解它们如何一起执行,多变量测试就是您运行的测试。
多变量测试(MVT 测试)是一种在网页上以不同组合测试多个变量的技术。 这些可能的组合创建了多个页面的变体,因此是“多”。
因此,多变量测试类似于 A/B/n 测试,因为我们针对对照测试两个或多个变体。 不同之处在于 A/B/n 测试是单变量的,而多变量测试则测试串联变化的组合。
例如,如果您想在页面上测试两个不同的标题、两个图像和两个按钮颜色,您的 MVT 测试将如下所示:

在上面的 MVT 测试中,您正在以不同的组合同时测试不同的元素(标题、颜色和图像),以找到最好的元素。
但这并不意味着不可能对单个元素做两个以上的变体。 您可以拥有 3 个、4 个或更多,并同时测试它们。 人们只喜欢一种变化,这样他们就可以将转化率的提升追溯到它。
另一个需要注意的重要事情是MVT 测试与并发测试不同。 并发测试同时在同一样本集上运行多个实验。 这可能会造成干扰。
并发测试可能如下所示:运行 A/B 测试以找到两个版本之间的最佳标题,并运行 MVT 测试以在同一着陆页上找到标题、英雄图片和 CTA 或操作按钮的最佳组合同时。
在 A/B/n(或多变量)测试中,我们使用多个变体服务于相同的用户行为假设。 想象一下,该着陆页上同时运行许多 A/B 测试来回答一个问题。 比如,“这批中哪个版本给我们带来了最好的提升?”
多变量测试与 A/B 测试:有什么区别?
对于未经训练的人来说,MVT 测试似乎是一种更高级的 A/B 测试形式。 但是两种类型的测试都非常不同。
A/B 测试和多变量测试之间的区别在于一次测试的变体数量。 A/B 测试将针对对照测试一个变体,而多变量测试将有两个或更多。
A/B 测试测试一个元素。 例如,您正在测试将图像添加到您的网页。 您的实验可能如下所示:
- 控制 = 无图像
- 变化 1 = 图像
在这种情况下,您只是在您的网站上测试图像,因此它是 A/B 测试。
在 A/B/n 测试中,与在多变量测试中一样,您可以有多种变体。 但不同的是,在 A/B/n 测试中,您只测试一个元素(或变量),而在多变量测试中,您正在测试每个变体中的多个元素。
这是转换合作伙伴代理机构 iProspect 的一个杰出示例。 该机构进行了一项以定价页面信息为特色的测试。 他们的实验特点:
- 没有定价信息的控件,
- 起价低的变体 1,
- 起价较高的变体 2。
你能猜出这是什么类型的测试吗?
在这种情况下,我们只测试一个元素,添加定价信息,所以我们有一个 A/B/C(或 A/B/n)类型的测试。
当谈到 A/B 测试和多变量测试之间哪个更好时,这取决于您要实现的目标。 有时 MVT 比 A/B 测试更有效。
如果您想测试页面上的不同元素(及其交互效果),使用 MVT 代替 A/B 测试更容易。 使用 A/B 测试,您必须为元素的变化创建几个连续的测试。 同时,multivariate 立即处理它们。
何时运行多变量测试?
当您想衡量一种变体与原始变体相比的表现时,请使用 A/B 测试。 如果您要更改一个元素,例如,不同的标题或不同的按钮颜色,则此方法有效。 只要这些更改属于一个变体,并且您得到 A vs B。
当您针对控件测试了多个变体,但一次只更改一个元素时,请使用 A/B/n 测试。
让我们举例说明:您想测试在着陆页中添加标题是否会提高转化率。 您可以进行 A/B/n 测试,例如 Split Base,一个 Convert Partner Agency。 他们进行了一项测试,以确定添加以利益为导向的标题是否会增加转化率。
PS:它做到了! 它使利润增加了 27%。
当您有多个变体和多个变量时,您使用多变量测试。 比如说,您还有 2 个标题创意和 CTA 选项,这会导致您创建变体 C 和 D,MVT 是查看这些更改如何相互作用的最有效方法。
“如果我使用标题 2 和按钮颜色 3 会怎样? 这将如何影响注册数量?” 这些是 MVT 回答的问题——当它们同时一起工作时,页面元素变化对性能的影响。
多变量测试将超越测试一个标题并测试该页面的更多变体。 它的设计和运行更加复杂,因此选择它而不是 A/B 测试必须是值得的。
通常,A/B 测试足以提供我们正在寻找的答案。 MVT 更适合于您认为一个或多个变体有机会击败您的 A 和 B 的情况。
其中一些实例是:
- 您的流量很大,并且希望在更短的时间内收集更多的知识。 多变量测试为高流量网站提供了在更短的时间内测试想法组合的机会,但这些想法必须是高质量的想法,以免浪费资源。
- 您需要知道哪些元素组合导致了转化率提升。 因为一系列不同的 A/B 测试只是多余的。
很难部署一个包含所有所需更改的变体。 也许您的测试平台不允许这种程度的自由。 这是解决它的一种方法。 但是,如果以后无法对这些更改进行硬编码,您将无法使用您的测试结果。
多变量测试的好处
多变量测试对转化率和收入有着不可否认的影响。 想想看。 如果没有,没有人会谈论使用它!
MVT 测试的一个好处是它可以让您了解网站上的更改如何影响转化率。 多变量测试使您能够衡量这些变化之间的交互作用。 您可以衡量不同小变化的复合效果,看看它如何影响您的对话率。
多变量测试的缺点
只有具有大量流量和大预算的网站才运行多变量测试是有原因的。 让我们谈谈运行 MVT 测试的缺点。
1.需要大样本量
您测试的元素更改越多,您将拥有的变化越多。 这些变体中的每一个都需要接收足够的流量才能到达 stat sig,因此您必须等待更长时间才能获得准确的结果。 这就是为什么很多网站无法运行 MVT 测试,因为它们缺乏流量。
2. MVT 测试需要时间
正如我们上面提到的,每个变体都需要流量和大量流量。 您测试的组合越多,不同的变化就越多,您需要等待的时间就越长。
但这在大多数 CRO 案例中是合理的。 因为如果您要将 MVT 测试拆分为一系列 A/B 测试,您将花费更多的时间和流量。
3.运行成本更高
您需要额外的时间(和金钱)来开发和 QA 每个变体。 这就是为什么您决定在更简单的 A/B 测试上运行这些测试需要有充分的理由,否则您的测试投资回报率会受到影响。
4. 你更容易出错
当您运行 A/B/N 测试时,您不会应用用于 A/B 测试的相同统计信息。 额外的变体需要调整统计显着性检验。 增加的家庭错误率 (FWER) 意味着您更有可能犯 I 类错误并将错误的变体标记为赢家。
已显示出重大影响的多变量测试示例
- 微软在他们的 SMB 网站上进行了多变量测试,并找到了一个将转化率提高 40% 的变体!
- 2009 年,YouTube 在其主页上运行了一个 MVT,以吸引更多人注册一个帐户。 他们称之为“1,024 配方实验”。 一种变体以 15.7% 的提升获胜。
- Booking.com 以测试而闻名。 他们使用多元测试来了解新功能如何在较小的受众中使用,然后再推出。
- HawkHost 想在他们的主页上看到提升,他们得到了它。 这些在多变量测试中测试了他们的标题、副标题和英雄形象,导致销售额增长了 204%。 那是巨大的。
- 亚马逊的登陆页面布局是多变量测试的结果。 他们将其与机器学习一起使用,以找到推动转化的最佳布局,并在 7 天内将购买率提高了 21%。

资源

多元检验统计:多元分析简介
如果您对多变量测试在测试工具的精美 UI 下的工作原理以及其背后的原理感到好奇,那么让我们激动一下:
多变量分析 (MVA) 是一种统计分析,其中多个因变量与其他变量同时进行分析。 它基于现实世界的运作方式:一个以上的因素对某个结果负责。
它不仅用于数字营销(即转化率优化),作为探索性数据分析的一部分,还应用于医疗保健、制造、交通等各个领域。它推动了企业界的许多决策以及在政府中。
虽然它很复杂,但它是分析因变量和自变量之间关系的准确方法。
MVT 和流量:如何计算多变量测试的样本量?
最好的方法是使用我们的样本量计算器工具。 这将为您提供开始设计健康的多变量测试所需的一切。

何时停止多变量测试?
过早停止测试可能会导致错误,因为收集的数据不足以进行任何准确的分析。
你可能听过一些人说你应该在有明显的赢家时停止,或者如果它的转化率下降到 10% 以下就停止变化,并将其流量转移到表现最好的人——请放心,这会严重污染结果。
你不应该在之前停止多变量测试:
- 为每个变体收集足够大的样本量。 因此,让它运行更长时间以收集足够的相关转化。
- 运行 1 或 2 个完整的销售周期,以平衡 30-60 天的流量和购物期。
- 达到统计学意义。 这意味着当被推送到生活中时,它应该能够以 95% 的准确度复制其结果。
如何设计多变量测试?
A/B 测试和多变量测试的设计和执行方式相似。
我们在下面概述了运行 MVT 的分步测试方法。 但这里有一个快速的:
- 确定问题并制定目标:当您查看数据时,尝试了解网站访问者的体验并找到问题。 制定假设(有目标的解决方案)并以此为基础进行测试。
- 决定要测试的内容:您的假设将涉及网页元素的组合。 弄清楚您将如何与他们一起实现目标。 创建它的变体以反对原始版本。
- 估计你的时间框架和样本量:你不必自己做。 使用我们的预测试样本量计算器。 它将帮助您找出所需的基本数字。
- 构建测试:在您的测试平台中,设置您的变体组合。
- 确保有效:对每种新疗法进行质量保证测试,以确保它们按预期工作。
- 运行您的测试:开始为他们吸引流量。
现在,让我们仔细看看从数据收集到 QA 的每个步骤:
多变量测试的数据收集
在多变量测试期间如何收集数据? 主要有两种方法需要注意:
1. 全阶乘
它是这样工作的:MVT 中的每个变体都会获得等量的所有访问您网站的流量。 如果您有 5 个变体,则每个变体将获得 20% 的访问您网站的流量。
当然,要达到统计意义,这种方法需要大量的流量,并且需要运行很长时间。 但是这个特性也使得全阶乘是最准确的选择。
2. 分数阶乘
与其“完整”对应物不同,部分阶乘仅测试变体的一个子集。 这就是为什么它的名字中有“分数”。
如果您有 10 个变体,它将测试其中的 5 个,并根据结果预测它未测试的 5 个的性能。
正因为如此,它比全阶乘运行得更快,但准确度显着降低。 它的好处是您可以在提交之前大致了解完整测试的外观。
田口法呢? 有人说它是部分阶乘的另一个名称。 使用起来很复杂。 因此,大多数工具不提供它。
多变量检验的假设生成
您必须根据准确的定性和定量数据创建多元检验假设。
您不想猜测或使用在博客上找到的常见测试想法来运行测试。 选择相关的东西,例如解决您在筛选数据时发现的问题或测试您认为可以产生提升的想法。
这将作为您的测试目标。 您可以使用我们的假设生成器来帮助您提出可靠的假设。
多变量测试的质量保证
没有质量保证,任何测试都可能产生误导。 在没有 QA 的情况下推进是有风险的,并且可能导致代价高昂的错误。 在您信任测试的见解之前,请通过几个检查点:
- QA 设置:在您决定用于 QA 流程的设置时,确定特殊用例以测试您将要进行 QA 的设备和浏览器上的用户体验等。
- 外部因素:识别您无法控制的可能影响测试的因素,例如事件或假期、同时运行的其他测试、事件和站点流量。
- 实验设置:检查假设公式的质量、流量分配、闪烁是否会影响测试、其他延迟和错误等。
- 跨浏览器和跨设备:您需要验证跨设备和屏幕分辨率的排版、字体和配色方案,验证边距和填充,检查可用性,页面元素在各种设备上的表现等等。
以及您可能检测到的其他差异:有必要与您的团队分享这方面的信息以进行修复。
您如何进行多变量测试? 在转换体验中部署多变量测试。
在 Convert Experiences 中创建多变量测试仅需 4 个简单步骤。 这是做什么:
- 命名您的体验
在转换体验中,选择“新体验”,然后选择“多变量”,然后为您的体验命名: - 做出变化
在您用于测试的页面的 URL 加载后,第一个变体就可以进行编辑了。 你可以编辑副本,添加新的视觉效果,你可以命名它。 在下面的示例中,我们已经:
– 单击要更改的元素(以橙色突出显示)
– 在菜单中选择一个动作,即更改图像源 - 命名变体
这是不言自明的。 你会想选择一些在以后的报告中对你来说很突出的东西。 - 定义目标和受众
转到实验摘要,然后设置您的受众和实验目标。
你有它! 您的体验已启动并正在运行。
有关设置可靠多变量测试的所有步骤,请在此处查看我们的支持资源。
现在您已经了解了什么是多变量测试以及如何成功设置多变量测试,让我们分解几个可供您选择的不同平台。 市场上许多顶级 A/B 测试工具在一个软件中提供多变量测试和 A/B 测试。 那么哪一个最适合您的需求呢?
如果多变量测试方法是您的决定因素,那么您来对地方了。 下面的列表为您提供了市场上多变量测试的 9 个顶级参与者。
什么是最好的 A/B 和多变量测试工具?
以下是 CRO 专家首选的多变量测试工具,以及它们提供的多变量测试方法:
- 转换体验——全因子
- AB Tasty – 全因子
- Google Optimize 和 Optimize 360 – 既不是全因子也不是分数的混合方法
- Adobe Target – 全因子和田口
- Kameleoon – 全因子和部分因子
- Optimizely – 全因子、部分和田口
- Sitespect – 全因子和部分因子
- VWO – 全因子
- Webtrends Optimize – 全因子和部分因子
仍然不确定选择什么多元测试工具? 检查最佳多变量测试工具的完整细分。
或者尝试转换体验。 可以免费试用 15 天。
2022 年要避免的主要多变量测试错误
如果您以正确的方式使用它们,这些测试只能帮助您实现优化目标。
但是我们是人类,我们的工具并不完美,所以确实会发生错误。 您可以通过避免这些来减少破坏测试的机会:
- 未测试您的 MVT 工具的准确性
创建页面的变体,但不要更改任何内容。 保持不变并运行其余部分。 既然人们看到的是一样的东西,结果应该是一样的。
- 不是从一个可靠的假设开始
在没有基线的情况下运行测试,预期结果是盲目的。 它对您或您正在测试的网站没有帮助。 首先生成一个假设。
- 复制你的竞争对手
您的组织是独一无二的,您的目标也不同。 复制你的竞争对手是没有好处的。 他们的许多测试不仅不适用于您的案例,而且他们可能不知道自己在做什么。
- 在季节性活动或主要站点/平台活动期间运行测试
如果您的测试不是针对某个事件,那么您不应该在其中运行多变量测试。 结果不会反映正常一天的准确表现。
- 偷看
诱惑是难以抗拒的。 你只是想看看它是怎么回事。 您甚至可能在一个变体上下注,并想看看哪个赢了。 不。
您不仅会得到不准确的期望,而且还可能基于它们做出错误的决定。 您可以检查它们是否正在运行或是否有任何错误,仅此而已。
- 运行测试的时间不够长
多变量测试需要运行很长时间。 可以把它想象成单独的 A/B 测试必须获得足够的流量才能达到统计显着性。 让您的多变量测试运行足够长的时间,以便获得准确和重要的结果。
- 在测试运行时进行更改
您可以修复错误,但不能重新设计您的网站或进行复制更改。 在测试上线后,任何改变变体外观和感觉的东西都应该保持不变。
- 获得准确结果后忘记停止测试
它发生的频率比你想象的要多。 这意味着,在您有了明显的赢家之后,您仍然会向其余流量展示您网站的较弱版本。 你不想那样做。
- 一次测试后放弃
也许你所有的变种都比对照差,那又怎样? 您刚刚了解了它不起作用的各种方法。 运行更多测试并获得更多见解。 所有的知识都是有价值的。
- 测试后不检查有效性
当一切都说完了,你得到了结果,就这样结束了吗? 您是否关闭了测试平台并继续前进? 在相信结果的准确性之前,最好先坐下来检查一切是否顺利。
- 没有运行足够的测试
当您进行测试时,无论是赢家还是输家,都要从中学习。 使用你新发现的知识来创建一个更明智的假设并再次运行。 然后再次。 这就是你如何让实验为你工作。
- 不记录测试
保留一个测试数据库。 这将提高您的优化团队的绩效,即使该团队只是您。 我们都需要从以前的经验中学习,以使下一个更好。
而且,为了避免浪费时间两次运行相同的测试。
结论
无论您有电子商务商店、SaaS 还是简单的登录页面,在某些情况下运行多变量测试是有意义的。 您可能有一个高流量的网站,但您仍然需要确定多变量测试是否适合您的网站。 在运行多变量之前评估成本、流量和需求。

