你应该同时进行实验吗? 避免冲突结果的指南
已发表: 2022-09-06在优化世界中存在一些关于是否运行同时实验的争论。 一些人认为同时运行 A/B 测试会使您的结果变得混乱并产生不准确的数据。 其他人则认为,同时在您网站的各个页面上运行 A/B 体验可以帮助您测试更多内容并更快地确定获胜策略。
那么,哪个是对的?
在这篇博文中,我们将探讨同步实验的优缺点,并帮助您确定哪种方法最适合您的优化计划。
阅读本篇博文后,您将能够回答以下问题:
- 我可以同时运行拆分 URL 体验吗?
- 我可以同时运行 A/B 体验吗?
- 我可以同时运行 A/A 体验和 A/B 体验吗?
简短的回答是肯定的,多个体验可以在单个页面或一组页面上同时运行。 但是,请记住,在一种体验中分桶可能会对来自另一种同时发生的体验的数据产生影响。
- 经验重叠是如何发生的,您应该担心吗?
- 测试相同的元素
- 在同一页面上测试
- 测试参与同一漏斗/流程的用户
- 运行站点范围的体验
- 测试相同的观众/访客
- 运行可能对与其他体验共享的目标产生重大影响的体验
- 运行成功测试的策略
- 1. 没有重叠的同时体验(孤立)
- 2. 非同时(连续)体验
- 3. 重叠的同时体验
- 一个。 A/B/N 经验
- 湾。 多变量体验 (MVT):在一次测试中结合多种体验
- 如何在转换体验中设置 MVT
- C。 互斥体验
- 许多相互排斥的体验
- 结论
经验重叠是如何发生的,您应该担心吗?
在进行同时实验时,需要记住一件事。 在某些情况下,两种变化可能会相互作用,从而在组合时与单独时对行为产生不同的影响。 当实验在同一页面上运行时,可能会发生这种情况,使用相同的用户流,等等。
让我们看一些可能发生经验重叠的示例,以及是否应将其视为问题。
测试相同的元素
切换产品页面的设计以突出奖励功能,例如免费退货政策和免费送货,是您可以运行的 A/B 测试的一个示例。
我们的一位客户测试了这个确切的场景。 根据客户服务部门的数据,他们假设客户不知道该品牌的免费退货政策,因为该功能在产品页面上不够明显。 然后,他们进行了 A/B 测试,更加突出地展示了该功能,并衡量了客户的反应。
这是原始和变体的样子:
然而,测试的实现有点复杂,因为更改不会应用于每个产品页面。 某些产品不符合免费退货条件,某些打折商品无法修改等。出于这些原因,他们决定并行运行另一个 A/B 体验,更改相同的元素并在许多产品上添加免责声明副本这些页面上写着“商品不可退货”。
如您所见,两种 A/B 体验正在影响同一个网站元素,因此导致结果出现某种重叠,难以得出明确的结论。
在同一页面上测试
A/B 体验的另一个例子是当我们的客户优化他们的产品页面以增加订单访问时。
当他们分析产品页面的每个元素并跟踪目标转化时,他们发现主导航栏链接获得的点击次数最多,尤其是“立即购买”。 我们的客户认识到向类别页面发送更多合格流量而不是让他们在主页上徘徊的重要性。
因此,客户决定将“立即购买”部分替换为“超级省钱”、“集市”等其他类别。 此外,“立即购买”部分已移至网站左侧,以使页面更具视觉吸引力并吸引合格的访问者。
这是产品页面最初的样子:
与此同时,正在产品页面上进行另一项 A/B 实验,以确定“立即购买”按钮的不同颜色是否会带来更好的转化率。
由于这两种 A/B 体验影响的是同一页面上的相同元素,因此结果中不可避免地存在一些重叠。
测试参与同一漏斗/流程的用户
在测试参与同一渠道的用户时,也可能会出现体验重叠。 大多数网站通过多个渠道推动转化。 虽然主要关注点可能是购买,但帐户创建或获取也可能是业务的重要推动力。
在产品页面上运行体验可能会对购买转化产生影响; 但是,在帐户创建页面上测试表单布局可以帮助改进该渠道。 获取测试包括从为网站增加流量到为营销目的收集电子邮件地址的所有内容。
在网站的相同页面上拥有经验可能会导致它们重叠,从而导致错误。 如果体验目标与这些相同的渠道保持一致,结果可能会受到影响。
假设您正在尝试获得更多已完成的注册。 登陆您的网站后,系统会要求用户注册:
要为注册设置转化渠道,您可以跟踪以下事件:
- 注册用户数
- 已完成注册的数量
- 主页屏幕加载次数
然后,您可以通过测试以下更改来制定关于如何改进漏斗的几个假设:
- 在注册过程中添加入职
- 缩短注册表单,使其更加用户友好
- 完全删除注册
但是,在这种情况下,由于 A/B 体验影响相同的漏斗,因此无法确定 A/B 测试更改的确切影响,因此它们的结果之间会有一些重叠。
运行站点范围的体验
有时您可能需要对出现在所有页面上的元素进行试验。 假设您想测试更改页脚号召性用语的颜色或字体大小,以查看可以获得多少转化。
使用 Convert 实现该过程很简单:只需将所有页面添加到您的定位中。
就这样!
但是,站点范围的定位会影响在这些页面上运行的其他 A/B 测试,从而导致体验重叠。
测试相同的观众/访客
考虑以下案例研究:您想要评估电子商务系统的两个方面,因此您为移动用户和桌面用户开发了两个 A/B 测试。
- 您正在尝试查看将“添加到购物车”按钮设为红色而不是蓝色是否会增加点击次数。
- 您正在尝试一种新的结帐流程,该流程将步骤数从五个减少到两个,以查看您是否获得更多注册。
如果这两个操作导致相同的成功事件(完成的交易),则可能很难确定红色按钮或更好的结帐体验是否提高了桌面和移动设备上的转化率。
为避免结果重叠和其他体验交付问题,您应该在不同的受众(例如,仅限移动设备或仅限桌面设备)上运行上述测试。
分段测试的唯一缺点是您的流量会较低,这可能会影响您的测试需要运行多长时间。 但是,由于它基于个性化技术,因此这是在 A/B 测试时避免体验重叠的首选方法。 当精心选择细分市场时,它们对整个体验的影响将是最小的。
运行可能对与其他体验共享的目标产生重大影响的体验
不用说,如果您的目标在测试中相似,那么您的结果将围绕这个个人目标。 为了使每个体验实现其目的,每个体验的目标都不能相互冲突。
运行成功测试的策略
在运行不重叠的测试时,没有万能的解决方案。 当您经历实验旅程的每个阶段时,您的需求将决定您如何进行。
为了帮助您做出明智的决定,让我们回顾一下您可以用来处理重叠的最常见策略。
1. 没有重叠的同时体验(孤立)
最直接的策略通常是您迄今为止一直在使用的策略:同时运行的孤立体验。
正如我们上面所讨论的,孤立的经历没有重叠,一种经历的结果不会影响另一种经历的结果。
以下情况需要此策略:
- 当重叠在技术上是不可能的:如果您正在以排除上述所有可能的重叠组合的方式进行测试。
- 什么时候可以破坏用户体验:某些体验组合可能会破坏用户体验,因此这些体验必须单独运行。
- 当主要目标是一个精确的指标时,只有孤立的实验才有意义。
在这些情况下,如果您在具有两个不同目标的两个不同页面上同时运行两种体验,则一种体验不会影响另一种体验。 参加体验一的游客不会参加体验二,反之亦然。
除了上述情况,从效率的角度来看,在同时隔离的车道上执行体验没有任何意义。 对于任何给定数量的用户或会话,在不同的通道中运行两种体验与一个接一个地运行它们所花费的时间相同。 如果你每个月有 10000 名用户,需要运行两次体验,每一次需要 5000 人,仍然需要一个月才能完成体验。
此外,这种策略有一个明显的缺点:在孤立车道上的跑步体验无疑会阻止研究变化之间的潜在相互作用。
如果有单独的测试通道,这与在桌面用户和移动用户都可以使用获胜变体之前对桌面用户进行实验是一样的。 对移动用户的影响可能与对桌面用户的影响相同,但也可能会有相当大的差异。
2. 非同时(连续)体验
如果无法避免体验重叠,那么您应该考虑使用顺序体验。 这意味着每个有可能与另一个重叠的体验都应该按顺序运行。
您可以使用 Convert 列“Started/Planned”和“Stopped”来查看您的顺序测试:
通过优先级路线图可以使该策略更加有效。
PIE 和 ICE 框架是为您的团队优先考虑体验的两个有效选项。
PIE 框架(由 Widerfunnel 开发)是一种流行的优先级排序方法,它根据三个标准对测试进行排名:潜力、重要性和易用性。 使用 PIE 分数,您可以根据每个标准的平均分数对每个测试进行排名和优先级。
Impact、Confidence 和 Ease (ICE) 模型(由 Growthhackers 的 Sean Ellis 开发)与 PIE 非常相似,只是它使用置信度因子代替了“潜力”。
没有路线图会限制您充分利用流量和资源的能力。
例如,可能会无意中积压积压的主页创意,这些创意必须一个接一个地实施。 如果这个瓶颈持续存在,您可能会被迫进入等待游戏,而无法同时测试您网站的其他部分。 或者,您可以同时运行多个测试而不考虑任何可能的重叠效应,这会产生可疑的结果。
3. 重叠的同时体验
在分析了您的经历后,您得出结论它们是重叠的; 因此,有必要隔离它们。 你是怎样做的? 这很简单! 运行第一个测试,然后是第二个,对吗? 顺序部分解释了它是如何工作的。
但是,想象一下,您想在圣诞节期间或任何假期期间进行一些测试,因为无论出于何种原因,这是您接待更多访客并且体验可能会产生更显着影响的时候。 然后呢? 你能一个接一个地运行你所有的经验吗? 显然,没有。
您可以使用以下策略同时运行您的体验,而不必担心重叠。
一个。 A/B/N 经验
此类别下的第一个策略是 A/B/N 测试,它涉及一次测试两个以上的变体。 A/B/N 不是指第三种变体,而是任何数量的附加变体:A/B/C、A/B/C/D 和任何其他扩展 A/B 测试。
无论附加变体的数量如何,A/B/N 测试的原则都保持不变:将用户分组,将变体(通常是登录页面或其他网页)分配给组,监控关键指标(通常是转化率)的变化),检查经验结果的统计显着性,并部署获胜的变化。
但是,尝试太多变体(当只能选择一种时)会进一步划分网站流量。 因此,它可以增加实现统计显着结果并产生“统计噪音”所需的时间和流量。
在进行多个 A/B/N 实验时,不要忽视全局,这一点也很重要。 不能保证不同的变量可以很好地协同工作,只是因为它们在实验中表现最好。
在这种情况下,请考虑执行多变量测试以测试所有变体并确保将改进贯彻到顶级指标。
湾。 多变量体验 (MVT):在一次测试中结合多种体验
多变量体验 (MVT) 同时运行多种不同变化的组合。
为了确定在所有潜在组合中哪个元素对目标的影响最大,必须在同一页面上同时修改许多元素。
与 A/B/N 测试不同,多变量测试可让您确定哪种更改组合最能满足访问者的需求。 通过多变量测试,您可以确定在更改多个变量时哪种变量组合表现最佳。
例如,如果您想在页面上测试两个不同的标题、两个图像和两个按钮颜色,您的 MVT 测试将如下所示:
上述 MVT 测试以不同的组合同时测试不同的元素(标题、颜色和图像)。
如何在转换体验中设置 MVT
首先,从您的转换帐户的体验选项卡中,选择“新体验”:
现在你可以说出你的经历了。 让我们使用“我的第一个 MVT”,选择多变量选项,然后单击继续:
MVT 中有部分和变体。 部分是页面上您要测试一个或多个变体的位置。
以下是部分示例:
- 标识
- 标题
- 第一段
- 选择加入表格
还有一些变化(在这些部分中),其结构如下:
- 部分:徽标
- 原始标志
- 变化 1) 左徽标
- 变化 2) 徽标右
- 部分:标题
- 原始标题
- 变化 1) 标题“现在搜索我的朋友”
- 变体 2) 标题“Give Search A Go”
- 部分:第一段
- 原第一段
- 变体1)第一段“红色”
- 变体 2) 第一段“蓝色”
- 部分:选择加入表格
- 原始选择加入表格
- 变化 1) 带有额外字段姓氏的选择加入表格
- 变体 2) 带有“白皮书”复选框的选择加入表格
- 变化 3) 选择加入表格向左浮动
- 变体 4) 选择加入表格“女人脸”
以下是上述结构在 Convert Visual Editor 中的显示方式。
您要测试的页面的 URL 将加载到可视化编辑器中。 之后,您可以编辑第一个变体。 更改内容就像单击任何橙色突出显示的区域一样简单。 通过单击变体名称旁边的绿色加号,您可以添加新变体。
例如,您可以:
- 单击要更改的元素(元素以橙色边框突出显示)
- 在菜单中选择一个操作,例如更改图像源
MVT 体验总结将如下所示:
然而,MVT 有一些限制。
第一个限制与使您的多变量体验的结果具有统计意义所需的访问者数量有关。
在多变量测试中增加变量的数量会导致很多变化。 与标准 A/B 测试(其中 50% 的流量分配给原始版本和 50% 的变体)相反,多变量测试仅将 5%、10% 或 15% 的流量分配给每个组合。 在实践中,这会导致更长的测试周期以及无法达到做出决定所需的统计显着性。
另一个限制是 MVT 的复杂性。 A/B 测试通常比多变量测试更容易设置和分析。 即使创建一个基本的多变量测试也很耗时,而且很容易出错。 体验设计中的一个小缺陷可能需要几周甚至几个月的时间才会出现。
如果你没有很多测试经验——在不同的网站上运行各种不同类型的测试——你甚至不应该考虑多变量测试。 使用我要介绍的下一个策略,相互排斥的体验,您可能会更好。
C。 互斥体验
您还可以通过确保它们相互排斥来同时运行具有重叠的体验。 请记住,根据您的 A/B 测试平台,您可能能够使体验相互排斥。 从本质上讲,您必须将流量分成与正在运行的体验一样多的组,并确保每个组只参与一个体验。
Convert 允许互斥,下面我们将展示如何配置它,以便查看体验 A 的访问者不会查看体验 B。
执行体验的顺序:
设置的第一步是了解如何执行转换体验。 体验条件在页面上按顺序评估,同时考虑到它们的体验 ID。
首先评估具有最低 ID 的体验,并在满足其所有条件后,启动新的体验。 因此,在下面的屏幕截图中,ID 为 100243925 的体验首先运行,其余的紧随其后。
两种相互排斥的体验
如果您有两个同时运行的体验并希望使它们互斥,则需要遵循这些步骤:
- 在第一次体验中将流量分配设置为低于 100%
将具有最低 ID 的体验设置为使用少于 100% 的流量。 您可以在体验摘要的流量分配部分执行此操作。
- 在第二次体验中设置“Bucketed in Experience is No”的受众条件
然后,在第二个体验中,设置“Bucketed in Experience is No”的受众条件。 如果您添加新的受众(在访客数据下),您可以找到此信息。 这种情况意味着只有在之前没有测试过的访问者才会被测试。 这将防止同一访客被测试两次。
许多相互排斥的体验
如果您有两个以上需要互斥的体验,您可以按照以下步骤操作:
- 将所有体验的流量分配设置为低于 100%
将所有并行体验设置为仅使用不到 100% 的流量。 您可以在体验摘要的流量分配部分执行此操作。
- 根据访问者 cookie 设置高级受众
然后,在除 ID 最低的体验之外的所有体验中,使用基于访问者 cookie 的高级受众来排除已包含在其他并行体验中的访问者。
例如,假设我们有这 4 种体验:
- 体验A,ID 123456,流量分配80%
- 经验B,ID 123457,流量分配50%
- ID为123458的体验C,流量分配30%
- 经验D,ID 123459,流量分布75%
经验 B 应该有这样的高级受众:
体验 C 应该有这样的高级受众:
最后,体验 D 应该有这样的高级受众:
如上所示,cookie 值的格式如下:
xxxxxx.{v.1-
发生这种情况是因为如果您尝试排除包含在配置为少于 100% 流量的体验中的访问者,如果访问者满足站点区域和受众条件但仍会写入 cookie,但由于流量分布,访问者不是包括在那个经历中。
转换 cookie _conv_v 将类似于以下内容:
exp:{12345678.{v.1-g.{}}}
请注意,在上述格式中,没有变化值(只有 v.1),因为访问者未包含在体验中。 但是,我们使用 cookie 来跟踪这一点,以便下次访问者访问该页面时,他们将再次被排除在相同的体验之外。
结论
同时运行多个体验会带来一些复杂性——您并不总是确定哪些测试会增加转化率,或者它们之间是否存在隐藏的交互。 然而,这不是一个主要问题,因为有一些策略可以减轻这些复杂性。
我们讨论了 5 种策略来处理同时运行的多个测试引起的问题:
- 当它们彼此没有重叠时同时运行体验
- 当您无法避免体验重叠时,按顺序运行体验
- 运行 A/B/N 体验
- 运行 MVT 测试
- 运行互斥体验
我们还展示了 Convert 如何支持上述所有测试策略,使其成为一个非常通用的工具。
在执行 A/B 测试时考虑所有这些复杂性非常重要,因此您可以在每种情况下选择最合适的策略。 如果您仍有任何问题,我们将非常乐意为您提供帮助。