您可以在您的网站上运行的所有不同类型的测试(+ 何时运行它们)
已发表: 2022-09-20实验世界大多已经超越了简单的按钮颜色 A/B 测试。
它们可能在您正在运行的实验组合中占有一席之地,但希望在这一点上,它们不是实验或 CRO 的代名词。
实验可以大得多。
通过不同类型的实验,我们可以了解我们网站上的差异,测试新体验,发现新的页面路径,实现大跃进或小步骤,并确定页面上元素的最佳组合。
您希望从实验中学到的东西应该反映在它的设计中,并且实验的设计远远超出了使用具体假设简单地测试 A 与 B 的范围。
事实上,有一个完整的研究子领域,称为实验设计 (DoE),涵盖了这一点。
- 实验设计:实验设计导论
- 16 种常见的实验类型
- 1. A/A 测试
- 2. 简单的 A/B 测试
- 3. A/B/n 测试
- 4. 多元测试
- 5. 目标测试
- 6.强盗测试
- 7. 进化算法
- 8. 拆分页面路径测试
- 9. 存在测试
- 10. 彩绘门测试
- 11. 发现测试
- 12. 迭代测试
- 13. 创新测试
- 14. 非劣效性检验
- 15. 功能标志
- 16.准实验
- 结论
实验设计:实验设计导论
实验设计 (DoE) 是一种科学方法,用于确定影响过程的因素与该过程的输出之间的关系。
实验设计是统计学家 Ron Fisher 在 1920 年代和 1930 年代推广的概念。
DoE 允许我们通过系统地改变输入并观察输出的结果变化来了解不同的输入变量如何影响过程输出。 这种方法可用于优化流程、开发新产品或功能,或了解哪些元素相互配合效果最佳。
在营销中,我们使用 DoE 来提高我们对页面上不同元素(因素)如何影响转化率(输出)的理解。 通过有效地设计实验,我们可以确定哪些元素对转化率的影响最大。
有许多不同类型的实验,每种类型都可用于了解有关您的网站或应用程序的不同内容。
在本文中,我将介绍 16 种类型的实验。
吹毛求疵的人可能会注意到,这些并不是完全不同的实验设计。 相反,有些是不同的“类型”,因为你如何产生你的假设或者你运行实验的原因是什么框架。
此外,有些并不是完全“实验”,而是建立在机器学习模型上的优化规则。
尽管如此,以下每一项都有不同的目的,并且可以被视为实验者工具包中的独特工具。
16 种常见的实验类型
您可以在您的网站上运行许多不同类型的对照实验,但这里有 16 个最常见的:
1. A/A 测试
2.简单的A/B测试
3. A/B/n 测试
4.多变量测试
5. 针对性测试
6.强盗测试
7. 进化算法
8.分页路径测试
9.存在测试
10. 彩绘门测试
11. 发现测试
12.增量测试
13.创新测试
14. 非劣效性检验
15. 功能标志
16.准实验
1. A/A 测试
A/A 测试是一个简单的概念:您正在测试一个页面的两个相同版本。
你为什么要这样做?
有很多原因,主要是为了校准和了解测试工具的基础数据、用户行为和随机化机制。 A/A 测试可以帮助您:
- 确定数据的方差水平
- 识别测试工具中的抽样错误
- 建立基线转化率和数据模式。
运行 A/A 测试是非常有争议的。 有些人发誓。 有人说这是浪费时间。
我的看法? 由于上述所有原因,它可能值得至少运行一次。 我喜欢运行 A/A 测试的另一个原因是向测试新手解释统计数据。
当你向某人展示一个收集了两天数据的“重要”实验,后来才发现它是一个 A/A 测试,那么利益相关者通常会理解为什么你应该运行一个实验直到完成。
如果您想了解更多关于 A/A 测试的信息(实际上这是一个巨大的主题),Convert 有一个关于它们的深入指南。
用例:校准和确定数据方差、审计实验平台错误、确定基线转换率和样本要求。
2. 简单的 A/B 测试
每个人都知道什么是简单的 A/B 测试:您正在测试一个页面的两个版本,一个有更改,一个没有更改。
A/B 测试是实验的基础。 它们易于设置且易于理解,但也可用于测试重大更改。
A/B 测试最常用于测试用户界面的更改,简单的 A/B 测试的目标几乎总是提高给定页面的转化率。
顺便说一句,转化率是一个通用指标,涵盖了各种比例,例如新产品用户的激活率、免费增值用户的货币化率、网站上的潜在客户转化率和点击率。
通过简单的 A/B 测试,您有一个单一的假设并一次更改一个元素,以便尽可能多地了解更改的因果元素。 这可能是标题更改、按钮颜色或大小更改、添加或删除视频或其他任何内容。
当我们说“A/B 测试”时,我们主要使用一个通用术语来涵盖我将在这篇文章中列出的大多数其他实验类型。 它通常用作一个概括性术语,意思是“我们改变了*某些东西*——大的、小的或许多元素——以改进指标。”
用例:很多! 通常用于测试由具体假设通知的数字体验的单一变化。 A/B 测试通常是为了改进指标而运行的,同时也是为了了解干预后用户行为发生的任何变化。
3. A/B/n 测试
A/B/n 测试与 A/B 测试非常相似,但不是测试页面的两个版本,而是测试多个版本。
A/B/n 测试在某些方面类似于多变量测试(我将在接下来探讨)。 然而,我认为这些不是“多变量”测试,而是多变量测试。
多变量测试有助于理解页面上不同元素之间的关系。 例如,如果您想在产品页面上测试不同的标题、图像和描述,并且还想查看哪些组合看起来交互效果最好,您可以使用多变量测试。
A/B/n 测试对于测试单个元素的多个版本很有用,并且不太关心元素之间的交互效果。
例如,如果您想在着陆页上测试三个不同的标题,您将使用 A/B/n 测试。 或者,您可以只测试七个完全不同的页面版本。 这只是一个 A/B 测试,测试了两个以上的经验。
当您有大量流量并希望有效地测试多个变体时,A/B/n 测试是可靠的选择。 当然,需要对多个变体的统计数据进行校正。 关于在 A/B/n 测试中应该包含多少变体也存在很多争论。
通常,您可以在一次测试多个体验时推送一些更具原创性和创造性的变体,而不是在多个简单的 A/B 测试中迭代。
用例:当您拥有可用流量时,多个变体非常适合测试各种体验或元素的多次迭代。
4. 多元测试
多变量测试是具有多个更改的实验。 如果 A/B/n 测试是针对其他变体测试每个变体的复合版本,多变量测试还旨在确定被测元素之间的相互作用效果。
例如,想象一下您正在重新设计一个主页。 您已经完成了转换研究并发现了标题的清晰度问题,但您也对 CTA 中的对比度和清晰度水平有一些假设。
您不仅有兴趣单独改进这两个元素中的每一个,而且这些元素的性能也可能是相关的。 因此,您想查看新标题和 CTA 的哪种组合效果最好。
当您进入多变量领域时,实验设计变得更加复杂。 有几种不同类型的多变量实验设置,包括全因子设计、部分或部分因子设计以及田口检验。
就像统计常识一样,多变量测试几乎肯定需要比简单的 A/B 测试更多的流量。 您更改的每个附加元素或体验都会增加您获得有效结果所需的流量。
用例:多变量实验似乎对通过调整几个小变量来优化体验特别有益。 每当您想确定元素的最佳组合时,都应考虑多变量测试。
5. 目标测试
针对性测试,更广为人知的个性化测试,都是关于在正确的时间向正确的人展示正确的信息。
通过定位测试,您可以创建不同版本的页面并将每个版本显示给不同的人群。 目标通常是通过向每个用户展示相关内容来提高转化率。
请注意,个性化和实验不是同义词。 您可以个性化体验,而无需将其视为实验。 例如,您可以根据零数据或收集数据的意图来决定,您将在电子邮件中使用名字令牌来个性化带有收件人姓名的消息。
个性化? 是的。 实验? 不。
但您也可以针对特定用户群进行实验。 这在产品实验中尤其常见,您可以根据他们的定价层、注册时间、注册来源等来隔离群组。
相同的统计数据适用于个性化实验,因此选择有意义的细分受众群非常重要。 如果您过于细化——比如针对拥有 5 到 6 次会话的堪萨斯农村移动 Chrome 用户——不仅无法从统计上量化影响,而且也不太可能产生有意义的业务影响。
个性化通常被视为简单 A/B 测试的自然扩展,但在许多方面,它引入了大量新的复杂性。 对于您采用的每条新的个性化规则,这就是您为用户创建的一个新的“宇宙”,以便管理、更新和优化。
预测性个性化工具可帮助您识别目标细分以及似乎更适合它们的体验。 否则,个性化规则通常通过进行测试后分割来识别。
用例:将治疗隔离到用户群的特定部分。
6.强盗测试
强盗测试或使用强盗算法有点技术性。 但基本上它们与 A/B 测试不同,因为它们不断学习和更改向用户显示的变体。
A/B 测试通常是“固定范围”实验(使用顺序测试的技术警告),这意味着您在运行测试时预先确定了试用期。 完成后,您将决定是推出新变体还是恢复为原始变体。
Bandit 测试是动态的。 他们根据其性能不断更新每个变体的流量分配。
理论是这样的:你走进一家赌场,偶然发现几台老虎机(多臂强盗)。 假设每台机器有不同的奖励,老虎机问题有助于“决定玩哪台机器,每台机器玩多少次,以什么顺序玩它们,以及是继续使用当前机器还是尝试不同的机器。”
这里的决策过程被分解为“探索”,您尝试收集数据和信息,以及“利用”,利用这些知识产生高于平均水平的回报。
因此,网站上的强盗测试将寻求实时找到最佳变体,并向该变体发送更多流量。
用例:具有高“易腐性”的短期实验(意味着从结果中学到的知识不会延伸到很远的未来),以及长期的“设置它并忘记它”动态优化。
7. 进化算法
进化算法是多变量测试和老虎机测试之间的一种组合。 在营销实验的背景下,进化算法允许您同时测试大量变体。
进化算法的目标是找到页面上元素的最佳组合。 它们的工作原理是创建一个变体“群体”,然后对它们进行相互测试。 然后将性能最佳的变体用作下一代的起点。
顾名思义,它使用进化迭代作为优化模型。 你有大量不同版本的标题、按钮、正文和视频,你将它们拼接在一起以创建新的突变,并动态地尝试消除弱变体并将更多流量发送到强变体。
这就像对类固醇的多变量测试,尽管交互效果的透明度较低(因此,学习潜力较低)。
这些实验还需要相当多的网站流量才能正常工作。
用例:大规模的多变量测试,将多个创意版本拼接在一起,并在所有组合中找到新的赢家。
8. 拆分页面路径测试
拆分页面路径测试也是一种非常常见的 A/B 测试。
您不是在更改单个页面上的元素,而是更改用户通过您的网站的整个路径。
通过拆分页面路径测试,您实际上是在测试您的网站、产品或渠道的两个不同版本。 目标通常是找到能带来更多转化或销售的版本。 它还可以帮助识别漏斗中的下降点,从而诊断重点区域以进行进一步优化。
基本上,不是更改按钮上的副本,而是更改按钮发送给您的下一页(如果您单击它)。 这是试验客户旅程的有效方式。
用例:识别和改进产品或网站中的页面路径和用户漏斗。
9. 存在测试
存在测试是一个有趣的概念。 您要做的是量化产品或网站中给定元素的影响(或缺乏影响)。
根据 CXL 文章,“简单地说,我们会删除您网站的元素,看看您的转化率会发生什么变化。”
换句话说,您正在测试一个更改是否有任何影响。
从战略上讲,这是一个被低估的战略。 我们经常通过我们自己的启发式或通过定性研究来假设页面上哪些元素是最重要的。
当然,产品演示视频很重要。 存在测试是一种质疑这种信念并迅速得到答案的方法。
您只需删除视频,看看会发生什么。
转化率提高还是降低? 有趣——这意味着它所占据的元素或房地产在某种程度上是有影响的。
没有影响? 这也很有趣。 在这种情况下,我会将我的团队的重点放在数字体验的其他部分,因为我知道即使完全删除元素也不会对我们的 KPI 产生任何影响。
用例: “转换信号映射”。 从本质上讲,这可以告诉您网站上元素的弹性,也就是它们是否足以让您专注于优化工作?
10. 彩绘门测试
涂漆门测试在某种程度上类似于存在测试。 它们在测试新报价以及测试对新产品功能的需求方面非常常见。
基本上,涂漆门测试是一个实验,看看人们是否会真正使用新功能。 您实际上并没有花费时间和资源来*创建*新的产品或功能。 相反,您创建一扇“彩绘门”以查看路过的人是否会尝试打开它(即您创建一个按钮或登录页面并查看人们是否甚至单击它,从而推断出兴趣)。
涂漆门测试的目的是找出您正在测试的东西是否有任何需求。 如果人们真的在使用这个新功能,那么你就知道它值得追求。 如果没有,那么你知道这不值得你花时间,可以放弃这个想法。
它们也被称为冒烟测试。
彩绘门测试是测试新想法的好方法,无需投入大量时间或金钱。
因为您实际上没有报价或创建经验,所以通常不能使用转化率等 KPI。 相反,您必须模拟出期望值的最小阈值。 例如,创建 X 功能将花费 Y,因此鉴于我们现有的基线数据,我们需要查看 Y 点击率来保证创建“真实”体验。
在某些方面,发布前的等待名单是一个涂漆的门测试(著名的例子是哈利的剃须刀)。
用例:证明投入时间和资源来创建新功能、产品或体验的商业案例。
11. 发现测试
我从 Andrew Anderson 的基于学科的测试方法中提取的发现测试都是关于增加可能选项的范围。
它们几乎总是具有多种变体的 A/B/n 测试的一个版本,但它们不一定必须这样设计。 这些的更大目的是测试超出您通常认为合理的范围的选项。 这减轻了你自己的偏见,这可能会限制你曾经考虑过的选项的范围。
与其狭隘地定义一个假设,你希望摆脱自己的偏见,并有可能了解一些关于什么对你的听众有效的全新的东西。
要进行发现测试,您需要在您的产品或网站上获取一块不动产并生成一堆不同的变体。 目标是每个变体都与上一个完全不同,为您提供多种不同的选择。 目标是找到有用的东西,即使你事先不知道它是什么。
在发现测试中,重要的是要将您的实验映射到您的宏观 KPI,而不是针对微观转化进行优化。 对有意义的高流量体验进行测试也很重要,因为您需要适当的统计能力来发现众多变体之间的提升。
要查看此类实验的示例,请查看来自 Malwarebytes 的 Andrew Anderson 的示例,他们在其中测试了 11 种截然不同的变体。
用例:将您的实验工作从有偏见的假设中解脱出来,并找到开箱即用的解决方案,尽管它们可能违背您的直觉,但最终会推动业务成果。
12. 迭代测试
计算机科学中有一个被称为“爬山问题”的概念。 基本上,爬山算法通过从底部开始并不断向上移动来寻找景观中的最高点。
同样的概念也可以应用于营销实验。
通过迭代测试,您从一个小的更改开始,然后不断扩大,直到达到收益递减点。 这个收益递减点被称为“局部最大值”。 局部最大值是从您的起点可以到达的景观中的最高点。
迭代测试的目标是找到给定变化的局部最大值。 这可能是一种非常有效的方法来测试诸如报价更改或定价更改之类的事情,以及您通过研究或通过存在测试发现有影响的任何元素。
基本上,您知道 X 元素很重要,并且您知道通过改进元素 X 来改进 KPI Y 有额外的回旋余地。因此,您在更改元素 X 时进行了几次小的迭代尝试,直到看起来您无法再改进指标(或这样做非常困难)。
一个简单的迭代测试示例来自我自己的网站。 我运行铅磁铁弹出窗口。 我知道他们推动电子邮件,并且可能存在收益递减点,但我认为我还没有达到它。 所以每隔几个月,我就会改变一个变量——要么是标题,要么是报价本身,要么是图片,希望能挤出一点点。
用例:通过连续测试几次小迭代来优化目标元素或体验以达到局部最大值。
13. 创新测试
与迭代测试相反,创新测试寻求找到全新的山峰来攀登。
根据 CXL 的一篇文章,创新测试“旨在探索未知领域并寻找新机会”。
创新测试都是关于尝试全新的东西。 它们通常比其他类型的实验风险更大,但它们也可能非常有益。 如果您正在寻找重大胜利,那么创新测试就是您的最佳选择。
完整的主页或登陆页面重新设计属于此类别。 发现测试是创新测试的一种形式。 按钮颜色测试与创新测试完全相反。
一个创新的测试应该让你或你的利益相关者有点不舒服(但请记住,实验的美妙之处在于它们的持续时间有限,并限制了你的缺点)。
CXL 举了一个他们为客户运行的创新测试的例子:
用例:大摇大摆,找到一个新的“山”来攀登。 总结几个假设并彻底改变体验。
14. 非劣效性检验
非劣效性测试用于确定新治疗是否不比标准治疗差。
非劣效性测试的目标是表明新疗法至少与标准疗法一样有效。
为什么要进行这样的测试?
很多原因。 我能想到的最好的一个是,如果你有一个在其他方面“更好”的变体(维护成本更低,更符合品牌标准等),但你想确保它不会损害你的核心业务KPI。
或者从医学临床试验的角度来看,想象一种药物的开发成本是常用药物的 1/10。 只要它的性能不比现有药物*差*,它的可负担性就意味着它是一个更好的推广选择。
我运行这些的另一个原因是,如果这种处理方式受到高管或利益相关者的青睐。 讨厌打破它,但仅仅因为我们可以作为实验专业人士访问数据并不意味着我们避免了偏见思维和人类政治的混乱。
我很高兴偶尔接受 HiPPO 提交的测试,并通过非劣效性测试等较低的确定性阈值来运行它。 只要它不会弄乱*我的* KPI,推出它就没有坏处,并且它赢得了政治支持。
用例:限制另一个维度(成本高、利益相关者偏好、用户体验、品牌等)的实验的缺点。
15. 功能标志
特性标志是一种软件开发技术,允许您打开或关闭某些特性或功能,并在生产中测试新特性。
在不涉及大量技术细节的情况下,它们允许您在生产中测试功能或将它们缓慢推出给较小的用户子集,同时保持快速缩减或在功能不起作用时终止功能的能力。
在许多方面,它们是一种质量保证方法。 但话又说回来,在很多方面,A/B 测试也是如此。
术语“功能标志”在某种程度上是一个总称,包括许多相关的“切换”功能,如金丝雀发布、生产测试、持续开发、回滚和功能门。
用例:在将新代码部署到生产环境之前测试新功能或体验。
16.准实验
最后,最复杂、最广泛、最难定义的实验类别:准实验。
当不可能将用户随机分配到测试组时,通常会使用准实验。
例如,如果您正在测试网站上的新功能,您可以运行 A/B 测试、功能标志,甚至是个性化臂。
但是,如果您想测试一堆 SEO 更改并查看它们对流量的影响怎么办? 或者更进一步,它们对博客转化的影响? 如果要测试户外广告牌的效果怎么办?
在数量惊人的情况下,即使不是不可能,也很难建立一个组织严密、真正受控的实验。
在这些情况下,我们会设计准实验来利用我们所拥有的。
在 SEO 变化的情况下,我们可以使用因果影响等工具来量化时间序列的变化。 特别是如果我们根据页面或其他可识别的维度来控制我们的实验,这将为我们提供一个很好的纵向想法,即我们的干预是否有效。
在广播或广告牌广告的情况下,我们可以尝试选择具有代表性的地理位置,并使用类似的贝叶斯统计来量化一段时间内的影响。
这是一个复杂的话题,所以我将链接到两个很好的资源:
- Netflix 如何进行准实验
- Shopify 如何进行准实验
用例:在随机对照试验不可行或不可行时量化影响。
结论
我希望这能让您相信 A/B 测试远远超出了更改标题或 CTA 按钮以优化转化率。
当您扩大实验可以完成的范围时,您会意识到这是一个令人难以置信的学习工具。
我们可以在着陆页上绘制有影响力的元素,确定元素的最佳组合,找出新的和改进的用户页面路径,开发新的功能和体验,而不会冒技术债务或糟糕的用户体验的风险,甚至测试新的营销渠道在我们的网站之外或在我们的产品之外进行干预。