“测试一切”——从纸上到实践

已发表: 2022-03-09
测试从纸上到实践的一切

让我们清楚一点。

运行更多的 A/B 测试绝不是错误的,即使它们不会直接影响销售和收入,只要你执行得好并从过程中吸取教训。

但…

每项测试都需要时间、精力、人力资本等方面的投入。

那么为什么有些专家提倡对所有东西都进行测试呢? 中间立场是什么……尤其是对您而言……是的……您正在阅读本文。

现在你可能有很多好的测试想法并且想知道你是否应该测试它们。 但这不是重点! 正如 Natalia 在接受 Speero 的 Ben Labay 采访时所说:

那里有数百个很棒的想法,但这不是重点。 关键是在正确的时间找到正确的工作

开始随机测试一切听起来很诱人,但在正确的时间优先测试正确的假设是关键

通过正确的优先级,您可以培养“测试一切”的心态。 然而,大多数假设优先级模型都达不到要求。

让我们更深入地了解您是否应该对所有内容进行 A/B 测试,优先级如何帮助您做出决策,以及如何创建自己的优先级模型来克服传统选项的限制。

测试一切:为什么推荐它?

让我们从研究这种有争议的方法开始:测试一切有意义吗?

继续,选边。

你的默认操作是什么?

如果不阅读本文的其余部分并收集更多数据,对您来说什么是“可口的”?

完毕?

现在让我们看看我们的推理是否与你的一致。

在我们解决“测试一切”的难题之前,我们需要了解 A/B 测试及其结果意味着什么。

统计有效性

A/B 测试是一种统计上有效的方法,可以查看您考虑的更改是否会影响您的关键绩效指标 (KPI)。

例如,如果您的目标是让更多人访问您的博客,您可以将其添加到主导航菜单中。 新菜单不再是菜单的翻版。 但是,如果它不会对您的网站访问者的行为产生积极影响,那么此更改将毫无用处。

两个版本在结构上不同的简单事实并不重要。 总的来说,重要的是实现您想要和预期的结果。 当人们在主菜单上看到博客而不是在页脚中看到它时,他们是否更倾向于访问博客?

常识可能会说,应该有(积极的)效果。 但是您的测试可能不会显示您选择监控的衡量影响的指标有任何变化。

如果这是真的,那么 A/B 测试也可以降低风险。

风险缓解

实施站点范围的更改是复杂的,而且是完全不同的球赛。

通过构建用户不想要的功能和自定义不会产生预期结果的网站元素,您最终可能会做出改变并冒着浪费资源的风险。 这是必须进行 A/B 测试的主要原因之一,因为它是在实际实施之前对提议的解决方案进行的严格测试。

与硬编码的网站更改和高保真功能相比, A/B 测试构建(尤其是客户端构建)占用的资源更少。 这为您提供了不采取特定路线的绿灯,尤其是当结果表明关键 KPI 没有朝着正确的方向发展时。

如果没有测试,您就会投资于根本行不通的体验。 这是一种盲目的风险,不知道您可能必须恢复以前的设计以保护收入和性能。

没有什么特别的想法,它肯定会起作用。

龙登写道:

“您对网站/应用程序所做的一切都会带来巨大的风险。 大多数情况下它没有任何区别,你会浪费精力,但很有可能会产生相反的效果。”

Analytics-toolkit.com 的创建者 Georgi 甚至认为 A/B 测试本质上是一种风险管理工具:

“我们的目标是限制做出特定决定的风险,同时平衡它与创新和改进产品或服务的需求。”

当你可以测试时,为什么要冒险呢?

(-稍后将在博客中详细介绍。继续阅读!-)

趋势分析

当您持续运行从中学习的测试时,您就会开始发现受众对特定输入的反应的趋势。 最好不要假设您可以从一次迭代中获得任何有价值的东西。 但是随着时间的推移,元分析(在单变量 A/B 测试环境中)可以让您有信心将特定假设优先于其他假设进行测试。

“如果没有实验,你要么使用你的直觉,要么使用你的利益相关者的直觉来做出决定。 一个带有日志学习的可靠实验程序类似于创建一个基于数据的“直觉”,你可以用它来“检查”你的决定。”

The Bouqs 产品管理副总裁 Natalia Contreras-Brown

鉴于实验有很多好处,一些专家支持测试一切。

另一方面,许多专家主张至少从以前实验的可重复结果中获得启发,以回答重大问题

GoodUI 的主编 Jakub Linowski是其中最著名的。 他认为,实验产生了能够进行预测的知识。 他认为追求知识、策略、模式、最佳实践和启发式方法很重要。

您从实验中获得的知识可以帮助您做出更可靠的预测。 反过来,这使您可以创建更准确的假设并更好地确定它们的优先级。

乍一看,这些观点似乎相互矛盾。 但他们强化了同样的论点, 实验在不确定的世界中带来确定性。”

您要么对您的数据集做出假设,要么继承从多个垂直行业和行业运行的类似预期最终结果的测试中的信念。

在 Convert,我们从这两种观点中汲取灵感,并通过以下两种简单的方式了解一个方面如何构建下一个方面。

学习与测试:启发式测试的实用二重奏

质疑一切

这是斯多葛派大师们经久不衰的教导。

当你质疑周围的一切时,你会意识到你是从你遇到的人那里学到的东西、你生活的文化以及你的大脑选择遵循的启发式方法的综合体。

这种通常驱使我们的“直觉”通常不是我们的。

例如,我们中的许多人都梦想过一种以消费为中心的奢华生活方式。 但这真的来自我们吗? 还是我们是广告、媒体和好莱坞的受害者?

媒体和广告开始在塑造个人的梦想和愿望以主要成为消费者方面发挥重要作用......并且有可能引诱个人并使他相信他所渴望的是来自内部的自由决定他(但实际上,他被数百个广告所俘虏,这些广告产生了他所说的主观欲望,并为他创造了自动欲望

阿卜杜勒·瓦哈布·埃尔-梅西里

仅使用您自己的“直觉”做出更改和业务决策是不明智的。 如果我们不能确定我们想要做出的改变和我们想要在我们的业务中强制执行的决定来自我们,我们为什么还要依附于它们呢?

质疑一切是必不可少的。 你的直觉、最佳实践、优先级模型等等。

如果我们确实质疑一切,下一步就是通过实验对其进行数学验证。 因为停止提问并不能关闭从不确定性到确定性的循环。

从实验中学习

如果你不测试,你就无法学习。

确保正确量化您的见解。 您需要在 A/B 测试中利用定性和定量数据,将您的学习转化为有意义的东西。 例如,按上下文、测试类型、测试位置、监控的 KPI、测试结果等对平均影响进行分组。

这种有条不紊的方法的一个很好的例子是GOODUI 数据库

它识别在 A/B 测试中重复执行的模式,帮助企业实现更好更快的转换。

GOODUI 具有基于366 项测试(仅限会员)124 种模式,并每月增加超过 5 项新的可靠测试。 通过从实验中学习并将这些学习量化为模式,GOODUI 数据库缩短了繁琐的 A/B 测试过程,让客户获得更多胜利!

从这些模式中获得一些灵感:

模式#2:图标标签:https://goodui.org/patterns/2/

模式 #20:预设响应:https://goodui.org/patterns/20/

模式#43:长标题:https://goodui.org/patterns/43/

转换体验计划附带免费的 GoodUI 订阅。 从免费试用开始。

但专注于……优先考虑想法

在考虑公司特定成果的同时,优先考虑与您的总体业务目标一致的想法。

想象一下。

您经营一家拥有良好客户群的企业。 但是,这些客户的保留率低于 15% 。 您的主要目标是建立一个可持续发展的业务,以更高的速度留住客户。 这个目标应该会影响您的优先级。

假设您有两个想法,并且想知道首先测试哪个 -一个可能会提高保留率,另一个可能会增加新客户的销售额。 尽管后者具有更高的改进潜力,但您可能应该优先考虑第一个想法。

这是因为从长远来看,更高的客户保留率意味着更稳定的业务。 这与您的总体业务目标和战略完美契合。

另一个想法可能会为您带来更多的新销售。 但最终,您的企业仍然会泄露超过 85% 的客户。

实验的优先级模型总是没有考虑到所测试内容的战略重要性。 他们着眼于各种不同想法的可能影响、努力等,但他们不考虑哪些想法最符合业务战略和方向

Jonny Longden,通过测试一切
通过 A/B 测试确定优先级并测试想法

大多数优先级模型在哪里不足?

如果你是一个热衷于优化的人,你可能会有一长串 A/B 测试的想法。 但是,由于流量和资源有限,即使您决定测试所有内容,也无法一次全部测试。

这就像有一个很长的待办事项清单,并且知道你不能同时处理所有事情。 因此,您优先考虑并从具有最高优先级的那些开始。 这适用于通过实验来提高利润。 通过适当的优先级划分,您的测试计划将更加成功。

但是,正如 David Mannheim 在他的文章中所写的那样,在 A/B 测试中确定优先级非常困难。 这主要是因为

  • 您经常会产生不专注于业务目标且不符合业务目标的想法
  • 不要考虑迭代和从以前的实验中学习。
  • 使用功能失调的优先级模型并尝试将任意框架添加到问题中。

这些也是一些领域,即使是最流行的优先级模型也往往会忽略并出错。 但这是为什么呢? 以下是一些导致它们缺乏适当优先级的关键因素。

  • 误导因素:他们用来选择测试的因素具有高度误导性。 首先是努力,给人的印象是低努力的想法应该得到快速的优先级。
  • 重函数:大多数模型为因子分配任意权重。 你不能只是随机地优先排序; 你需要一个理由。
  • 复杂的迭代:他们无法区分现有的测试迭代(由学习驱动)和全新的想法来确定优先级。

首先, PIE 优先级框架根据以下因素对假设进行排序:

  • 改进的潜力
  • 重要性
  • 舒适

但是你如何客观地确定一个测试想法的潜力呢? 如果我们能提前知道这一点,作为 Peep Laja,创始人 CXL,解释说,我们不需要优先级模型。

PIE 模型非常主观。 它也不能很好地与业务目标保持一致,并促进低风险的解决方案。 轻松具有误导性,因为它表明应优先考虑省力的想法。

风险越大,回报越大

只有当你用更复杂的想法挑战自己时,这才适用。

正在努力为您的下一次 A/B 测试寻找合适的灵感? 跟随这 16 位 A/B 测试专家,在 2022 年取得成功。

另一种流行的模型,即ICE (影响、信心和轻松)评分模型,与PIE非常相似,并且具有与PIE相同的缺陷。

PXL 框架是对这两者的改进,使任何“潜在”或“影响”评估更加客观。 但是,它仍然有它的缺点。

图片来源

首先,它不考虑与业务目标保持一致。 其次,它没有将当前的测试迭代与全新的想法区分开来。

Brainlabs 转化率优化全球副总裁 David Mannheim透露,他们在他以前的咨询公司 User Conversion 为客户构建的所有 200 多个实验中,有 50% 是相互迭代的。 他们还曾经从原始假设中创造了 80% 的改进值,并表示:

我们知道“概念”是可行的,但是通过改变执行,我可能会添加超过 6 次不同的迭代,我们看到原始.

Convert 在其“运行经验知情实验报告中发现,几乎所有接受采访的专家都同意,学习推动了成功的构思。 H&M 的学习模式可以进一步支持这一点。

我们在 H&M 的产品团队中进行的几乎所有其他实验都得到了对先前实验或其他研究方法的记录学习的支持

马蒂亚斯·曼迪奥

如何创建自己的 A/B 测试优先级模型?

优先排序鼓励“测试一切”的心态。 它赋予信心来测试(首先)对最紧迫的问题产生最大影响的想法和假设。

但每个企业都是不同的。 因此,不可能有一种万能的实验优先级方法。 正如大卫所指出的,上下文为王

本质上,所有模型都是错误的,但有些模型是有用的

George EP Box,统计学家

从上面的例子中,我们可以说所有模型都有缺陷,但有些是有用的。 秘诀是为您的业务创建最有用和最有影响力的模型。

以下是构建模型的四个步骤:

如何构建 A/B 测试优先级框架

1. 从例子中获得灵感

开发一个好的优先级模型最有效的方法之一是从不同的模型中挑选能力,混合和匹配,并产生一个有限的吹毛求疵的混合。

例如,您可以从PXL 更客观的评估方法中获得灵感,该方法会提出诸如“添加或删除项目?”之类的问题。 . 同时可以考虑ICE的冲击角,加入进来。

“消除干扰或添加关键信息等更大的变化往往会产生更大的影响。”

窥视拉加,CXL

2. 为重要的因素留出空间

包括与您的业务目标一致的因素。 这将帮助您更多地关注核心增长驱动因素和 KPI,例如客户生命周期价值 (LTV) 和客户保留率,而不仅仅是表面级别的指标和结果。

如前所述,在确定实验的优先级时,针对公司的学习也很重要。 某些解决方案在您的受众中是否始终如一地且历来优于其他解决方案?

另外,考虑迭代潜力。 迭代可以帮助在解决特定业务问题方面取得更大进展,并且更加成功。 如果为真,具有迭代潜力的假设可以而且应该优先于独立测试。 此外,如果不是努力相互促进的飞轮,那么实验就什么也不是。

最后,考虑资源投资的因素,包括复杂性、时间、成本以及用于确定实验优先级的传统措施。

3. 权重很关键

决定你想从你运行的测试中得到什么。 是在探索新的、开创性的想法吗? 还是利用问题区域直到找到解决方案?

自定义评分系统以满足您的需求。 让我们考虑两种不同类型的实验来更好地理解这一点。

  1. 将博客添加到导航菜单将增加对博客的访问量。
  2. 减少结帐页面上的表单填写将降低购物车放弃率。

对于这个例子,假设我们只为我们的优先级模型选择了两个因素。 一个是迭代潜力,另一个是影响潜力,并针对每个因素以 1-5 的等级对每个假设进行评分。

我们现在测试的主要目标是解决电子商务网站的卡遗弃问题。 我们应该更加重视迭代潜力,因为我们可能不会通过测试来解决这个问题。 在显着减少购物车放弃之前,我们可能会在一个假设内重复多次。

我们可以通过将其分数加倍来衡量迭代潜在因素

让我们将影响潜在因子的第一个假设设为“4”。 “2”代表迭代潜力。 然后,对于填表假设,影响因素和迭代潜在因素均为“3”。

如果不强调迭代潜力,这将是平局: “4 + 2 = 3 + 3”

但是在这个因素的分数加倍之后,假设二获胜:

第一个假设的最终得分 “4 + 2(2) = 8

第二个假设的最终得分 “3 + 3(2) = 9

底线是同一个框架的优先级输出应该随着外部和内部考虑的变化而变化。

4. 冲洗并重复,直到你找到正确的首字母缩写词

尽量不要期望单次迭代就能获得好的结果。 不断修改,直到最终为您的业务找到正确的优先级模型。

例如,ConversionAdvocates 创建了他们自己的框架IIEA ,它代表:

  • 洞察力
  • 构思
  • 实验
  • 分析

IIEA试图通过在启动之前列出每个实验的学习和业务目标来解决大多数模型的两个主要问题。

无论您最终创建什么首字母缩略词,都要不断审查和重新评估它。 ConversionAdvocates 的优化主管 Sina Fak 提到,他们在过去五年中一直在完善IIEA

自 2013 年以来,他们使用此自定义框架来帮助多家企业解决关键问题,例如降低成本和提高转化率。

你的可能不是方便的ICEPIE ,但结果会很美味。

借助您新的超有用的优先级排序模型,您可以借鉴传统学习并可能“测试一切”

在我们的书中双赢!