何时通过 A/B 测试寻求局部和全局最大值

已发表: 2017-03-06

想象一下,您正在失忆的浓雾中攀登珠穆朗玛峰。 你只能看到伸出的手。 你不知道你在哪里,也不知道该往哪个方向前进,只知道你需要到达顶峰。 你做的几率有多大?

大概和山一样低。

尽管这是一个戏剧性的类比,但它是参考了流行的 A/B 测试方法的基础。 那个高峰是您点击后登录页面的最佳版本,而您在当前页面的山坡上感到困惑、几乎失明和迷失。

更糟糕的是,您最喜欢的营销博主可能向您提供了一张错误的地图。 你可能认为你正在以正确的方式进行 A/B 测试——你正朝着那个高峰的方向前进。 不过,您很快就会陷入死胡同,而且您永远找不到效果最好的点击后目标网页变体。

您最喜欢的营销博主可能已经向您提供了错误的 A/B 测试图。

点击鸣叫

让初学者感到困惑的 A/B 测试神话

互联网上一些最流行的营销博客继续延续 A/B 测试神话,从一开始就注定了初学者的失败。 当我开始时,它也让我受害。

“每次 A/B 测试不要更改超过一个页面元素”我一遍又一遍地读着。 我没有质疑它,因为消息来源是值得信赖的,而且因为大多数情况下,它只是有道理。

A/B 测试的目的是收集可用于优化页面、电子邮件、广告或任何您正在测试的数据。 如果我在版本“A”和“B”之间进行了多次调整,我怎么能在测试结束时知道是什么导致了转换率的变化? 那会是什么样的数据?

因此,我一次测试一个元素:点击后登陆页面“A”的标题与点击后登陆页面“B”的标题。 接下来,是点击后登陆页面“A”上的蓝色按钮与点击后登陆页面“B”上的绿色按钮。 这就是专业人士以及亚马逊和谷歌的做法。 如果它对价值数十亿美元的公司来说足够好,那对我来说也足够了。

几个月后我痛苦地意识到我忽略的问题是我不是亚马逊或谷歌。 他们的网站产生大量流量,这意味着通过这些无聊的按钮颜色测试获得的小提升可以转化为数百万美元的收入。

但是,对于大多数人来说,它们是在浪费时间和资源。 对于大多数人来说,使用这种 A/B 测试方法就像失忆了在浓雾中攀登珠穆朗玛峰。

爬山启发式

在我们的日常生活中,我们会遇到一些解决方案很明确的问题。 但是,当您遇到一个不熟悉且非常独特的障碍时会发生什么? 以这个迷宫为例:

此图向营销人员展示了如何快速确定测试点击后登录页面以达到局部最大值和全局最大值的最佳方法。

没有关于导航这个特定迷宫的最佳方法的博客文章。 您的朋友(很可能)无法指导您完成它。 你没有地图。 那么,如何从 A 点到达 B 点呢?

答案可以在名为“通用问题求解器”的计算机程序中找到,该程序由 Newell、Simon 和 Shaw 于 1963 年创建,用于研究人工智能。 他们的研究也被应用于解决人类问题。 Russ Dewey 博士解释说:

Newell 和 Simon 将每个问题定义为一个空间。 空间的一端是起点,另一端是目标。 解决问题的过程本身被认为是跨越该空间的一组操作,从起点到目标状态,一次一步。

在通用问题求解器中,程序测试各种动作(Newell 和 Simon 称之为运算符)以查看哪种动作更接近目标状态。 操作员是改变系统状态的任何活动。 一般问题解决者总是选择看起来更接近目标的操作。 这种战术被称为爬山,因为它类似于总是向山顶或山顶迈出一步的战术。

在上面的迷宫中,每个死胡同都是一个“空间”——一个你需要通过“操作”来克服的问题,这些操作会让你更接近你的目标(从“A”到“B”)。

所以,你从“A”开始,沿着你认为最快到达“B”的路径前进。 当你遇到死胡同时,你会返回并尝试另一条路线。 你重复这个过程,直到你达到你的目标。

这就是您在对小元素进行 A/B 测试时所做的。 您确定了一个问题,例如一个不起眼的按钮。 然后,通过测试您假设的更好版本,您离创建最佳点击后登录页面(或您认为的)的目标更近了一步。 如果这不起作用,则您测试另一个。

但是,在某些时候,您会达到称为“局部最大值”的收益递减点。

局部最大值和全局最大值

上述方法被称为“爬山”启发式的原因是因为它有一个主要的限制,可能会让你在山上挠头仰望山顶——你最好的点击后登陆页面就在那里。 杜威博士解释说:

爬山是一种简单的策略,但并不总是奏效。 一个潜在的陷阱是“山麓问题”。 如果您选择上山(或沿特定方向)的任何步骤,您最终可能会爬上位于您和山峰之间的山麓,而忽略绕过它的更有效的过程。 换句话说,如果你直奔一个目标而没有灵活性,你可能会付出高昂的代价,浪费大量的精力,或者给自己带来更多的工作而没有为目标做出贡献。

在优化术语中,这个“山麓”被称为“局部最大值”。 这是当前页面的最佳版本,当进一步进行 A/B 测试时,收益会递减。 这座山的顶峰被称为“全球最高点”。 这是您点击后登录页面的最佳版本。 这是一个有用的图形来说明:

此图向营销人员展示了如何通过 A/B 测试和多变量测试来确定局部最大值和全局最大值。

通过从单一的点击后登录页面开始,并一次对一个小元素进行 A/B 测试以改进它,您会越来越接近局部最大值,但这种方法永远不会让您到达那座山的顶峰。 那么你如何导航到那里呢?

A/B测试达到全局最大值

在一篇题为“不要陷入 A/B 测试细节的陷阱”的博文中,Moz 的 Rand Fishkin 解释了一个令人沮丧的场景,这个场景可能太离谱了:

假设您找到了一个您比较满意的页面/概念,并开始测试一些小东西——围绕局部最小值进行优化。 您可能会运行 4-6 个月的测试,争取将整体转化率提高 5%,并且感觉非常好。 直到...

您在测试中运行另一个重要的新想法并进一步改进。 现在您知道您一直在浪费时间优化和完善一个页面,该页面的整体概念不如您刚刚第一次测试过的新的、粗糙的、未优化的页面。

此图向营销人员展示了 A/B 测试达到全局最大值的典型路径。

相反,Fishkin 与其他营销影响者一样,建议首先对“大修”和“大创意”进行 A/B 测试——或者,换句话说,测试完全不同的页面。 在这些截然不同的页面中,表现最好的页面最接近全局最大值。 这是您应该使用多变量测试进行微调的那个:按钮与按钮、标题与标题等。几个案例研究支持这种方法。

全局最大值的 A/B 测试

1.脸书

这张图片向营销人员展示了 Facebook A/B 如何测试其主页的全局最大值。

2008 年,Facebook 测试了全新的导航设计。 他们的团队将其从页面左侧移至右侧的下拉菜单。 然而,在这样做的过程中,他们降低了导航中的应用程序对用户的可见性,从而导致这些应用程序的流量大大减少。 由于它们是 Facebook 的宝贵收入来源,因此这是一个问题。

在尝试使用一些参与技巧来挽救新设计后,优化团队意识到他们已经达到了局部最大值并废弃了整个设计。 来自 Facebook 产品开发人员 Adam Mosseri:

我们在这里所做的是针对局部最大值进行优化。 在这个框架内,我们只能将这么多流量汇集到应用程序中。 我们需要的是结构性变革。 我们的前提是关闭。 我们的利益把我们引向了错误的道路。 我们没有意识到 [...] 我们正在本地优化某些东西,我们需要有点破坏性才能摆脱它。

2.莫兹

此图向营销人员展示了 Moz A/B 如何在其产品页面上测试全局最大值。

此变体页面由 Conversion Rate Experts 为 Moz 创建,比原始页面长六倍。 它包含更多信息图表、不同的标题和视频,以及原始页面上没有的其他元素。 它的表现优于对照 52%。

如果团队只致力于改进原始页面上的元素,他们永远不会添加将转化率提高一半的内容。 来自测试人员:

在我们对 Rand 有效的面对面演示的分析中,我们注意到他至少需要五分钟来说明 Moz 的付费产品。 现有页面更像是一分钟的摘要。 一旦我们添加了兰德演示文稿的关键元素,页面就变得更长了。

3.服务器密度

您在网上找到的大多数 A/B 测试案例研究都与网页的外观有关。 它们是按钮颜色与按钮颜色或图像与图像,并且它们的数量每天都在增长。 因此,大多数从事 A/B 测试的人都认为它只能用于网页设计。

但是,A/B 测试的概念可以应用于任何事物,包括产品设计甚至定价结构,正如您将在 Sever Density 的这个示例中看到的那样。

该公司提供服务器和网站监控服务,允许其客户根据他们需要监控的服务器和网站数量付费:

此图向营销人员展示了服务器密度 A/B 如何测试其打包定价页面以达到全球最大值。

该结构旨在扩大客户群,它确实做到了,但现在团队的目标是增加收入。 因此,他们使用打包模型对定价进行了全面改革的 A/B 测试:

这张图片向营销人员展示了服务器密度 A/B 如何测试他们的定价页面以达到全球最大值。

新结构实际上产生了更少的转化,但每个转化的价值都在飙升。 结果如下:

这张图片向营销人员展示了服务器密度如何通过 A/B 测试将他们的收入增加一倍以上以获得全球最大值。

与旧订单相比,平均订单价值现在超过 55 美元:19.70 美元。 这些要点提醒测试人员注意两件重要的事情:

A/B 测试不仅可用于表面设计更改。
转换并不是全部。 有时,较少的转化次数会为您带来更好的结果。

你如何找到全局和局部最大值?

请记住:A/B 测试的强度是在发生重大变化时尽可能接近全局最大值。 要找到局部最大值,最好改用多变量测试。

您是否陷入了一次严格测试一个页面元素的陷阱? 您是否对每个测试进行多次更改以找到全局最大值?

了解如何通过今天的 Instapage 企业演示为您拥有的每个受众提供 1:1 广告个性化。