“測試一切”——從紙上到實踐

已發表: 2022-03-09

讓我們清楚一點。

運行更多的 A/B 測試絕不是錯誤的，即使它們不會直接影響銷售和收入，只要你執行得好並從過程中吸取教訓。

但…

每項測試都需要時間、精力、人力資本等方面的投入。

那麼為什麼有些專家提倡對所有東西都進行測試呢？中間立場是什麼……尤其是對您而言……是的……您正在閱讀本文。

現在你可能有很多好的測試想法並且想知道你是否應該測試它們。但這不是重點！正如 Natalia 在接受 Speero 的 Ben Labay 採訪時所說：

那裡有數百個很棒的想法，但這不是重點。 關鍵是在正確的時間找到正確的工作。

開始隨機測試一切聽起來很誘人，但在正確的時間優先測試正確的假設是關鍵。

通過正確的優先級，您可以培養“測試一切”的心態。然而，大多數假設優先級模型都達不到要求。

讓我們更深入地了解您是否應該對所有內容進行 A/B 測試，優先級如何幫助您做出決策，以及如何創建自己的優先級模型來克服傳統選項的限制。

測試一切：為什麼推薦它？

讓我們從研究這種有爭議的方法開始：測試一切有意義嗎？

繼續，選邊。

你的默認操作是什麼？

如果不閱讀本文的其餘部分並收集更多數據，對您來說什麼是“可口的”？

完畢？

現在讓我們看看我們的推理是否與你的一致。

在我們解決“測試一切”的難題之前，我們需要了解 A/B 測試及其結果意味著什麼。

統計有效性

A/B 測試是一種統計上有效的方法，可以查看您考慮的更改是否會影響您的關鍵績效指標 (KPI)。

例如，如果您的目標是讓更多人訪問您的博客，您可以將其添加到主導航菜單中。 新菜單不再是舊菜單的翻版。但是，如果它不會對您的網站訪問者的行為產生積極影響，那麼此更改將毫無用處。

兩個版本在結構上不同的簡單事實並不重要。總的來說，重要的是實現您想要和預期的結果。當人們在主菜單上看到博客而不是在頁腳中看到它時，他們是否更傾向於訪問博客？

常識可能會說是，應該有（積極的）效果。但是您的測試可能不會顯示您選擇監控的衡量影響的指標有任何變化。

如果這是真的，那麼 A/B 測試也可以降低風險。

風險緩解

實施站點範圍的更改是複雜的，而且是完全不同的球賽。

通過構建用戶不想要的功能和自定義不會產生預期結果的網站元素，您最終可能會做出改變並冒著浪費資源的風險。這是必須進行 A/B 測試的主要原因之一，因為它是在實際實施之前對提議的解決方案進行的嚴格測試。

與硬編碼的網站更改和高保真功能相比， A/B 測試構建（尤其是客戶端構建）佔用的資源更少。這為您提供了不採取特定路線的綠燈，尤其是當結果表明關鍵 KPI 沒有朝著正確的方向發展時。

如果沒有測試，您就會投資於根本行不通的體驗。這是一種盲目的風險，不知道您可能必須恢復到以前的設計以保護收入和性能。

沒有什麼特別的想法，它肯定會起作用。

龍登寫道：

“您對網站/應用程序所做的一切都會帶來巨大的風險。大多數情況下它沒有任何區別，你會浪費精力，但很有可能會產生相反的效果。”

Analytics-toolkit.com 的創建者 Georgi 甚至認為 A/B 測試本質上是一種風險管理工具：

“我們的目標是限製做出特定決定的風險，同時平衡它與創新和改進產品或服務的需求。”

當你可以測試時，為什麼要冒險呢？

（-稍後將在博客中詳細介紹。繼續閱讀！-）

趨勢分析

當您持續運行從中學習的測試時，您就會開始發現受眾對特定輸入的反應的趨勢。最好不要假設您可以從一次迭代中獲得任何有價值的東西。但是隨著時間的推移，元分析（在單變量 A/B 測試環境中）可以讓您有信心將特定假設優先於其他假設進行測試。

“如果沒有實驗，你要么使用你的直覺，要么使用你的利益相關者的直覺來做出決定。一個帶有日誌學習的可靠實驗程序類似於創建一個基於數據的“直覺”，你可以用它來“檢查”你的決定。”

The Bouqs 產品管理副總裁 Natalia Contreras-Brown

鑑於實驗有很多好處，一些專家支持測試一切。

另一方面，許多專家主張至少從以前實驗的可重複結果中獲得啟發，以回答重大問題。

GoodUI 的主編 Jakub Linowski是其中最著名的。他認為，實驗產生了能夠進行預測的知識。他認為追求知識、策略、模式、最佳實踐和啟發式方法很重要。

您從實驗中獲得的知識可以幫助您做出更可靠的預測。反過來，這使您可以創建更準確的假設並更好地確定它們的優先級。

乍一看，這些觀點似乎相互矛盾。但他們強化了同樣的論點， “實驗在不確定的世界中帶來確定性。”

您要么對您的數據集做出假設，要么繼承從多個垂直行業和行業運行的類似預期最終結果的測試中的信念。

在 Convert，我們從這兩種觀點中汲取靈感，並通過以下兩種簡單的方式了解一個方面如何構建下一個方面。

學習與測試：啟發式測試的實用二重奏

質疑一切

這是斯多葛派大師們經久不衰的教導。

當你質疑周圍的一切時，你會意識到你是從你遇到的人那裡學到的東西、你生活的文化以及你的大腦選擇遵循的啟發式方法的綜合體。

這種通常驅使我們的“直覺”通常不是我們的。

例如，我們中的許多人都夢想過一種以消費為中心的奢華生活方式。但這真的來自我們嗎？還是我們是廣告、媒體和好萊塢的受害者？

媒體和廣告開始在塑造個人的夢想和願望以主要成為消費者方面發揮重要作用……並且有可能引誘個人並使他相信他所渴望的是來自內部的自由決定他（但實際上，他被數百個廣告所俘虜，這些廣告產生了他所說的主觀慾望，並為他創造了自動慾望。
阿卜杜勒·瓦哈布·埃爾-梅西里

僅使用您自己的“直覺”做出更改和業務決策是不明智的。如果我們不能確定我們想要做出的改變和我們想要在我們的業務中強制執行的決定來自我們，我們為什麼還要依附於它們呢？

質疑一切是必不可少的。你的直覺、最佳實踐、優先級模型等等。

如果我們確實質疑一切，下一步就是通過實驗對其進行數學驗證。因為停止提問並不能關閉從不確定性到確定性的循環。

從實驗中學習

如果你不測試，你就無法學習。

確保正確量化您的見解。您需要在 A/B 測試中利用定性和定量數據，將您的學習轉化為有意義的東西。例如，按上下文、測試類型、測試位置、監控的 KPI、測試結果等對平均影響進行分組。

這種有條不紊的方法的一個很好的例子是GOODUI 數據庫。

它識別在 A/B 測試中重複執行的模式，幫助企業實現更好更快的轉換。

GOODUI 具有基於366 項測試（僅限會員）的124 種模式，並每月增加超過 5 項新的可靠測試。通過從實驗中學習並將這些學習量化為模式，GOODUI 數據庫縮短了繁瑣的 A/B 測試過程，讓客戶獲得更多勝利！

從這些模式中獲得一些靈感：

模式#2：圖標標籤：https://goodui.org/patterns/2/

模式 #20：預設響應：https://goodui.org/patterns/20/

模式#43：長標題：https://goodui.org/patterns/43/

轉換體驗計劃附帶免費的 GoodUI 訂閱。從免費試用開始。

但專注於……優先考慮想法

在考慮公司特定成果的同時，優先考慮與您的總體業務目標一致的想法。

想像一下。

您經營一家擁有良好客戶群的企業。但是，這些客戶的保留率低於 15% 。您的主要目標是建立一個可持續發展的業務，以更高的速度留住客戶。這個目標應該會影響您的優先級。

假設您有兩個想法，並且想知道首先測試哪個 -一個可能會提高保留率，另一個可能會增加新客戶的銷售額。儘管後者俱有更高的改進潛力，但您可能應該優先考慮第一個想法。

這是因為從長遠來看，更高的客戶保留率意味著更穩定的業務。這與您的總體業務目標和戰略完美契合。

另一個想法可能會為您帶來更多的新銷售。但最終，您的企業仍然會洩露超過 85% 的客戶。

實驗的優先級模型總是沒有考慮到所測試內容的戰略重要性。 他們著眼於各種不同想法的可能影響、努力等，但他們不考慮哪些想法最符合業務戰略和方向。
Jonny Longden，通過測試一切

大多數優先級模型在哪裡不足？

如果你是一個熱衷於優化的人，你可能會有一長串 A/B 測試的想法。但是，由於流量和資源有限，即使您決定測試所有內容，也無法一次全部測試。

這就像有一個很長的待辦事項清單，並且知道你不能同時處理所有事情。因此，您優先考慮並從具有最高優先級的那些開始。這適用於通過實驗來提高利潤。通過適當的優先級劃分，您的測試計劃將更加成功。

但是，正如 David Mannheim 在他的文章中所寫的那樣，在 A/B 測試中確定優先級非常困難。這主要是因為

您經常會產生不專注於業務目標且不符合業務目標的想法。
不要考慮迭代和從以前的實驗中學習。
使用功能失調的優先級模型並嘗試將任意框架添加到問題中。

這些也是一些領域，即使是最流行的優先級模型也往往會忽略並出錯。但這是為什麼呢？以下是一些導致它們缺乏適當優先級的關鍵因素。

誤導因素：他們用來選擇測試的因素具有高度誤導性。首先是努力，給人的印像是低努力的想法應該得到快速的優先級。
權重函數：大多數模型為因子分配任意權重。你不能只是隨機地優先排序；你需要一個理由。
複雜的迭代：他們無法區分現有的測試迭代（由學習驅動）和全新的想法來確定優先級。

首先， PIE 優先級框架根據以下因素對假設進行排序：

改進的潛力
重要性
舒適

但是你如何客觀地確定一個測試想法的潛力呢？如果我們能提前知道這一點，作為 Peep Laja，創始人 CXL，解釋說，我們不需要優先級模型。

PIE 模型非常主觀。它也不能很好地與業務目標保持一致，並促進低風險的解決方案。輕鬆具有誤導性，因為它表明應優先考慮省力的想法。

風險越大，回報越大。

只有當你用更複雜的想法挑戰自己時，這才適用。

正在努力為您的下一次 A/B 測試尋找合適的靈感？跟隨這 16 位 A/B 測試專家，在 2022 年取得成功。

另一種流行的模型，即ICE （影響、信心和輕鬆）評分模型，與PIE非常相似，並且具有與PIE相同的缺陷。

PXL 框架是對這兩者的改進，使任何“潛在”或“影響”評估更加客觀。但是，它仍然有它的缺點。

首先，它不考慮與業務目標保持一致。其次，它沒有將當前的測試迭代與全新的想法區分開來。

Brainlabs 轉化率優化全球副總裁 David Mannheim透露，他們在他以前的諮詢公司 User Conversion 為客戶構建的所有 200 多個實驗中，有 50% 是相互迭代的。他們還曾經從原始假設中創造了 80% 的改進值，並表示：

我們知道“概念”是可行的，但是通過改變執行，我可能會添加超過 6 次不同的迭代，我們看到原始.

Convert 在其“運行經驗知情實驗報告”中發現，幾乎所有接受采訪的專家都同意，學習推動了成功的構思。 H&M 的學習模式可以進一步支持這一點。

我們在 H&M 的產品團隊中進行的幾乎所有其他實驗都得到了對先前實驗或其他研究方法的記錄學習的支持。
馬蒂亞斯·曼迪奧

如何創建自己的 A/B 測試優先級模型？

優先排序鼓勵“測試一切”的心態。它賦予信心來測試（首先）對最緊迫的問題產生最大影響的想法和假設。

但每個企業都是不同的。因此，不可能有一種萬能的實驗優先級方法。正如大衛所指出的，上下文為王。

本質上，所有模型都是錯誤的，但有些模型是有用的。
George EP Box，統計學家

從上面的例子中，我們可以說所有模型都有缺陷，但有些是有用的。秘訣是為您的業務創建最有用和最有影響力的模型。

以下是構建模型的四個步驟：

1. 從例子中獲得靈感

開發一個好的優先級模型最有效的方法之一是從不同的模型中挑選能力，混合和匹配，並在有限的吹毛求疵的情況下產生混合。

例如，您可以從PXL 更客觀的評估方法中獲得靈感，該方法會提出諸如“添加或刪除項目？”之類的問題。 . 同時可以考慮ICE的衝擊角，加入進來。

“消除乾擾或添加關鍵信息等更大的變化往往會產生更大的影響。”

窺視拉加，CXL

2. 為重要的因素留出空間

包括與您的業務目標一致的因素。這將幫助您更多地關注核心增長驅動因素和 KPI，例如客戶生命週期價值 (LTV) 和客戶保留率，而不僅僅是表面級別的指標和結果。

如前所述，在確定實驗的優先級時，針對公司的學習也很重要。某些解決方案在您的受眾中是否始終如一地且歷來優於其他解決方案？

另外，考慮迭代潛力。迭代可以幫助在解決特定業務問題方面取得更大進展，並且更加成功。如果為真，具有迭代潛力的假設可以而且應該優先於獨立測試。此外，如果不是努力相互促進的飛輪，那麼實驗就什麼也不是。

最後，考慮資源投資的因素，包括複雜性、時間、成本以及用於確定實驗優先級的傳統措施。

3. 權重很關鍵

決定你想從你運行的測試中得到什麼。是在探索新的、開創性的想法嗎？還是利用問題區域直到找到解決方案？

自定義評分系統以滿足您的需求。讓我們考慮兩種不同類型的實驗來更好地理解這一點。

將博客添加到導航菜單將增加對博客的訪問量。
減少結帳頁面上的表單填寫將降低購物車放棄率。

對於這個例子，假設我們只為我們的優先級模型選擇了兩個因素。一個是迭代潛力，另一個是影響潛力，並針對每個因素以 1-5 的等級對每個假設進行評分。

我們現在測試的主要目標是解決電子商務網站的卡遺棄問題。我們應該更加重視迭代潛力，因為我們可能不會通過測試來解決這個問題。在顯著減少購物車放棄之前，我們可能會在一個假設內重複多次。

我們可以通過將其分數加倍來衡量迭代潛在因素。

讓我們將影響潛在因子的第一個假設設為“4”。 “2”代表迭代潛力。然後，對於填表假設，影響因素和迭代潛在因素均為“3”。

如果不強調迭代潛力，這將是平局： “4 + 2 = 3 + 3”

但是在這個因素的分數加倍之後，假設二獲勝：

第一個假設的最終得分： “4 + 2(2) = 8 ”

第二個假設的最終得分： “3 + 3(2) = 9 ”

底線是同一個框架的優先級輸出應該隨著外部和內部考慮的變化而變化。

4. 沖洗並重複，直到你找到正確的首字母縮寫詞

盡量不要期望單次迭代就能獲得好的結果。不斷修改，直到最終為您的業務找到正確的優先級模型。

例如，ConversionAdvocates 創建了他們自己的框架IIEA ，它代表：

洞察力
構思
實驗
分析

IIEA試圖通過在啟動之前列出每個實驗的學習和業務目標來解決大多數模型的兩個主要問題。

無論您最終創建什麼首字母縮略詞，都要不斷審查和重新評估它。 ConversionAdvocates 的優化主管 Sina Fak 提到，他們在過去五年中一直在完善IIEA 。

自 2013 年以來，他們使用此自定義框架來幫助多家企業解決關鍵問題，例如降低成本和提高轉化率。

你的可能不是方便的ICE或PIE ，但結果會很美味。

借助您新的超有用的優先級排序模型，您可以藉鑑傳統學習並可能“測試一切” 。

在我們的書中雙贏！