2022 年多變量測試完整指南
已發表: 2020-11-05多變量測試 (MVT) 不就是同時運行幾個 A/B 測試嗎?
不,這是關於 MVT 的最流行的神話之一。 它比這更微妙。
多變量測試類似於 A/B 測試,但您要針對多個變體而不是一個變體來測試您的控制。 你看,不只是 A 對抗 B,它也對抗 C、D、E 等等。 對於高流量站點來說,這是一種找到表現最佳的更改組合的有效方法。
所以…
- 什麼時候應該使用 MVT 而不是 A/B 測試?
- 多變量測試與 A/B/n 測試相同嗎?
- 多變量測試的一些例子是什麼?
- 如何運行一個以獲得可靠的結果?
我們將回答您關於多變量測試的問題,在此過程中提升您的實驗和 CRO 技能,以便在本指南結束時,您可以在 30 分鐘內部署您的測試。
- 什麼是多元測試?
- 多變量測試與 A/B 測試:有什麼區別?
- 何時運行多變量測試?
- 多變量測試的好處
- 多變量測試的缺點
- 1.需要大樣本量
- 2. MVT 測試需要時間
- 3.運行成本更高
- 4. 你更容易出錯
- 已顯示出重大影響的多變量測試示例
- 多元檢驗統計:多元分析簡介
- MVT 和流量:如何計算多變量測試的樣本量?
- 何時停止多變量測試?
- 如何設計多變量測試?
- 多變量測試的數據收集
- 1. 全階乘
- 2. 分數階乘
- 多變量檢驗的假設生成
- 多變量測試的質量保證
- 多變量測試的數據收集
- 您如何進行多變量測試? 在轉換體驗中部署多變量測試。
- 什麼是最好的 A/B 和多變量測試工具?
- 2022 年要避免的主要多變量測試錯誤
- 結論
如果您希望將您的實驗技能提升到一個新的水平,那麼本指南適合您。
聽起來不錯? 讓我們開始…
什麼是多元測試?
想像一下,您想同時測試網頁上各種元素的不同版本以了解它們如何一起執行,多變量測試就是您運行的測試。
多變量測試(MVT 測試)是一種在網頁上以不同組合測試多個變量的技術。 這些可能的組合創建了多個頁面的變體,因此是“多”。
因此,多變量測試類似於 A/B/n 測試,因為我們針對對照測試兩個或多個變體。 不同之處在於 A/B/n 測試是單變量的,而多變量測試則測試串聯變化的組合。
例如,如果您想在頁面上測試兩個不同的標題、兩個圖像和兩個按鈕顏色,您的 MVT 測試將如下所示:
在上面的 MVT 測試中,您正在以不同的組合同時測試不同的元素(標題、顏色和圖像),以找到最好的元素。
但這並不意味著不可能對單個元素做兩個以上的變體。 您可以擁有 3 個、4 個或更多,並同時測試它們。 人們只喜歡一種變化,這樣他們就可以將轉化率的提升追溯到它。
另一個需要注意的重要事情是MVT 測試與並發測試不同。 並發測試同時在同一樣本集上運行多個實驗。 這可能會造成乾擾。
並發測試可能如下所示:運行 A/B 測試以找到兩個版本之間的最佳標題,並運行 MVT 測試以在同一著陸頁上找到標題、英雄圖片和 CTA 或操作按鈕的最佳組合同時。
在 A/B/n(或多變量)測試中,我們使用多個變體服務於相同的用戶行為假設。 想像一下,該著陸頁上同時運行許多 A/B 測試來回答一個問題。 比如,“這批中哪個版本給我們帶來了最好的提升?”
多變量測試與 A/B 測試:有什麼區別?
對於未經訓練的人來說,MVT 測試似乎是一種更高級的 A/B 測試形式。 但是兩種類型的測試都非常不同。
A/B 測試和多變量測試之間的區別在於一次測試的變體數量。 A/B 測試將針對對照測試一個變體,而多變量測試將有兩個或更多。
A/B 測試測試一個元素。 例如,您正在測試將圖像添加到您的網頁。 您的實驗可能如下所示:
- 控制 = 無圖像
- 變化 1 = 圖像
在這種情況下,您只是在您的網站上測試圖像,因此它是 A/B 測試。
在 A/B/n 測試中,與在多變量測試中一樣,您可以有多種變體。 但不同的是,在 A/B/n 測試中,您只測試一個元素(或變量),而在多變量測試中,您正在測試每個變體中的多個元素。
這是轉換合作夥伴代理機構 iProspect 的一個傑出示例。 該機構進行了一項以定價頁面信息為特色的測試。 他們的實驗特點:
- 沒有定價信息的控件,
- 起價低的變體 1,
- 起價較高的變體 2。
你能猜出這是什麼類型的測試嗎?
在這種情況下,我們只測試一個元素,添加定價信息,所以我們有一個 A/B/C(或 A/B/n)類型的測試。
當談到 A/B 測試和多變量測試之間哪個更好時,這取決於您要實現的目標。 有時 MVT 比 A/B 測試更有效。
如果您想測試頁面上的不同元素(及其交互效果),使用 MVT 代替 A/B 測試更容易。 使用 A/B 測試,您必須為元素的變化創建幾個連續的測試。 同時,multivariate 立即處理它們。
何時運行多變量測試?
當您想衡量一種變體與原始變體相比的表現時,請使用 A/B 測試。 如果您要更改一個元素,例如,不同的標題或不同的按鈕顏色,則此方法有效。 只要這些更改屬於一個變體,並且您得到 A vs B。
當您針對控件測試了多個變體,但一次只更改一個元素時,請使用 A/B/n 測試。
讓我們舉例說明:您想測試在著陸頁中添加標題是否會提高轉化率。 您可以進行 A/B/n 測試,例如 Split Base,一個 Convert Partner Agency。 他們進行了一項測試,以確定添加以利益為導向的標題是否會增加轉化率。
PS:它做到了! 它使利潤增加了 27%。
當您有多個變體和多個變量時,您使用多變量測試。 比如說,您還有 2 個標題創意和 CTA 選項,這會導致您創建變體 C 和 D,MVT 是查看這些更改如何相互作用的最有效方法。
“如果我使用標題 2 和按鈕顏色 3 會怎樣? 這將如何影響註冊數量?” 這些是 MVT 回答的問題——當它們同時一起工作時,頁面元素變化對性能的影響。
多變量測試將超越測試一個標題並測試該頁面的更多變體。 它的設計和運行更加複雜,因此選擇它而不是 A/B 測試必須是值得的。
通常,A/B 測試足以提供我們正在尋找的答案。 MVT 更適合於您認為一個或多個變體有機會擊敗您的 A 和 B 的情況。
其中一些實例是:
- 您的流量很大,並且希望在更短的時間內收集更多的知識。 多變量測試為高流量網站提供了在更短的時間內測試想法組合的機會,但這些想法必須是高質量的想法,以免浪費資源。
- 您需要知道哪些元素組合導致了轉化率提升。 因為一系列不同的 A/B 測試只是多餘的。
很難部署一個包含所有所需更改的變體。 也許您的測試平台不允許這種程度的自由。 這是解決它的一種方法。 但是,如果以後無法對這些更改進行硬編碼,您將無法使用您的測試結果。
多變量測試的好處
多變量測試對轉化率和收入有著不可否認的影響。 想想看。 如果沒有,沒有人會談論使用它!
MVT 測試的一個好處是它可以讓您了解網站上的更改如何影響轉化率。 多變量測試使您能夠衡量這些變化之間的交互作用。 您可以衡量不同小變化的複合效果,看看它如何影響您的對話率。
多變量測試的缺點
只有具有大量流量和大預算的網站才運行多變量測試是有原因的。 讓我們談談運行 MVT 測試的缺點。
1.需要大樣本量
您測試的元素更改越多,您將擁有的變化越多。 這些變體中的每一個都需要接收足夠的流量才能到達 stat sig,因此您必須等待更長時間才能獲得準確的結果。 這就是為什麼很多網站無法運行 MVT 測試,因為它們缺乏流量。
2. MVT 測試需要時間
正如我們上面提到的,每個變體都需要流量和大量流量。 您測試的組合越多,不同的變化就越多,您需要等待的時間就越長。
但這在大多數 CRO 案例中是合理的。 因為如果您要將 MVT 測試拆分為一系列 A/B 測試,您將花費更多的時間和流量。
3.運行成本更高
您需要額外的時間(和金錢)來開發和 QA 每個變體。 這就是為什麼您決定在更簡單的 A/B 測試上運行這些測試需要有充分的理由,否則您的測試投資回報率會受到影響。
4. 你更容易出錯
當您運行 A/B/N 測試時,您不會應用用於 A/B 測試的相同統計信息。 額外的變體需要調整統計顯著性檢驗。 增加的家庭錯誤率 (FWER) 意味著您更有可能犯 I 類錯誤並將錯誤的變體標記為贏家。
已顯示出重大影響的多變量測試示例
- 微軟在他們的 SMB 網站上進行了多變量測試,並找到了一個將轉化率提高 40% 的變體!
- 2009 年,YouTube 在其主頁上運行了一個 MVT,以吸引更多人註冊一個帳戶。 他們稱之為“1,024 配方實驗”。 一種變體以 15.7% 的提升獲勝。
- Booking.com 以測試而聞名。 他們使用多元測試來了解新功能如何在較小的受眾中使用,然後再推出。
- HawkHost 想在他們的主頁上看到提升,他們得到了它。 這些在多變量測試中測試了他們的標題、副標題和英雄形象,導致銷售額增長了 204%。 那是巨大的。
- 亞馬遜的登陸頁面佈局是多變量測試的結果。 他們將其與機器學習一起使用,以找到推動轉化的最佳佈局,並在 7 天內將購買率提高了 21%。
資源
多元檢驗統計:多元分析簡介
如果您對多變量測試在測試工具的精美 UI 下的工作原理以及其背後的原理感到好奇,那麼讓我們激動一下:
多變量分析 (MVA) 是一種統計分析,其中多個因變量與其他變量同時進行分析。 它基於現實世界的運作方式:一個以上的因素對某個結果負責。
它不僅用於數字營銷(即轉化率優化),作為探索性數據分析的一部分,還應用於醫療保健、製造、交通等各個領域。它推動了企業界的許多決策以及在政府中。
雖然它很複雜,但它是分析因變量和自變量之間關係的準確方法。
MVT 和流量:如何計算多變量測試的樣本量?
最好的方法是使用我們的樣本量計算器工具。 這將為您提供開始設計健康的多變量測試所需的一切。
何時停止多變量測試?
過早停止測試可能會導致錯誤,因為收集的數據不足以進行任何準確的分析。
你可能聽過一些人說你應該在有明顯的贏家時停止,或者如果它的轉化率下降到 10% 以下就停止變化,並將其流量轉移到表現最好的人——請放心,這會嚴重污染結果。
你不應該在之前停止多變量測試:
- 為每個變體收集足夠大的樣本量。 因此,讓它運行更長時間以收集足夠的相關轉化。
- 運行 1 或 2 個完整的銷售週期,以平衡 30-60 天的流量和購物期。
- 達到統計學意義。 這意味著當被推送到生活中時,它應該能夠以 95% 的準確度複製其結果。
如何設計多變量測試?
A/B 測試和多變量測試的設計和執行方式相似。
我們在下面概述了運行 MVT 的分步測試方法。 但這裡有一個快速的:
- 確定問題並製定目標:當您查看數據時,嘗試了解網站訪問者的體驗並找到問題。 制定假設(有目標的解決方案)並以此為基礎進行測試。
- 決定要測試的內容:您的假設將涉及網頁元素的組合。 弄清楚您將如何與他們一起實現目標。 創建它的變體以反對原始版本。
- 估計你的時間框架和样本量:你不必自己做。 使用我們的預測試樣本量計算器。 它將幫助您找出所需的基本數字。
- 構建測試:在您的測試平台中,設置您的變體組合。
- 確保有效:對每種新療法進行質量保證測試,以確保它們按預期工作。
- 運行您的測試:開始為他們吸引流量。
現在,讓我們仔細看看從數據收集到 QA 的每個步驟:
多變量測試的數據收集
在多變量測試期間如何收集數據? 主要有兩種方法需要注意:
1. 全階乘
它是這樣工作的:MVT 中的每個變體都會獲得等量的所有訪問您網站的流量。 如果您有 5 個變體,則每個變體將獲得 20% 的訪問您網站的流量。
當然,要達到統計意義,這種方法需要大量的流量,並且需要運行很長時間。 但是這個特性也使得全階乘是最準確的選擇。
2. 分數階乘
與其“完整”對應物不同,部分階乘僅測試變體的一個子集。 這就是為什麼它的名字中有“分數”。
如果您有 10 個變體,它將測試其中的 5 個,並根據結果預測它未測試的 5 個的性能。
正因為如此,它比全階乘運行得更快,但準確度顯著降低。 它的好處是您可以在提交之前大致了解完整測試的外觀。
田口法呢? 有人說它是部分階乘的另一個名稱。 使用起來很複雜。 因此,大多數工具不提供它。
多變量檢驗的假設生成
您必鬚根據準確的定性和定量數據創建多元檢驗假設。
您不想猜測或使用在博客上找到的常見測試想法來運行測試。 選擇相關的東西,例如解決您在篩選數據時發現的問題或測試您認為可以產生提升的想法。
這將作為您的測試目標。 您可以使用我們的假設生成器來幫助您提出可靠的假設。
多變量測試的質量保證
沒有質量保證,任何測試都可能產生誤導。 在沒有 QA 的情況下推進是有風險的,並且可能導致代價高昂的錯誤。 在您信任測試的見解之前,請通過幾個檢查點:
- QA 設置:在您決定用於 QA 流程的設置時,確定特殊用例以測試您將要進行 QA 的設備和瀏覽器上的用戶體驗等。
- 外部因素:識別您無法控制的可能影響測試的因素,例如事件或假期、同時運行的其他測試、事件和站點流量。
- 實驗設置:檢查假設公式的質量、流量分配、閃爍是否會影響測試、其他延遲和錯誤等。
- 跨瀏覽器和跨設備:您需要驗證跨設備和屏幕分辨率的排版、字體和配色方案,驗證邊距和填充,檢查可用性,頁面元素在各種設備上的表現等等。
以及您可能檢測到的其他差異:有必要與您的團隊分享這方面的信息以進行修復。
您如何進行多變量測試? 在轉換體驗中部署多變量測試。
在 Convert Experiences 中創建多變量測試僅需 4 個簡單步驟。 這是做什麼:
- 命名您的體驗
在轉換體驗中,選擇“新體驗”,然後選擇“多變量”,然後為您的體驗命名: - 做出變化
在您用於測試的頁面的 URL 加載後,第一個變體就可以進行編輯了。 你可以編輯副本,添加新的視覺效果,你可以命名它。 在下面的示例中,我們已經:
– 單擊要更改的元素(以橙色突出顯示)
– 在菜單中選擇一個動作,即更改圖像源 - 命名變體
這是不言自明的。 你會想選擇一些在以後的報告中對你來說很突出的東西。 - 定義目標和受眾
轉到實驗摘要,然後設置您的受眾和實驗目標。
你有它! 您的體驗已啟動並正在運行。
有關設置可靠多變量測試的所有步驟,請在此處查看我們的支持資源。
現在您已經了解了什麼是多變量測試以及如何成功設置多變量測試,讓我們分解幾個可供您選擇的不同平台。 市場上許多頂級 A/B 測試工具在一個軟件中提供多變量測試和 A/B 測試。 那麼哪一個最適合您的需求呢?
如果多變量測試方法是您的決定因素,那麼您來對地方了。 下面的列表為您提供了市場上多變量測試的 9 個頂級參與者。
什麼是最好的 A/B 和多變量測試工具?
以下是 CRO 專家首選的多變量測試工具,以及它們提供的多變量測試方法:
- 轉換體驗——全因子
- AB Tasty – 全因子
- Google Optimize 和 Optimize 360 – 既不是全因子也不是分數的混合方法
- Adobe Target – 全因子和田口
- Kameleoon – 全因子和部分因子
- Optimizely – 全因子、部分和田口
- Sitespect – 全因子和部分因子
- VWO – 全因子
- Webtrends Optimize – 全因子和部分因子
仍然不確定選擇什麼多元測試工具? 檢查最佳多變量測試工具的完整細分。
或者嘗試轉換體驗。 可以免費試用 15 天。
2022 年要避免的主要多變量測試錯誤
如果您以正確的方式使用它們,這些測試只能幫助您實現優化目標。
但是我們是人類,我們的工具並不完美,所以確實會發生錯誤。 您可以通過避免這些來減少破壞測試的機會:
- 未測試您的 MVT 工具的準確性
創建頁面的變體,但不要更改任何內容。 保持不變並運行其餘部分。 既然人們看到的是一樣的東西,結果應該是一樣的。
- 不是從一個可靠的假設開始
在沒有基線的情況下運行測試,預期結果是盲目的。 它對您或您正在測試的網站沒有幫助。 首先生成一個假設。
- 複製你的競爭對手
您的組織是獨一無二的,您的目標也不同。 複製你的競爭對手是沒有好處的。 他們的許多測試不僅不適用於您的案例,而且他們可能不知道自己在做什麼。
- 在季節性活動或主要站點/平台活動期間運行測試
如果您的測試不是針對某個事件,那麼您不應該在其中運行多變量測試。 結果不會反映正常一天的準確表現。
- 偷看
誘惑是難以抗拒的。 你只是想看看它是怎麼回事。 您甚至可能在一個變體上下注,並想看看哪個贏了。 不。
您不僅會得到不准確的期望,而且還可能基於它們做出錯誤的決定。 您可以檢查它們是否正在運行或是否有任何錯誤,僅此而已。
- 運行測試的時間不夠長
多變量測試需要運行很長時間。 可以把它想像成單獨的 A/B 測試必須獲得足夠的流量才能達到統計顯著性。 讓您的多變量測試運行足夠長的時間,以便獲得準確和重要的結果。
- 在測試運行時進行更改
您可以修復錯誤,但不能重新設計您的網站或進行複制更改。 在測試上線後,任何改變變體外觀和感覺的東西都應該保持不變。
- 獲得準確結果後忘記停止測試
它發生的頻率比你想像的要多。 這意味著,在您有了明顯的贏家之後,您仍然會向其餘流量展示您網站的較弱版本。 你不想那樣做。
- 一次測試後放棄
也許你所有的變種都比對照差,那又怎樣? 您剛剛了解了它不起作用的各種方法。 運行更多測試並獲得更多見解。 所有的知識都是有價值的。
- 測試後不檢查有效性
當一切都說完了,你得到了結果,就這樣結束了嗎? 您是否關閉了測試平台並繼續前進? 在相信結果的準確性之前,最好先坐下來檢查一切是否順利。
- 沒有運行足夠的測試
當您進行測試時,無論是贏家還是輸家,都要從中學習。 使用你新發現的知識來創建一個更明智的假設並再次運行。 然後再次。 這就是你如何讓實驗為你工作。
- 不記錄測試
保留一個測試數據庫。 這將提高您的優化團隊的績效,即使該團隊只是您。 我們都需要從以前的經驗中學習,以使下一個更好。
而且,為了避免浪費時間兩次運行相同的測試。
結論
無論您有電子商務商店、SaaS 還是簡單的登錄頁面,在某些情況下運行多變量測試是有意義的。 您可能有一個高流量的網站,但您仍然需要確定多變量測試是否適合您的網站。 在運行多變量之前評估成本、流量和需求。