如何減少樣本量污染以獲得準確的 A/B 測試結果
已發表: 2020-08-08
你花了幾個小時來製定你的測試策略。
你的團隊提出了一個假設。
您運行測試並等待結果。
但是你發現你的測試失敗了。 結果被污染了。 但是怎麼做?
不要打自己。 測試界有一個骯髒的小秘密,叫做樣本量污染。
樣本受眾的污染可能會在不知不覺中導致測試在開始之前就注定失敗。
測試失敗的潛在原因有一長串,但最令人沮喪的原因之一是樣本量污染。
本文將幫助您了解:
- 為什麼會發生樣本量污染。
- 如何知道您的測試是否被污染。
- 採取措施盡量減少樣本量污染的發生。
我們來看一下…
樣本量 101
樣本量的定義
您可以使用 Convert 的 A/B 測試持續時間計算器等工具,它提供了樣本量計算器或 CXL 樣本量計算器。
大多數在線計算器都易於使用。 使用 Convert 的計算器,您只需要插入三個值:
- 現有轉化率
- 預期改進
- 置信水平
例子:
如果現有轉化率為 3%,預期改進為 20%,同時以 95% 的置信度測試兩個變體,則您需要 42,034 的樣本量才能獲得可信的結果。 根據我們的持續時間計算器,這個測試組每天有 2,000 名訪客,需要 22 天。

確定誰將出現在您的樣本中
回答“誰?”這個問題的最簡單方法。 或細分,是通過查看您當前網站訪問者的人口統計數據和來源。 挖掘現有數據以獲取線索。 他們是誰? 他們來自哪裡?
轉換實驗之類的工具實際上允許您使用網站訪問者的特定細分進行測試並創建自定義受眾。
有幾個因素可以幫助您發現“誰”:
- 交通類型
你有季節性流量嗎? 您是否預計假期臨近會有大量遊客湧入? 您的流量數字是否會根據一周中的某一天而波動? - 流量來源
你的流量來自哪裡? 人們的行為會根據他們進入您網站的來源而有所不同。 例如,來自 LinkedIn 的訪問者可能不會像來自 Facebook 的人那樣與您的網站進行交互。
檢查 Google Analytics 以了解基於 Source 的訪問者參與度。

- 新與舊
統計數據顯示,回訪者在您網站上停留的時間比新訪問者長。 想想這將如何影響您的測試。
此考慮階段的目標是幫助您構建具有代表性的樣本。
調查研究方法百科全書將代表性樣本定義為:
代表性樣本是指與樣本所代表的目標人群相關的具有很強外部效度的樣本。 因此,調查結果可以自信地推廣到感興趣的人群。
為確保您擁有具有代表性的樣本,Convert 建議至少運行一個業務週期的測試。 這可確保您的測試有時間考慮一個週期內可能發生的訪問者差異。
什麼是樣本量污染?
現在您了解了樣本量是多少,您可以探索可能破壞樣本量的因素,並搞砸您的測試。 這就是樣本量如何影響有效性。 對測試結果產生負面影響的樣本量因素稱為樣本量污染。
Invespcro 將樣品污染定義為:
“......通過影響進行測試時使用的樣本或數據使您的 A/B 測試數據無效的因素。”
這個問題比較常見。 看看這個投訴:

有偏樣本
在大多數情況下,您需要隨機抽樣,這意味著您網站的每個訪問者在被分桶之前都有相同的機會看到特定的變化。 一旦放入桶中,用戶將在測試期間看到相同的變體。
但是,如果您使用的 A/B 測試工具不能很好地執行隨機化,則無法保證隨機化,並且可能會使測試無效。
對抗有偏抽樣的一種簡單方法是使用像 Convert 這樣的優秀 A/B 測試工具,它可以正確執行隨機化和分桶。 從 A/A 測試開始您的測試,以檢查隨機化是否正常工作。
當您考慮測試的細節時,您需要意識到樣本偏差的可能性。
導致樣本量污染的來源
有四種常見的樣本污染類型是時間、設備、瀏覽器和 cookie。
讓我們來看看他們中的每一個……
定時
測試的長度會影響結果的有效性。 因此,“我應該運行多久的 A/B 測試”是一個常見問題也就不足為奇了。
CRO 專業人士對什麼是可接受的基準有相互矛盾的想法。 實際上,您的測試變量應該驅動您的測試的適當長度。
一個簡單的解決方案可能看起來只是讓您的測試運行並運行並運行。 但這也可能導致問題。 增加的時間意味著來自外部因素的潛在污染增加。
你想找到甜蜜點。
關於測試長度的另一個常見錯誤是過早停止測試。 這可能不會導致樣本量污染,但會對您的測試產生負面影響。
如果在達到統計顯著性時停止測試,情況也是如此。 對於有效的測試,它還應該達到您計算的所需 MDE(最小可檢測效應)的樣本量。
沿著類似的思路,永遠不要停止正在運行的測試的變體。 這將造成災難性的污染。 您將無法將“停止”變體與“始終運行”控件進行比較。 您無法將“蘋果與蘋果”進行比較。 永遠不要停止並稍後重新啟動測試中的變體。
在數據與樣本量一致之前,請勿中斷您的測試。

餅乾污染
Cookie 可能會導致最隱蔽的樣本量污染形式。
根據技術百科的定義,cookies 是:
cookie 是 Web 瀏覽器存儲在用戶機器上的文本文件。 Cookie 是 Web 應用程序維護應用程序狀態的一種方式。 網站使用它們進行身份驗證、存儲網站信息/首選項、其他瀏覽信息以及在訪問 Web 服務器時可以幫助 Web 瀏覽器的任何其他內容。 HTTP cookie 有許多不同的名稱,包括瀏覽器 cookie、Web cookie 或 HTTP cookie。
作為營銷人員,cookie 允許您跟踪訪問者在您網站上的行為。
cookie 的壽命是不穩定的。 訪問者可以隨意刪除它們。
您的測試運行時間越長,您就越容易受到 cookie 被刪除的影響——再次導致另一種形式的樣本量污染。 為了緩解這種現象,Convert 建議客戶運行測試的時間不超過 90 天。

設備污染
訪問者通過多種設備訪問您的網站:移動設備、筆記本電腦、平板電腦、台式機,甚至智能手錶。
想想你的瀏覽行為。 在健身房時,您可能會在移動設備上發現一些東西。 當天晚些時候,您可以在台式計算機上重新訪問該網站。
如果這種情況發生在您的 A/B 測試範圍內,則可能看起來是兩個不同的人訪問了您的網站,而實際上是同一個人從兩個不同的設備瀏覽。
對您的測試工作更危險的是,同一個人可能會在每台設備上看到不同的變體。
有一個相反的例子。 當兩個人使用同一設備訪問您的網站時會發生什麼?
想像兩個兄弟住在同一個房子裡。 他們共用一台台式電腦。 兩人都在為假期做準備,需要訂購新的 T 恤和鞋子。 如果在他們訪問電子商務網站時正在運行 A/B 測試,則數據會將這兩個人顯示為單個用戶,這再次破壞了您的樣本量。
瀏覽器污染
當普通人上網時,他們不會考慮使用不同的瀏覽器訪問同一個網站對 A/B 測試的影響。 但是從一個瀏覽器到另一個瀏覽器訪問同一個網站,比如 Safari,然後是 Chrome,可能會導致類似的樣本量污染,這種污染髮生在多設備上。
但是,這種特定形式的污染很少見,因為大多數人會堅持每台設備使用一個首選瀏覽器。
新危險
瀏覽器、設備類型、cookie 和測試時間是最常見的樣本量污染物,但看起來一種新的污染物正在進入對話。 行業專業人士抱怨機器人會造成樣本量污染。

值得慶幸的是,在 Convert,我們的工具中嵌入了強大的 bot 緩解措施,因此這不會成為問題。
如何減少樣本量污染的提示
由於樣本量污染是一個主要問題,因此許多公司提出了創造性的解決方案,例如根據位置將用戶放入不同的存儲桶中。
但是這樣的策略會剝奪“用戶隨機性”的測試,並且會降低你對測試結果有效的信心。
以下是您可以採取的一些措施來減少樣品污染的機會:
- 對單獨的設備運行測試。
- 為不同的瀏覽器運行測試。
- 識別模式。 您的數據過去看起來如何? 在測試過程中應該是相似的——數據一致性。
這裡還有一些需要考慮的事情……
了解方差
方差和標準差與一致性密切相關。 從本質上講,他們會告訴你你的數字與平均水平相差多遠。 低方差意味著您的數據與平均值一致,從而降低了污染風險。
您可以自己手動計算,也可以使用簡單的標準差計算器。
注意潛在的抽樣問題
A/B 測試存在固有問題,包括樣本量污染的可能性。
對潛在樣本量問題的了解使您能夠在選擇測試目標、創建治療和運行實驗時做出更好的選擇。
現在您可以戰勝樣本污染
良好的測試實踐意味著您在開始項目時充分了解可能出現的問題。
樣本量污染是運行 A/B 測試時遇到的負面副產品。 您的工作是盡可能減少這些負面影響,以便您可以成功進行測試。
請記住,緩解發生在您的測試開始之前。
使用像 Convert 這樣的強大工具,讓您能夠在一個支持複雜測試的簡單平台內分割測試、對抗討厭的機器人、使用良好的隨機化技術。
您的實驗策略和軟件的功能將影響您將樣本量污染降至最低的程度。
既然您知道測試中的這個潛在盲點,它就不會在您身上蔓延。
