什麼是 A/A 測試,營銷人員為什麼要關心?

已發表: 2017-05-18

你經歷過這樣的場景嗎? 您設置了 A/B 測試來發現您的新按鈕和標題組合是否會產生更多轉化……

您為兩個點擊後登錄頁面(控制和變體)帶來了相同的流量,並在一個月後停止,當您的軟件以 99% 的信心宣布您的變體獲勝時……

您推出了新的“獲勝”設計,但幾個商業周期之後,50% 的轉化率提升對您的底線沒有影響。 你很困惑。 你生氣了……

你可能是假陽性測試結果的受害者。

什麼是假陽性測試結果?

為什麼 50% 的轉化率提升沒有轉化為更多的銷售額? Copyhackers 的 Lance Jones 說,原因是它可能不存在。

您完全有可能(甚至可能)看不到測試帶來的銷售或收入提升,因為它一開始就沒有出現過。 您可能在測試中不知不覺地收到了“誤報”——稱為 I 類統計錯誤,也稱為錯誤拒絕真實零假設。 那是一口,所以我只記得它是誤報。

不管是否滿嘴,這些第 1 類統計錯誤比您想像的更常見。 據估計,大約 80% 的 AB 測試結果是虛構的。

據估計,大約 80% 的 AB 測試結果是虛構的。

點擊鳴叫

如果您根據誤報做出關鍵決策,充其量您就是在將優化留給機會。 在最壞的情況下,您實際上會降低點擊後目標網頁的轉化率。

幸運的是,有一些方法可以對抗有毒數據。 其中之一類似於您可能已經熟悉的測試方法……

什麼是 A/A 測試?

A/B 測試涉及將流量驅動到兩個不同的頁面——一個原始頁面(您的控制)和另一個版本(您的變體)——以查看哪個表現更好。

同樣,A/A 測試涉及將流量驅動到兩個頁面以查看哪個表現更好。 但與 A/B 測試不同的是,A/A 測試將兩個相同的頁面相互對比——他們的目標不是發現提升,而是發現控制和變體之間沒有差異。

為什麼要進行 A/A 測試?

我們不怪您撓頭,想知道“相互測試兩個相同的頁面究竟會完成什麼?”

這聽起來可能很傻,但這是一些專業測試人員在測試前用來測試 A/B 測試的一種技術。 (嗯?)

準確的測試結果需要的不僅僅是統計顯著性

任何人都可以運行 A/B 測試,但很少有人可以運行有效的 A/B 測試(請記住:只有大約 20% 的測試結果實際上是合法的)。

產生準確的測試數據涉及的不僅僅是通過大量且具有代表性的樣本量達到統計顯著性。 為了對您的結果充滿信心,您必須確保樣本沒有受到許多有效性威脅的污染。

這些威脅之一,即儀器效應,是 A/A 測試最有助於對抗的威脅。

什麼是樂器效果?

在開始 A/B 測試之前就開始防範有效性威脅。 CXL 的 Peep Laja 說,儀器效應是破壞測試結果最多的因素:

這是最常見的問題。 當測試工具(或儀器)出現問題時,就會導致測試中出現錯誤數據。 這通常是由於網站上錯誤的代碼實現造成的,並且會扭曲所有的結果。

這就是為什麼在設置測試時,確保您的工具配置正確並按應有的方式工作很重要。 如果不是,可能會出現以下常見問題:

  • 關鍵績效指標的誤報。 一個工具中的一個錯誤可能會使您的數據混亂,這就是為什麼您永遠不應依賴單一平台來跟踪所有測試信息的原因。 至少,與 Google Analytics 集成以仔細檢查您在測試軟件和網站跟踪中看到的指標是否準確。 為了獲得更好的結果,請使用其他工具進行三次檢查。 對任何不相符的報告持懷疑態度。
  • 點擊後著陸頁顯示問題。 在 A/B 測試期間,小的編碼錯誤可能會導致嚴重的有效性威脅,例如顯示問題。 這就是為什麼確保您的點擊後登錄頁面在所有設備和瀏覽器上看起來都像預期的樣子,並且您的訪問者不會受到所謂的“閃爍效應”影響的原因。 其中,一個緩慢的網站可能會導致此問題,當您的控件在變化之前暫時顯示給您的訪問者時會發生這種情況。
  • 過早停止測試。 一些測試軟件會過早地宣布獲勝頁面——當樣本量不夠大或不能代表您的目標客戶時。 請記住:達到統計顯著性並不意味著該停止測試了。 運行時間越長,結果就越準確。

這些問題中的任何一個(以及更多)都可能導致測試結束時出現誤報,這就是 Peep 警告測試人員保持警惕的原因:

當你設置一個測試時,像鷹一樣觀察它。觀察你跟踪的每一個目標和指標都被記錄下來。 如果某些指標未發送數據(例如添加到購物車點擊數據),請停止測試,找到並解決問題,然後通過重置數據重新開始。

但並不是每個人都願意立即雙腳投入 A/B 測試——尤其是在使用新軟件時。 因此,作為額外的預防措施,一些從業者會在開始 A/B 測試之前進行 A/A 測試以評估他們的工具。

如果您的實驗設置正確,在 A/A 測試結束時,兩個頁面的轉化率應該相似。 但是,正如以下測試人員所展示的那樣,這並不總是發生。

A/A 測試示例

誤報真的那麼普遍嗎? 一個頁面真的能勝過它的克隆嗎? 這些人使用 A/A 測試來找出並在以下博客文章中揭示了他們的發現……

1.首頁拆分測試揭示了流行測試工具的主要缺點

2012 年 11 月 11 日,Copyhackers 團隊開始在他們的主頁上進行 A/A 拆分測試,如下圖所示:
A/A 測試主頁示例
6 天后的 18 日,他們的測試工具以 95% 的置信度宣布獲勝。 不過,為了準確起見,團隊決定讓測試再運行一天——此時他們的軟件以 99.6% 的置信度宣布獲勝:
A/A 測試主頁結果
根據該軟件,他們的主頁的性能比完全相同的頁面高出近 24%,結果為誤報的可能性僅為 0.4%。 儘管如此,該團隊還是讓測試又運行了大約三天,差異最終趨於平緩:
A/A 測試結果參與
但這不是重點。 關鍵是:測試工具過早宣布獲勝者。 如果 Copyhackers 團隊沒有讓它繼續運行,他們就會錯誤地認為他們的實驗存在問題。 在此處閱讀有關測試的更多信息。

2. A/A 測試:我如何通過什麼都不做而將轉化率提高 300%

這個諷刺的標題來自作者和自稱“正在恢復的企業家”David Kadavy,他在 8 個月的時間裡對 750,000 名電子郵件訂閱者進行了多次 A/A 測試。 在那段時間裡,他產生了具有統計意義的結果,例如:
A/A 測試增加轉化率
這些結果包括:

  • 電子郵件打開量增加 9%
  • 點擊次數增加 300%
  • 退訂率降低 51%

他說:

對於許多想要創業的人(包括我以前的自己)來說,這看起來像是“哦,哇,你增加了 10% 的機會!” 他們甚至可能將其輸入 Visual Website Optimizer 的顯著性計算器並看到 p=.048。 “這在統計上很重要!” 他們(或我)可能會驚呼。

但事實是,這些都是 A/A 測試。 相互測試的內容是相同的。 在這裡查看他的更多結果。

你應該運行 A/A 測試嗎?

這個問題的答案取決於你問誰。

尼爾·帕特爾 (Neil Patel) 一直看到轉化率大幅提升,但這並不等同於增加收入,他說:“首先運行 A/A 測試非常重要,因為這有助於確保您不會將時間浪費在不准確的軟件上。”

另一方面,CXL 的 Peep Laja 說 A/A 測試本身就是在浪費時間。 那麼誰是對的?

A/A測試的兩大問題

從理論的角度來看,A/A 測試很有意義。 最重要的是,在運行 A/B 測試時,準確性最為重要,測試您的測試只是確保准確性的眾多方法之一。

然而,在現實世界的測試環境中,A/A 測試可能弊大於利。 克雷格沙利文解釋說:

對我來說,問題總是消耗真實的流量和測試時間,因為必須用一段時間的 A/A 測試來預加載測試運行時間。 如果我試圖每月運行 40 次測試,這將削弱我讓東西上線的能力。 我寧願對實驗進行半天的 QA 測試,也不願運行 2-4 週的 A/A 測試來檢查它是否符合要求。

這是問題一。 A/A 測試會花費實時時間和流量,您可以使用這些時間和流量來通過 A/B 測試了解有關網站訪問者的更多信息。

問題二在 Copyhackers 的案例研究中得到了例證。 與 A/B 測試一樣,A/A 測試需要仔細設計和監控,因為它們也容易出現誤報。

換句話說,您的 A/A 測試可能會告訴您一個頁面的性能優於另一個頁面,但實際上並非如此(這種可能性比您想像的要高得多 — 大約 50%)

如果 Copyhackers 的團隊聽取了他們的測試工具並在六天后宣布獲勝者,他們會花更多的時間試圖弄清楚為什麼他們的主頁比同卵雙胞胎表現更好(但事實並非如此) .

A/A 測試的主要好處

儘管存在這些問題,A/A 測試仍有可能幫助您在實際測試中發現更大的問題。 當這些測試的結果是您做出重要業務決策的依據時,這是一個值得考慮的強大優勢。

如果您確實決定進行 A/A 測試,則有一種可能不太浪費的方法,稱為 A/A/B 測試。

A/A/B 測試與 A/A 測試

傳統的 A/A 測試方法會浪費流量,因為它在結論時不會告訴您有關訪問者的任何信息。 但是,如果您在該測試中添加“B”變體,它就可以。 這是兩者之間的區別:

  • A/A 測試= 2 個相同的頁面相互測試
  • A/A/B 測試= 2 個相同的頁面和一個變體相互測試

A/A/B 測試將您的流量分成三個部分,這意味著需要更長的時間才能達到統計顯著性。 但好處是,一旦你這樣做了,你就會同時擁有關於你的測試工具和你的訪問者的數據。

比較 A 與 A 的結果以確定您是否可以信任您的測試。 如果它們在統計上相似,請比較 A 與 B 的結果。如果它們不相似,則您將不得不丟棄整個測試的結果(這比傳統的 A/A 測試運行時間更長)因為您的流量以三種方式分段)。

A/A 測試利大於弊嗎?

一些專家說“是”,而另一些專家說“不是”。 Leadplum 的 Andrew First 似乎認為答案介於兩者之間:

A/A 測試可能不應該每月進行一次,但是當您設置新工具時,花時間測試您的數據是值得的。 如果您現在攔截不良數據,您將對幾個月後的測試結果更有信心。

最終,這取決於你。 如果您正在使用一種新工具,那麼聽取 Andrew 的建議可能是明智的。 但是,如果您不是,最好跟隨 Craig Sullivan 的領導,而不是建立嚴格的預測試 QA 流程。 節省 A/B 測試的時間、資源和流量。

充分利用您的測試工作和數字廣告活動,立即註冊 Instapage Enterprise 演示。