正確なA/Bテスト結果を得るためにサンプルサイズの汚染を減らす方法
公開: 2020-08-08テストの戦略を立てるのに何時間も費やしました。
あなたのチームは仮説を立てます。
テストを実行し、結果を待ちます。
しかし、あなたはあなたのテストが失敗したことに気づきます。 結果は汚染されています。 しかし、どのように?
殴らないでください。 テストの世界には、サンプルサイズの汚染と呼ばれる汚い小さな秘密があります。
サンプルオーディエンスが汚染されると、テストが開始される前に、無意識のうちにテストが運命づけられる可能性があります。
テストが失敗する潜在的な理由の長いリストがありますが、最も苛立たしいものの1つはサンプルサイズの汚染です。
この記事はあなたが理解するのに役立ちます:
- サンプルサイズの汚染が発生する理由。
- テストが汚染されているかどうかを知る方法。
- サンプルサイズの汚染が発生しないようにするための手順。
みてみましょう…
サンプルサイズ101
サンプルサイズの定義
サンプルサイズ計算機またはCXLサンプルサイズ計算機を提供するConvertのA/Bテスト期間計算機などのツールを使用できます。
ほとんどのオンライン計算機は簡単に使用できます。 Convertの計算機では、次の3つの値をプラグインするだけで済みます。
- 既存のコンバージョン率
- 期待される改善
- 信頼水準
例:
既存のコンバージョン率が3%で、95%の信頼水準で2つのバリエーションをテストしているときに、期待される改善が20%である場合、信頼できる結果を得るには、42,034のサンプルサイズが必要になります。 このテストグループへの1日あたりの訪問者数が2,000人の場合、期間計算ツールによると22日かかります。
サンプルに誰が含まれるかを決定する
「誰?」というこの質問に答える最も簡単な方法は? またはセグメントは、現在のWebサイト訪問者の人口統計とソースを確認することによるものです。 手がかりを得るために既存のデータを活用します。 彼らは誰なの? 彼らはどこから来たのですか?
Convert Experimentsなどのツールを使用すると、実際には、Webサイト訪問者の特定のセグメントを使用してテストし、カスタムオーディエンスを作成できます。
いくつかの要因が「誰」を明らかにするのに役立ちます。
- トラフィックの種類
季節ごとの交通量はありますか? 休日が近づいてきて、来場者が増えると思いますか? トラフィック数は曜日によって変動しますか? - トラフィックソース
あなたのトラフィックはどこから来ていますか? 人々はあなたのサイトに入るソースに基づいて異なった振る舞いをします。 たとえば、LinkedInからの訪問者は、Facebookからの訪問者と同じようにサイトを操作しない場合があります。
Google Analyticsを調べて、ソースに基づいた訪問者のエンゲージメントの概要を把握します。
- 新旧
統計によると、リピーターは新規ビジターよりも長くサイトに留まります。 これがテストにどのように影響するかを考えてください。
この検討段階の目標は、代表的なサンプルの作成を支援することです。
調査研究方法の百科事典は、代表的なサンプルを次のように定義しています。
代表的なサンプルとは、サンプルが表すことを意図したターゲット母集団との関係で強力な外部妥当性を持つサンプルです。 そのため、調査の結果は、関心のある母集団に自信を持って一般化することができます。
代表的なサンプルがあることを確認するために、Convertは少なくとも1つのビジネスサイクルでテストを実行することをお勧めします。 これにより、サイクル内で発生する可能性のある訪問者の変動をテストで考慮する時間が確保されます。
サンプルサイズの汚染とは何ですか?
サンプルサイズが何であるかを理解したので、サンプルサイズを損なう可能性のある要因を調査し、テストを台無しにすることができます。 これは、サンプルサイズが妥当性にどのように影響するかです。 テスト結果に悪影響を与えるサンプルサイズの要因は、サンプルサイズの汚染として知られています。
Invespcroは、サンプル汚染を次のように定義しています。
「…テストの実施中に使用されるサンプルまたはデータに影響を与えることにより、A/Bテストデータを無効にする要因。」
この問題はより一般的です。 この苦情を見てください:
偏ったサンプル
ほとんどの場合、ランダムサンプリングが必要です。つまり、Webサイトの各訪問者は、バケット化される前に特定のバリエーションを見る可能性が同じです。 バケットに配置されると、テスト期間中、ユーザーには同じバリアントが表示されます。
ただし、ランダム化を適切に実行しないA / Bテストツールを使用すると、ランダム化が保証されず、テストが無効になる可能性があります。
偏ったサンプリングに対抗する簡単な方法は、ランダム化とバケット化を正しく実行するConvertのような優れたA/Bテストツールを使用することです。 A / Aテストからテストを開始して、ランダム化が正しく機能するかどうかを確認します。
テストの詳細を検討するときは、サンプルバイアスの可能性に注意する必要があります。
サンプルサイズの汚染を引き起こす原因
サンプル汚染には、タイミング、デバイス、ブラウザ、Cookieの4つの一般的なタイプがあります。
それぞれを見てみましょう…
タイミング
テストの長さは、結果の有効性に影響します。 したがって、「A/Bテストをどのくらいの期間実行する必要があるか」がよくある質問であることは当然のことです。
CROの専門家は、許容できるベンチマークについて相反する考えを持っています。 実際、テスト変数はテストの適切な長さを駆動する必要があります。
簡単な解決策は、テストの実行と実行と実行を許可するだけのように見える場合があります。 しかし、これも問題を引き起こす可能性があります。 時間の追加は、外部要因による潜在的な汚染の増加を意味します。
あなたはスイートスポットを見つけたいです。
テストの長さに関するもう1つのよくある間違いは、テストの停止が早すぎることです。 これはサンプルサイズの汚染につながることはありませんが、テストに悪影響を与える可能性があります。
統計的有意性に達したときにテストを停止した場合も同様です。 有効なテストでは、目的のMDE(最小検出可能効果)の計算されたサンプルサイズにも到達する必要があります。
同様の方針に沿って、実行中のテストのバリアントを停止することは決してありません。 これは壊滅的な汚染を引き起こします。 「停止した」バリアントを「常に実行している」コントロールと比較することはできません。 「リンゴとリンゴ」を比較する方法はありません。 テストでバリアントを停止して後で再起動しないでください。
データがサンプルサイズの量と一致するまで、テストを中断しないでください。
クッキーの汚染
クッキーは、最も陰湿な形のサンプルサイズの汚染を引き起こす可能性があります。
techopediaの定義に基づくと、Cookieは次のとおりです。
Cookieは、Webブラウザがユーザーのマシンに保存するテキストファイルです。 Cookieは、Webアプリケーションがアプリケーションの状態を維持するための方法です。 これらは、認証、Webサイト情報/設定、その他の閲覧情報、およびWebサーバーへのアクセス中にWebブラウザーを支援するその他の情報を保存するためにWebサイトによって使用されます。 HTTP Cookieは、ブラウザCookie、Web Cookie、HTTP Cookieなど、さまざまな名前で知られています。
マーケターとして、Cookieを使用すると、サイトでの訪問者の行動を追跡できます。
クッキーの寿命は不安定です。 訪問者は少し気まぐれでそれらを削除することができます。
テストの実行時間が長くなるほど、Cookieが削除される可能性が高くなります。これも、別の形式のサンプルサイズの汚染につながります。 この現象を軽減するために、Convertはお客様に90日以内のテストを実行するようにアドバイスしています。
デバイスの汚染
訪問者は、モバイル、ラップトップ、タブレット、デスクトップ、さらにはスマートウォッチなど、複数のデバイスからサイトにアクセスします。
あなたのブラウジング行動を考えてみてください。 ジムにいる間、モバイルデバイスで何かを見つけることができます。 その日の後半に、デスクトップコンピュータでWebサイトに再度アクセスできます。
これがA/Bテストの範囲内で発生した場合、実際には2つの異なるデバイスからブラウジングしているのは同じ人物であるにもかかわらず、2人の異なる人物がサイトにアクセスしたように見える場合があります。
テスト作業にとってさらに危険なのは、この同じ人物が各デバイスで異なるバリアントを見る可能性があることです。
これの逆の例があります。 2人が同じデバイスを使用してWebサイトにアクセスするとどうなりますか?
2人の兄弟が同じ家に住んでいると想像してください。 彼らはデスクトップコンピュータを共有しています。 どちらも休暇の準備をしており、新しいTシャツと靴を注文する必要があります。 訪問時にeコマースサイトでA/Bテストが実行されている場合、データはこれら2人をシングルユーザーとして表示し、サンプルサイズを破壊します。
ブラウザの汚染
平均的な人がオンラインになったとき、同じWebサイトにアクセスするために異なるブラウザを使用した場合のA/Bテストの影響については考慮していません。 ただし、SafariやChromeなど、あるブラウザから別のブラウザに同じWebサイトにアクセスすると、マルチデバイスで発生する同様のサンプルサイズの汚染につながる可能性があります。
ただし、ほとんどの人がデバイスごとに1つの優先ブラウザを使用することに固執するため、この特定の形態の汚染はまれです。
新しい危険
ブラウザ、デバイスタイプ、Cookie、およびテストの長さが最も一般的なサンプルサイズの汚染物質ですが、新しい汚染物質が会話に入っているようです。 業界の専門家は、ボットがサンプルサイズの汚染を引き起こしていることに不満を持っています。
ありがたいことに、Convertでは、ツールに強力なボット緩和策が組み込まれているため、問題は発生しません。
サンプルサイズの汚染を減らす方法に関するヒント
サンプルサイズの汚染は大きな問題であるため、多くの企業は、場所に基づいてユーザーを異なるバケットに入れるなど、創造的な修正を考え出しました。
しかし、そのような戦術は「ユーザーのランダム性」のテストを取り除く可能性があり、テスト結果が有効であるという自信を低下させる可能性があります。
以下は、サンプル汚染の可能性を減らすためにできることです。
- 別のデバイスのテストを実行します。
- 別のブラウザでテストを実行します。
- パターンを特定します。 過去のデータはどのように見えましたか? テスト中も同様である必要があります–データの一貫性。
考慮すべき点がさらにいくつかあります…
分散を理解する
分散と標準偏差は一貫性と密接に関連しています。 基本的に、彼らはあなたの数が平均からどれだけ離れているかを教えてくれます。 分散が小さいということは、データが平均と一致していることを意味します。これにより、汚染のリスクが低くなります。
自分で計算することも、単純な標準偏差計算機を使用することもできます。
潜在的なサンプリングの問題に注意してください
サンプルサイズの汚染の可能性など、A/Bテストには固有の問題があります。
潜在的なサンプルサイズの問題に関する知識により、テストの目標を選択し、処理を作成し、実験を実行するときに、より適切な選択を行うことができます。
今、あなたはサンプル汚染を打ち負かすことができます
優れたテスト手法とは、何がうまくいかないかを完全に理解してプロジェクトを開始することを意味します。
サンプルサイズの汚染は、A/Bテストを実行するときに経験する負の副産物です。 あなたの仕事は、これらの悪影響を可能な限り減らして、テストを成功させることです。
テストが始まる前に軽減が行われることを忘れないでください。
複雑なテストをサポートするシンプルなプラットフォーム内で、テストのセグメント化、厄介なボットとの戦い、優れたランダム化手法の使用を可能にするConvertなどの堅牢なツールを使用してください。
実験戦略とソフトウェアの能力は、サンプルサイズの汚染を最小限に抑える方法に違いをもたらします。
テストでこの潜在的な死角がわかったので、それはあなたに忍び寄ることはできません。