オンライン制御実験におけるメタ分析: この科学的手法の力と限界についての公平な考察

公開: 2022-09-28

A/B テストやその他のオンライン実験において、メタ分析はどの程度役立ちますか?

過去の学習を活用して仮説生成を改善するのに役立ちますか? それとも、メタ分析は、経験を通じてビジネスを革新するために状況固有のデータに基づいて構築するのではなく、単に「実証済みのパターン」に頼る怠惰な言い訳に過ぎないのでしょうか?

これは熱い議論のトピックです。賛成する人もいれば、強く反対する人もいます。しかし、どうすれば両方の視点から利益を得て、実験プログラムに具体的な価値をもたらすことができるでしょうか?

それがこの投稿の目的です。その中で、あなたは

メタアナリシスとは何かを理解する
実際のメタ分析の例を見る
概念としてのメタ分析を慎重に (そして敬意を持って) 扱わなければならない理由を発見し、
実験チームが正しい方法でメタ分析を行う方法を学ぶ

さらに、おまけとして、コンバージョン率最適化の有名な専門家 2 人が反対側から議論しています。

それに入りましょう。

隠れる

メタアナリシスとは？
- オンライン制御実験におけるメタ分析の例
- 独自の A/B テストメタ分析の実施に興味がありますか?
メタ分析 – はいまたはいいえ
- メタ分析 — 注意して踏みますか?
  - テストの厳格さと革新の追求に妥協しない
- メタ分析 — 実験のフライホイールに油を注いでいますか?
メタ分析の実施 (および使用) を選択した場合 – 以下の点に注意してください
- 分析に含まれる実験の質の低さ
- 異質性
- 出版バイアス

メタアナリシスとは？

メタ分析は、統計を使用して、複数の実験結果を分析して決定を下します。科学の世界では、研究者が同じ問題に対処する医学研究の結果をまとめ、統計分析を使用して、効果が実際に存在するかどうか、およびその重要性を判断します。

意思決定のための A/B テスト、多変量テスト、分割テストを実施し、ビジネス目標を推進するための最高のパフォーマンスを発揮する方法を見つけるオンライン制御実験では、以前から既に学んだことを活用するためにメタ分析を借りてきました。将来のテストを通知するためのテスト。

実際のさまざまな例を見てみましょう。

オンライン制御実験におけるメタ分析の例

以下に、A/B テストにおけるメタ分析の 3 つの例、その使用方法、および各取り組みで見つかったものを示します。

Alex P. Miller と Kartik Hosanagar によるe コマース A/B テスト戦略の実証的メタ分析

この A/B テストメタ分析は 2020 年 3 月に公開されました。アナリストは、SaaS A/B テストプラットフォームから収集したデータを使用して、特に e コマース業界のテストを調査しました。これは、米国を拠点とする 252 の e コマース企業が 7 つの業界で 3 年間に実施した 2,732 件の A/B テストで構成されていました。

彼らは、これらのテストを分析して、e コマースのコンバージョンファネルのさまざまな段階でテストがどのように位置づけられているかについての確固たる分析を提供しました。

彼らが見つけたものは次のとおりです。

他の実験タイプと比較すると、価格プロモーションに関するテストとカテゴリページに配置されたテストは、最大の効果サイズに関連付けられています。
さまざまなプロモーションに対する消費者の反応は、それらのプロモーションが e コマースサイト内のどこに配置されているかによって異なるという証拠があります。
製品価格に関するプロモーションは、コンバージョンファネルの早い段階で最も効果的ですが、配送関連のプロモーションは、コンバージョンファネルの後半 (製品ページとチェックアウト) で最も効果的です。

別の例と、研究者が見つけたものを見てみましょう…

電子商取引で機能するもの — Will Browne と Mike Swarbrick Jones による 6,700 の実験のメタ分析

Browne と Jones は、主に小売業と旅行業の 6,700 件の大規模な e コマース実験からのデータを使用して、29 種類の変更の影響を調査し、収益に対する累積的な影響を推定しました。 2017年6月に発行されました。

論文のタイトルが示すように、目標は、大規模なメタ分析を実行して、電子商取引で何が機能するかを調査することでした。サイトの外観の変更が収益に与える影響は、行動心理学に基づく変更よりもはるかに無視できるということです。

この影響を測定するために、訪問者あたりの収益 (RPV) メトリックが使用されます。したがって、彼らの結果では、実験からの +10% 上昇は、その実験で RPV が 10% 上昇したことを意味します。

分析から得られたその他の調査結果は次のとおりです。

最高のパフォーマー（カテゴリー別）は次のとおりです。
- 希少性 (在庫ポインター、たとえば「残り 3 つだけ」): +2.9%
- 社会的証明 (ユーザーに他人の行動を知らせる): +2.3%
- 緊急性（カウントダウンタイマー）: +1.5%
- 離脱回復（ユーザーにサイトにとどまるようメッセージを送る）：+1.1%
- 製品の推奨 (アップセル、クロスセルなど): +0.4%
ただし、以下のような UI の表面的な変更は効果的ではありませんでした。
- 色（ウェブページ要素の色の変更）: +0.0%
- ボタン (ウェブサイトのボタンの変更): -0.2%
- 行動を促すフレーズ (テキストの変更): -0.3%
テストの 90% は、正または負の収益への影響が 1.2% 未満でした
A/B テストが収益の 2 桁の増加につながるという証拠はほとんどなく、ケーススタディで一般的に取り上げられています。

今待ってください。これらのメタ分析の結果を真実として受け入れる前に、オンライン実験のメタ分析には限界があることを知っておく必要があります。これについては後で説明します。

Georgi Georgievによる GoodUI.org の 115 の A/B テストのメタ分析

2018 年 6 月、オンライン実験の専門家であり、「Statistical Methods in Online A/B Testing」の著者である Georgi Georgiev は、GoodUI.org で公開されている 115 の A/B テストを分析しました。

GoodUI.org は、実験結果のコレクションを公開しています。これには、新たに発見された UI パターンや、Amazon、Netflix、Google などの実験主導の企業がテストから学んでいることなどがあります。

Georgi の目標は、このデータを照合および分析して、テストの平均的な結果を明らかにし、A/B テストのメタ分析を設計および実施する際のより良い統計手法に関するアイデアを提供することでした。

彼は最初のデータセットを整理し、いくつかの統計的調整を行うことから始めました。これらには、次の削除が含まれます。

コントロールを体験するために送信されたユーザー数とチャレンジャーを体験するために送信されたユーザー数の間の不均衡をテストします。
侵害されたテスト (非現実的に低い統計的検出力によって発見された)。

彼は残りの 85 個のテストを分析し、平均上昇率が 3.77%、上昇率の中央値が 3.92% であることを発見しました。以下の分布を見ると、テストの 58% (これが大多数) で、-3% から +10% の間で観測された効果 (上昇率) があったことがわかります。

GoodUI.org の 115 の A/B テストのメタ分析 by Georgi Georgiev Observed Percent Effect — ソース

これはこのデータセットを表すものであり、これまでに行われたすべての A/B テストではないことに注意してください。さらに、出版バイアス (後で説明するメタ分析の欠点の 1 つ) を考慮する必要があります。

ただし、このメタ分析は、コンバージョン率オプティマイザーやその他の最適化関係者が、A/B テストにおける外部ベンチマークが何であるかを把握するのに役立ちます。

独自の A/B テストメタ分析の実施に興味がありますか?

Georgi が使用したのと同じデータセットにアクセスできます。これは GoodUI.org で公開されています。これは、さまざまなプラットフォーム、業界、さまざまな主要な問題に対して実施された A/B テストから抽出された結果のリポジトリです。

このような A/B テスト結果のコレクションは他にもあります (多数の A/B テストの例やケーススタディからデータを取得して、独自のコレクションを作成することもできます) が、GoodUI はユニークです。ネットサーフィンをしてケーススタディを収集している場合は、他の方法では取得できない、または取得するのが難しい、テストに関する追加の統計情報を取得できます。

さらにいくつかの点で GoodUI はユニークです。

実験結果に基づく差別ではありません。これには、John Copas と Jian Qing Shi による「メタ分析、ファンネルプロット、感度分析」で述べられているように、実際の問題であるメタ分析における出版バイアスと戦うための、勝者、決定的でない、フラット、および否定的なテストが含まれます。

出版バイアスは、結果が否定的または決定的でない研究よりも「有意」である場合、小規模な研究を発表することを好みます。テスト不可能な仮定をしない限り、これを修正することはできません。

GoodUI はさらに一歩進んでいます。多くの場合、メタ分析の結果は研究論文に埋もれています。それらが実際に適用されることはめったになく、特に非常に成熟していない実験チームにとってはそうです。

GoodUI パターンを使用すると、好奇心旺盛なオプティマイザーは、観測された変化率、統計的有意性の計算、および信頼区間を掘り下げることができます。また、GoodUI の結果の強さの評価を使用することもできます。可能な値は、「重要でない」、「可能性がある」、「重要」、「強い」であり、コンバージョンパターンごとに両方向に進みます。 A/B テストのメタ分析からの洞察を「民主化」すると言えます。

ただし、ここで問題があります。メタアナリシスを悩ませている問題 (異質性と出版バイアス) に加えて、メタアナリシスの結果がメタアナリシス自体の品質に依存するという事実に気付いていない可能性のある実験者は、やみくもにパターンをコピーする領域に向かう可能性があります。

むしろ、独自の調査を行い、A/B テストを実行する必要があります。これを怠ると、最近 (当然のことながら) CRO 分野で懸念が生じています。

GoodUI のようないくつかのテストについて、同様の詳細を掘り下げることができるもう 1 つの A/B テストケーススタディリソースは、GuessTheTest です。

免責事項: このブログは、メタ分析とコンバージョンパターンのパンニングや称賛を目的として執筆しているわけではありません。 CRO分野の専門家によって議論されているように、私たちは単に長所と短所を提示しようとしています. アイデアは、メタ分析をツールとして提示し、自分の裁量で使用できるようにすることです。

メタ分析 – はいまたはいいえ

知的な心はパターンを探します。そうすることで、次に同じような問題に直面したときに、問題から解決策への道筋を短くすることができます。

これらのパターンにより、記録的な速さで答えが得られます。そのため、実験から学んだことを集めて、パターンを推測できると信じがちです。

しかし、それは実験チームにとって賢明なことでしょうか?

オンラインで制御された実験におけるメタ分析の賛否両論は何ですか? 両方の長所を活かす中間点を見つけることができますか?

私たちは、実験の領域で最も声高に発言する 2 人の声に、メタ分析に対する彼らの見解について (丁重に) 多様な視点で尋ねました。

ジョニー・ロングデンとヤクブ・リノフスキーは信頼できる声です。

ヤクブ・リノフスキー

ジョニー・ロングデン

メタ分析 — 注意して踏みますか?

上記の議論で、Jonny は、オンラインテストでメタ分析データを使用することに関する 2 つの潜在的な問題を指摘しました。

問題 #1: テストせずに結果を使用する
「あの会社でうまくいったのなら、私たちでもうまくいくはずです」。レビューしている結果のスニペットに到達しないテストに関するニュアンスがあるため、これは誤った考え方であることが判明する可能性があります。

いくつかのテストで簡単な解決策が示されるかもしれませんが、それは他の解決策よりもわずかにうまく機能する可能性にすぎず、あなたの Web サイトで機能するという決定的な答えではありません.

問題 #2: テストを簡単に分類できない
#1 で述べたように、これらの結果は、テストの背後にある完全で微妙なストーリーを示していません。なぜテストが実行されたのか、どこから来たのか、Web サイトに以前に存在した問題などはわかりません。

たとえば、製品ページの行動を促すフレーズのテストだったことがわかります。しかし、メタ分析データベースは、これらを特定のパターンに分類しますが、これらのパターンにきちんと分類されていません.

これは、A/B テストメタ分析データベースのユーザーであるあなた、または学習を抽出するために独自のメタ分析データベースを作成している CRO 研究者にとって何を意味するのでしょうか?

メタ分析が禁止されているわけではありませんが、使用する際には注意が必要です。どのような注意が必要ですか？

テストの厳格さと革新の追求に妥協しない

メタアナリシスは医学界からの統計的アイデアであり、調査結果の再現性を確保するために実験が厳しく管理されていることを思い出してください。

観測を取り巻く環境やその他の要因は、いくつかの実験で繰り返されますが、オンライン実験では同じではありません。オンライン実験のメタ分析は、これらの違いに関係なく、データをまとめます。

ある Web サイトは別の Web サイトとは根本的かつ完全に異なります。それは、非常に異なる聴衆がいて、非常に異なることが起こっているからです。 比較的似ているように見えても、同じ製品であっても、何百万もの方法で完全に完全に異なるため、制御することはできません.
ジョニー・ロングデン

他の制限の中でも、これは真のメタ分析と呼ぶことが許されているものの質に影響を与えます。

そのため、テストとテストのメタ分析に使用された統計的活力のレベルが保証されていない場合は、Shiva Manjunath がアドバイスするように、細心の注意を払ってのみ使用できます。

メタアナリシスの目的は、競合他社をコピーすることではありません。メタ分析の活用から真正面からのコピーへのジャンプは、信頼性の境界を押し広げます。「コピー」の意図にはニュアンスがありますので、一概には言えません。

上記のデボラの投稿に対するコメントはさまざまでした。ある程度真似するのはいいが、やりすぎると危険

Jakub が同意するように、特に実験で観察したパターンを検証する場合は、コピーに注意する必要があります。

ただし、警戒すべきは実験のコモディティ化です。つまり、メタアナリシスからのパターンと洞察をベストプラクティスとして使用して、状況固有のデータが何を言っているかを補完するのではなく、実験の研究に取って代わります。

したがって、解決したい問題を理解することから始め、成功する可能性が最も高い介入の種類を特定します。これは、従来の実験データのメタ分析が独自の最適化戦略を最もよくサポートする場所です。

メタ分析 — 実験のフライホイールに油を注いでいますか?

実験用フライホイールには、勢いを再利用する方法があります。初めて実験するときは、物事を動かすために多くの慣性が必要です。

実験フライホイールのアイデアは、その勢いを利用して、より多くのテストを実行し、さらに改善して、より多くのテストを実行することです。

そこでメタアナリシスが役に立ちます。フライホイールで：

テストを実行して、うまくいけば仮説を検証します (そして、その過程でいくつかを却下するかもしれません)。
彼らが意思決定に加えた価値を測定します。
A/B テストへの関心と賛同を促進します。
A/B テストインフラストラクチャに投資し、データの品質を向上させます。
A/B テストの人的コストを削減して、前のラウンドよりも少ない労力で次のステップを開始できるようにします。

しかし、データ駆動型の組織として、A/B テストの威力を認識しているので、それだけにとどまりません。代わりに、最初の実験への投資を基に、より多くの仮説を検証または却下する必要があります。

最初の洞察や知識がなければ、フライホイールを動かす慣性が大きすぎます。この知識を共有する (A/B テストデータを民主化する) ことで、知識の障壁を下げることで、他の人が実験的なアプローチを取ることができるようになります。

これにより、メタ分析が実験のはずみ車にどのように油を注ぐかのポイント 1 に到達します。

メタ分析は、アイデアの仮説を立てる時間を短縮するかもしれません。
以前のテストから学んだこと、洞察などすべてを利用して、新しい仮説を簡単に生成できます。これにより、実行するテストの数が増え、A/B テストのフライホイールを高速化する優れた方法になります。

すでに確立されたパターンをやり直す時間を減らし、以前の実験で学んだことに基づいて新しい道を切り開くことに多くの時間を費やします。

メタ分析は、過去のデータを使用して予測率を向上させることができます。
過去の実験主導の学習が実験のフライホイールをより速く回転させるもう1つの方法は、現在のデータと組み合わせて新しい仮説を知らせる場合です。

これにより、A/B テストで観察された影響が将来に波及する方法が改善される可能性があります。

A/B テストを展開しても、希望する結果が得られる保証はありません。これは、有意性が 95% のテストの誤検出率 (FDR) が 18% から 25% の間であるためです。そして、この結論に至った調査済みテストの 70% だけが十分な検出力を持っていました。

誤検出率は、有意な A/B テスト結果のうち、実際には効果がゼロである割合です。偽陽性またはタイプ I エラーと間違わないでください。

最後に、メタアナリシスは、本質的に決定的ではないテスト結果に対する信頼を構築する方法かもしれません。
信頼レベルは、テスト結果がまったくの偶然によるものではないことを信頼するのに役立ちます。それが十分でない場合は、そのテストに「決定的ではない」というタグを付ける傾向があるかもしれませんが、それほど急いではいけません.

なんで？統計的には、有意でない p 値を累積して有意な結果を得ることができます。以下の投稿を参照してください。

メタ分析には 2 つの主な利点があります。1) 効果推定の精度が向上し、2) 調査結果の一般化可能性が向上します。
出典:良い面、悪い面、醜い面: Madelon van Wely によるメタ分析
メタ分析が効果の大きさと有意水準の両方を調整および修正することを考えると、次のような他の実験を使用するのと同じ方法で、そのようなより高い標準結果を使用できます。
1) 独自の実験の検出力計算/サンプルサイズ推定を行うため (主観的な推測ではなく実際のデータを使用)
2) エクスプロイト実験の決定を行う。 追加の自信が必要であると感じた場合は、独自の追加の実験を実行することを決定する場合があります。 誰かがメタ分析からの証拠が十分に強力であると判断した場合、追加の実験を実行せずに、より早く行動を起こすことができます.
ヤクブ・リノフスキー

メタ分析が実験プログラムの勢いを増すのに役立つ方法はすべてありますが、いくつかのよく知られた制限があることに留意することが重要です。

メタ分析の実施 (および使用) を選択した場合 – 以下の点に注意してください

はい、メタ分析手法を介して実験の結果を組み合わせることで、統計精度を向上させることができますが、初期データセットの根本的な問題を取り除くことはできません。

分析に含まれる実験の質の低さ

メタ分析に含まれる実験の設定が不十分で、統計エラーが含まれている場合、メタ分析者がどれほど正確であっても、無効な結果が得られます。

A/B テストでサンプルサイズの不均等な割り当てがあったか、検出力またはサンプルサイズが不十分であったか、ピークの証拠があった可能性があります。いずれにせよ、これらの結果には欠陥があります。

この制限を回避するためにできることは、テスト結果を慎重に選択することです。データセットから疑わしい結果を排除します。含めることを選択したテストの統計的有意性と信頼区間を再計算し、メタ分析で新しい値を使用することもできます。

異質性

これは、そもそも同じバケットに入れるべきではないテスト結果を組み合わせています。たとえば、テストの実施に使用される方法論が異なる場合 (ベイジアンとフリークエンティストの統計分析、A/B テストのプラットフォーム固有の違いなど)。

これはメタアナリシスの一般的な制限であり、アナリストは、故意または無意識のうちに、研究間の重要な違いを無視します。

生の定量データを見て、不均一性に対処できます。テスト結果の要約だけを組み合わせるよりも優れています。これは、データにアクセスできると仮定して、各 A/B テストの結果を再計算することを意味します。

出版バイアス

これは「ファイルドロワー問題」とも呼ばれ、メタ分析で最も悪名高い問題です。公開されているデータに対してメタ分析を実施する場合、公開に至った結果をプールすることに限定されます。

間に合わなかった人はどうする？出版物は、通常、統計的に有意で、有意な治療効果がある結果を優先します。このデータがメタ分析で表されていない場合、結果は公開されたもののみを示します。

ファンネルプロットと対応する統計を使用して、出版バイアスを見つけることができます。

では、ケーススタディや A/B テストメタ分析データベースに登録されなかった A/B テストをどこで見つけたらよいのでしょうか? A/B テストプラットフォームは、結果に関係なくテストに関するデータを提供するのに最適な位置にあります。それが、この記事の例 1 と 2 の幸運なところです。