A/B テストのメトリクスを (完全に) 理解するための専門用語なしのステップ バイ ステップ ガイド

公開: 2022-08-02
A:B テストのメトリクスを (完全に) 理解するための専門用語なしのステップ バイ ステップ ガイド

優れたコンテンツは個人によって作成されたものではありません。 このガイドを可能にした専門家に「こんにちは」と言ってください。 80 年以上の実験と A/B テストの経験分読んだ。

アレックス・バーケット
アレックス・バーケット
ベン・ラベイ
ベン・ラベイ
カーティス・スタニエ
カーティス・スタニエ
デボラ・オマリー
デボラ・オマリー
エリック・ベルンハルトソン
エリック・ベルンハルトソン
ジャスティン・クリスチャンソン
ジャスティン・クリスチャンソン
マックス・ブラッドリー
マックス・ブラッドリー
スマンサ・シャンカラナラヤナ
スマンサ・シャンカラナラヤナ
ティム・メータ
ティム・メータ

A/B テストのメトリクスを理解しようとすることは、複雑すぎる定義、専門用語、終わりのない専門家の「意見」のうさぎの穴を掘り下げるようなものです。

オンラインで何か価値のあるものを見つけようとして、何度も憤慨したため息をついたとしても、私たちはあなたを責めません.

「A/B テスト指標の理解」というフレーズの Google 検索

実験を実行したいと確信していても、知っている人は門番の情報であると感じるかもしれません。

しかし、私たちはそれを変える決心をしています。 実験はすべての人のためのものであり、これが終わるまでに、あなたもそれを信じるでしょう.

隠れる
  • 実験を始めることについての厳しい真実
    • A/B テスト指標を表示するさまざまな方法
    • インサイト ファースト戦略への切り替えのケース (適切なメトリクスを使用)
    • インプット、アウトプット、結果の指標: Ben Labay と Alex Birkett による実験プログラムの解体
      • ベンのフレームワーク
      • アレックスの頼りになるフレームワーク
    • 目標、ドライバー、およびガードレール: 範囲別の指標
      • 目標または北極星指標
      • ドライバーの指標
      • ガードレール メトリック
    • メトリクスの哲学的解釈: 5 つの W
  • ドライバー ツリーで違いを生むメトリックの選択
    • 次の 3 つの手順に従って、実験プログラムを開始してください
  • メンタル モデル: プロが実世界の実験で測定基準を選択する方法
    • ベン・ラベイとゴール・マッピング
    • Deborah O'Malley が CTR の向上に貢献した方法
    • Justin Christianson がセカンダリ データ ポイントを追加する理由
  • CXO: 学習の頂点 最初の実験?

実験を始めることについての厳しい真実

さまざまなレンズを通してメトリクスがどのように表示されるかについて詳しく説明しますが、まず、明確にする必要があります。

「A/B テストに損失はありません。学ぶだけです。」という言葉を聞いたことがあるでしょう。

これは部分的に真実です。

決定的でない (フラットな) テストや損失でさえ、ターゲット ユーザーにとって何がうまくいかないかを明確に把握するのに役立ちます。 ただし、実験プログラムを構築していて、まだ経営幹部の同意を得ていない場合は、難しい問題を乗り切る覚悟をしてください。 財布のひもを持っている人は、十分な教育を受けずに「学習」について難解な議論をすることに特に満足しないことを理解してください.

彼らの承認を得るには、まず迅速かつ具体的な勝利を示す必要があります。 マネージャーが経営陣に報告できる A/B テストの結果。主にアカデミックな科学的実験方法が実際にビジネスを前進させるのと同じくらい実用的なものを推進できるという事実にある程度の信頼を示すことができます。

そして、それを行う最も簡単な方法は?

最も簡単に達成できる成果を追求する: 取引や購入にある程度影響を与えるユーザー エクスペリエンスでコンバージョン率を向上させます。 たとえば、発注数が 1,000 単位増加した場合 (テスト結果で示されます)、ドルと利益に変換するのは簡単です。

その報告書を取締役会に持ち込むと、部屋は興奮で賑やかになります。これは、CRO とも呼ばれる別の「買収チャネル」を発見したことによるものです。

しかし、約束された急増を目にすることなく、四半期が過ぎ去っていきます。 ビジネスの未来としてあなたを歓迎した幹部は、非常に失望するでしょう. 予算削減が続きます。 そして、上層部の誰か (*咳* 手に負えない HiPPO *咳*) は、時の試練に耐えてきた広告やイベントなどの従来のチャネルに実験が勝てないことについて、大げさなことを吐き出すでしょう。

[HiPPO = 意見のある最高賃金者]

何が起こったのか分かりますか? トンネル ビジョンを活性化することで、実験をただの CRO に格下げしました。CRO は、テーブルに残された資金を回収するための (ほとんど) 新たな買収チャネルと見なされています。 それと一緒に? それに付随する傾向があるすべての大きな主張、詐欺、および落とし穴。

ブックマーク: A/B テスト: ブックマークしておきたい完全ガイド

A/B テスト指標を表示するさまざまな方法

実験は機械です。 しかし、ほとんどの人は、それがどのように機能するかを理解していません。

彼らは、入力はビジネス上の問題であり、出力は統計的に有意で有効なビジネス ソリューションであると考えています。 そして、これは理想的な全体像かもしれません。

ビジネス上の問題がインプットであり、解決策がアウトプットである ab テストの仮定を示すグラフ

ズームインすると、実験マシンは科学的プロセスで行われた学習と努力を入力として受け取り、プログラムの指標を出力として生成します。

しかし、ここには大きな IF があります。出力が最終的に予想された望ましい結果を生み出すためには、実験プログラムの品質が最も重要です。

TL;DR:インプット (収集されたデータ、教育、認定、データ リテラシー、およびプロセス) が優れているほど、アウトプット (実験速度、成功率、実験ごとの平均成功率) が高くなり、目標を達成する可能性が高くなります。 (s) 実験プログラムを調整しました。

実験の質にこだわる場合にのみ、すべての企業が解決したい大きな成長と効率性の問題に大きな変化をもたらすような結果が得られる可能性が高くなります。

そこに到達する方法は、結果を台座に乗せないメトリクス戦略を持つことです。

代わりに、チームがインプットとアウトプットを測定および追跡し (インプットはオプティマイザーが直接制御する唯一の要因です)、それらを進行状況のゲージとして使用するのに役立ちます。 結果への道のりは短距離走ではなく、優れた実験の副産物としてバックグラウンドで実行されるマラソンです。

誤解しないでください。 これは言うは易く行うは難しです。

多くの場合、実験により、特定の変更を行うべきではないことが示されます。 特定の機能は出荷しないでください。 そして、実験自体は意図的なものです... 出荷の最初の戦略から洞察と学習の最初の戦略に焦点を移します (適切な指標によってサポートされます)。

実験をためらうのは、経営幹部の間で信じられないほど一般的です。 ほとんどの創業者は何年にもわたって実験をせずに会社を築いてきましたが、実験は会社のスピード、製品マーケティング、ムーンショット イノベーションの邪魔になる保守的な力のように感じるかもしれません。

Modal Labs の創設者、Erik Bernhardsson 氏

インサイト ファースト戦略への切り替えのケース (適切なメトリクスを使用)

実際の進歩を遂げるには、配送戦略を追跡することからメトリック戦略に切り替える必要があります。 これにより、製品戦略が分散化されます。つまり、アイデアが理想的な底に押し下げられます。 そして、メトリクス戦略を採用することは、本質的に実験を意味します。 新製品の変更がビジネスにどのように影響するかをテストすることをためらうことはできません。

よく読んでください: 2022 年の多変量テストの完全ガイド

実験プログラムの「理由」は、メトリクス戦略に組み込まれています。

  • あなたのすべての努力は、迅速な勝利と収益に集中していますか?
  • 実験は、顧客を理解し、ライフサイクル全体で価値を提供する方法ですか?
  • それとも、実験自体が目標であり、より良いテストを行うほど信頼性の高い洞察が得られ、既存のエクスペリエンスに悪影響を与えることなく、この車輪を動かし続けることがあなたの責任となりますか?

これについては、Speero の Ben Labay と後で詳しく説明します。

実験ごとに、メトリクスは (本当の) 焦点を固めます。 ビジネスの DNA に実験を組み込んでイノベーションを加速することについて 10 ページのマニフェストを作成することはできますが、主な目的が常にコンバージョンを目的としている場合、テスト プログラムは本質的に CRO プログラムになります。 これはあなたが達成したいことかもしれませんが、A/B テストを獲得/収益のミニオンと考えるなど、将来的に現れる制約に注意してください。率直に言って、そうではありません。

さまざまなクラスのメトリクスを使用すると、経営幹部にとって重要な指標を追跡できます。また、より高品質のテスト、因果関係の洞察のためにプログラムを最適化し、さまざまな反復を行ってマシンの内部動作を改善し、アウトプットが結果を促進し始めることができます。長い目で見れば。

Tim Mehta とのこのビデオは、学習だけを中心に展開する実験の物語が実際的なスタンスではない理由を率直にのぞき見しています。

エンゲージメントの面でこれらすべての学習を得ることは本当にクールだと思いますが、ビジネス オーナーがプログラムのリソースを構築し続け、そのための予算を獲得し続けることを知ることができるようにするには、基本的に、少なくともビジネスの観点から、プログラムがもたらす実験的なドルの価値を示すことができます。

したがって、多くの実験では、一般的な科学的方法の周りで、あなたがやろうとしているすべてのことを学ぶことだけだと思います.これは、仮説が証明されているほど多くの勝敗ではないことを知っています。一方、私たちがうまくやっている場合、私たちのほとんどはマーケティング側にいるため、当然、継続できるようにするために何らかの種類の勝利または収益の価値を伝えることができる必要があります.

Tim Mehta 氏、Lucid Software のグロース マーケティング担当ディレクター

より実用的なレベルでは、メトリクスは学習を保持します。 フラットテストを連続して実行していますか? これは、データの収集方法 (機器に焦点を当てた問題) または実験の設計方法に問題がある可能性があります。 メトリクスは、干し草の山から針を見つけて、より良い結果を出すのに役立ちます。

TL&DR; メトリクスは、テスト担当者が実験のさまざまな側面を把握し、利害関係者が理解、評価、評価する言語でその影響を関係者に配布するのに役立ちます。 メトリクス戦略は、「目標」や、勝利の変動と損失が評価される地面への賭け金をはるかに超えています。

メトリクスを通じて、実験プログラムは生き、成熟し、進化し、成功 (または失敗) します。

インプット、アウトプット、結果の指標: Ben Labay と Alex Birkett による実験プログラムの解体

プライマリ、セカンダリ、およびガードレール メトリックに関する多くの定義があります。 しかし、実験プログラムを実行したことのある人なら誰でも、さまざまなレベルの目標を定義するためのフレームワークが必要であることを知っています。

そこで、Speero のマネージング ディレクターである Ben Labay と、Omniscient の共同創設者である Alex Birkett に次の質問をしました。

測定された変数を多層実験の影響にマッピングするための、頼りになる指標フレームワークは何ですか?

ベンのフレームワーク

1.プログラム指標のカテゴリー

Ben Labay Speero 実験プログラム 測定の進化

この「段階ごと」は軽視されるべきです。 これらすべてを常に監視したいのですが、FOCUS はプログラムの段階によって少し異なります。

2. 最上位のメトリック分類法から始めます。これが私のものです。

メトリクス分類チャート ゴール メトリクス ドライバ メトリクス ガードレール メトリクス by Ben Labay Speero

次に、それぞれについて、

3. 目標指標の例:

目標指標チャート Ben Labay Speero by CXL

それで

4. ドライバー指標の例

ドライバー メトリクス チャート Ben Labay Speero by CXL

それで

5. ガードレール指標をプログラムする

ガードレール メトリック チャート Ben Labay Speero by CXL

そう…。 次に、メトリック戦略の材料を用意します。

メトリクス戦略チャート Ben Labay Speero by CXL

注:初期段階の実験では入力指標に焦点を当てる必要がありますが、適切な教育、人員、およびプロセスがなければ実現しない結果を生み出すというプレッシャーに対処する必要があります。

自己破産のサイクルです。 また、特に「収益」を予測している場合は、成果指標をすぐに称賛すべきではありません。

これを理解する最善の方法は、Airbnb がどのようにメトリック戦略に移行したかを確認することです。

「ゲストはまずホストが Airbnb に滞在する許可を求める必要があり、ホストは予約リクエストが気に入るかどうかを判断する必要がありました。 これは多くの摩擦を生み出し、ゲストにとってひどい経験であり、不適切な偏見がプロセスに入るドアを開きました.

製品の出荷戦略では、出荷する機能が多数指定されていたでしょう。 しかし、Airbnb はメトリック戦略を備えた強力なチームを立ち上げました。Airbnb を 100% 即席予約に到達させることです。

その結果、市場を累積的に変化させる実験的な戦略が生まれました。 製品の変更は、検索ランキング、ホストのオンボーディング、コア ホスト機能 (例: ゲスト コントロール、ハウス ルール、リード タイム設定など) にまたがり、ゲストが即座に家を予約する世界でホストが成功できるようにしました。

エリック・ベルンハルトソン

アレックスの頼りになるフレームワーク

実験指標をマッピングするための私の頼りになるフレームワークは、入力指標と出力指標という単純なものです

利害関係者はアウトプット指標を気にします。 これらは ROI の計算に使用され、プログラムの価値を証明します。たとえば、ウェブサイトのコンバージョン率、ファネルのコンバージョン率、質の高いリードなどです。

個人的には、これらはプログラム レベルでは過大評価されており、実験レベルでは過小評価されていると思います。 つまり、ウェブページのコンバージョン率を四半期ごとに追跡している場合、その期間に発生したのは実験だけではないということです。 資金調達、マクロ経済の動向、買収チャネルの変化など、これらすべてが大きな交絡要因になる可能性があります。 これらのいくつかは、ホールドバック セットを用意するか、デジタル エクスペリエンスのベースライン バージョンを再テストすることで回避できます。

実験ごとに過小評価されているのは、実験の中核となる KPI を考えずに、さまざまな目標を含めて自分の物語に合ったものを選んでしまう傾向があるためです。 実験を定義するための総合的な目標、つまり全体的な評価基準を考え出すのは非常に困難です。 入力メトリクスは、私たちのプログラムを評価するためのより良い方法です。 私が主に見ているのは以下の3つです。
a) 実験速度
b) テストの勝率と
c) 実験あたりの平均勝利。

これらのいずれかで針を動かすと、出力メトリックで針を動かす可能性があります

目標、ドライバー、およびガードレール: 範囲別の指標

メトリクス分類表 Speero by CXL

ベン・ラベイは、自動車にたとえてこれらの指標を説明しています。

その要点は、目標メトリックなどの長期的なメトリックを取得していることです。これは、GPS またはナビゲーション システム、つまり北極星メトリック (NSM) です。

これは、スピードメーターとも呼ばれる短期的な指標であるドライバーの指標とは対照的です。 たとえば、平均注文額 (AOV) のコンバージョン率の最適化。

これを、タコメーターやヒート ゲージなどのアラートおよびアライメント メトリックとさらに対照的にします。 これらはガードレールの指標です。

PS Ben によるこのビデオを見て、これらのカテゴリをよりよく理解してください。

目標または北極星指標

ベンによって定義されたノース スター メトリックまたは遅延または広範なスコープ メトリックは、本質的に戦術よりも戦略的です。

たとえば、Netflix の A/B テストは、エンゲージメントを向上させるために構築されたものではなく、リテンションを高めるように設計されています。 顧客を維持しているということは、サブスクライバーが製品に関与し、その製品に価値を見いだしていることを意味します。 したがって、リテンションは、3 つ以上のコンテンツを支払ったり視聴したりするユーザーの割合など、いくつかの戦術的指標をカプセル化したものです。

次を読む: A/B テストで目標を使用するための究極のガイド (および Aces の目標を変換する方法)

ドライバーの指標

これらの先行指標は、短期的に注目するもの、つまり直帰率やコンバージョン率です。 結果を評価するには、1 つのメトリクスだけでは不十分な場合があります。 ここで、総合評価基準または OECの出番です。

応答変数、従属変数、結果変数、またはパフォーマンス メトリックとも呼ばれる OEC は、基本的に、重み付けの異なる KPI を 1 つのプライマリ KPI として組み合わせたものです。

単一の指標により、複数の実験に対して 1 回のトレードオフが強制され、明確な目標の背後にある組織が調整されます。 優れた OEC は、短期的なもの (クリック数など) に焦点を当てたものであってはなりません。 それどころか、予測される生涯価値やリピート訪問など、長期的な目標を予測する要因を含める必要があります。

ロニー・コハビ

ガードレール メトリック

ロニー・コハビによれば、

ガードレール メトリックは、違反した仮定について実験者に警告するように設計された重要なメトリックです。 ガードレール メトリクスは、Spitzer (2007) が「情報に基づいた行動を促す能力」と呼ぶものを提供します。 治療効果が予期せずガードレール メトリックを動かした場合、結果に対する信頼を減らしたり、ユーザーや組織に害が及ぶ可能性がある場合に実験を停止したりすることができます。

ガードレール メトリックには、信頼関連のガードレール メトリックと組織のガードレール メトリックの 2 種類があります。 すべての実験に必要な最も重要なガードレール指標であると私たちが考えるものから始めます。それは、サンプル率であり、その後、他のガードレール指標と組織のガードレール指標でフォローアップします。

サンプル比率 = 対照実験では、サンプル比率は、異なるテスト グループ (コントロールとバリアント) 間のサンプル サイズの割り当ての比率に等しくなります。

メトリクスの哲学的解釈: 5 つの W

EndlessROI の創設者であるスマンサ シャンカラナラヤナは、指標の見方を変えています。

メトリクスの価値は、ユーザーの行動を予測する能力にあります。 指標を解釈する際の目標は、「いくつ?」と尋ねることではありません。 ではなく、「なぜそうなのか」と尋ねることです。 メトリクスは、ユーザーの心に残された痕跡です。

哲学的に、指標は 4 つの重要なカテゴリに分類できます。

グループ 1 – 金額 (場所と時間)

  • ページ ビュー (一意および一意ではない)
  • ウェブサイトの訪問者 (新規およびリピーター)
  • 訪問
  • 総収入
  • 生涯価値
  • 実験コホートの累積カート収益

グループ 2 – 自然 (理由)

  • イベント追跡
  • ブラウザ/プラットフォーム
  • ページ滞在時間
  • 取引明細
  • ページ読み込みエラー
  • 画面の解像度
  • 終了ページ

グループ 3 – ソース (ザ・フー)

  • リファラー
  • 検索ワード
  • 国/言語
  • 組織
  • 上位のランディング ページ
  • 前のページ

グループ 4 – 結果 (何を)

  • サインアップ
  • ページビュー数
  • 注文
  • クリック数
  • 試練
  • 次のページ
  • ユーザー維持率

データをベンチマークし、仮説がどのように機能するかを確認し始める間、次のようなすべての妥当性の脅威を考慮する必要があります。

  • 過去の影響(メディア イベント、競合他社のマーケティング活動、社内のマーケティング活動、季節の変化、経済の変化)、
  • インストルメンテーション効果(ダブル コントロールを使用したテスト セットアップ)、
  • 選択効果(コントロールとバリアントの異なる信頼と信頼区間)、および
  • サンプリング歪み効果(分散が大きく、統計的確実性がない)。

    上記のカテゴリに基づいて、メトリックの 1 つがプライマリ メトリック、たとえば注文 (コンバージョン率) になる可能性があります。

見積もりは以下に基づいている必要があります。

  1. 成功率– 最近のコンバージョン率の傾向
  2. 受信したサンプル– 最近のトラフィック レベルと計画された処理数
  3. コントロールとバリアント間のプライマリ メトリックの大きさの違いの量と、それがビジネス目標にどのように影響するか。

それにもかかわらず、セカンダリ メトリックからデータを収集すると、テスト結果の解釈に役立ちます。

解釈は以下に基づく場合があります。

  1. テストの ROI
  2. 収集される重要な洞察は、通常、次のような質問に答えます。

    • このテストは私の顧客について何を示していますか?
    • 顧客の動機は何ですか?
    • 彼らは特定の要素にどのように反応しますか?
    • 顧客は何を評価しますか?
    • 何が彼らを最も不安にさせているのでしょうか?
    • なぜ彼らは特定の時点で落ちているのですか?
    • 彼らは会話のどこにいますか?
  3. 後続のテスト: この学習は、他にどのような場合に役立ちますか?

重要な点として、コンバージョン プロセスの早い段階で要素をテストすると、より多くのトラフィックが得られます。また、コンバージョン プロセスの後半で要素をテストすると、収益への影響が大きくなる可能性があります。 したがって、ファネルの段階に基づいて、私たちのメトリクスは、達成するために設定された目標も反映する必要があります.

次を読む: A/B テスト結果から学び、改善するための 7 つの重要なステップ

メトリクスに関するもう 1 つの見解は、Google のデジタル マーケティング エバンジェリストである Avinash Kaushik 氏によるものです。

彼のニュースレター The Marketing <> Analytics Intersect の最近の号で、彼は、いいねやフォロワーなどの虚栄心の指標や、ページビューや「エンゲージメント」などの偽りの神々を無視することを推奨しています。

代わりに、ニュースレターのサインアップやタスクの完了率などのミクロの結果、コンバージョン収益や収益などのデジタルのマクロの結果、利益やライフタイム バリューなどの収益に影響を与える指標に注目してください。

Conversion Advocates の Simon Girardin 氏は、指標に関するさらに別の見解を示しています。

メトリックを操作すると、メトリックが相互にどのように関連しているかがわかります。 ほとんどのドライバー メトリクスは結果メトリクスです。 多くの場合、ガードレールは出力メトリックに関連付けられています。 テストのメトリクスを選択する基本事項に取り掛かる際に、ドライバーを 5W で実行することをお勧めします。 基本を理解することで、自分の解釈で創造的になることができます。

ドライバー ツリーで違いを生むメトリックの選択

堅実なメトリクス戦略を作成するには、ドライバー ツリーとは何かを理解する必要があります。

ドライバー ツリーは、組織内のさまざまなメトリックとレバーがどのように適合するかを示すマップです。 左端には、推進したい包括的な指標があります。 これは、すべてのチームが取り組むべき最終的な目標です。

ドライバー ツリーは、組織内のさまざまな指標と手段がどのように組み合わされるかを示すマップです。
ソース

右に行くほど、その目標をどのように達成したいかという点でより細かくなります。 各ブランチは、その上の「何」を構成するコンポーネント パーツのインジケーターを提供します。

Delivery Hero の製品担当ディレクター、Curtis Stanier 氏

ドライバ ツリーをメトリクスと組み合わせると、潜在的な機会領域を特定し、ソリューションに導くことができます。

Curtis はこれを例を挙げて説明します。 たとえば、あなたの目標がメールのサインアップ数を増やすことだとします。 あなたが送信した確認メールのリンクを正常にクリックした顧客が半分だけだったとします。 ここには 2 つのシナリオが考えられます。顧客がメールを受信して​​いないか、クリックしていないかのいずれかです。 これらのドライバーには、さまざまな影響要因があります。

プロセス フローをドライバー ツリーにマッピングすると、根本原因を突き止めることができます。 おそらく、使用している電子メール プロバイダーのエラー率は 10% で、これは電子メールが送信されなかったことを意味します。 この特定の問題は、チームが修正する機会になります。

Curtis Stanier Delivery Hero によるメトリック ドライバー ツリーの例
ソース

これは、Hopin の製品分析責任者である Bhavik Patel の厚意による具体的な例で、テストの速度 (つまり、ドライバーとガードレールのメトリックに対して実行されるテストの数) などの目標をどのようにマッピングできるかを示しています。

Bhavik Patel Hopin によるメトリック ドライバー ツリー
ソース

次の 3 つの手順に従って、実験プログラムを開始してください

1.実験プログラムの目標を選択する

幹部が無関心な北極星の指標を追わないように、経営幹部とも呼ばれる HiPPO を関与させます。そうしなければ、実験プログラムが日の目を見ることはありません。 大きな問題には革新的な解決策が必要であることを理解している人々に輪をかけてください。

経験則として、Ben Labay は、実験プログラムの遅れている長期的な目標は、収益、顧客、または実験プロセスの 3 つのいずれかであると述べています。

Ben Labay Speeroによる目標指標の収益、顧客、または実験プロセス

たとえば、Booking.com では実験の質を北極星の指標として採用しています。 理由は次のとおりです。

私たちにとって本当に重要なことは、製品に関する意思決定がいくつ行われたか、意思決定がどれだけ迅速に行われたかではなく、それらの意思決定がどれだけ優れているかです。

製品開発と意思決定の一環として実験を使用することは、今日では一般的な方法ですが、それ自体では、適切な意思決定が行われることを保証するものではありません。 実験を正しく実行することは困難な場合があり、実験から得られたデータの信頼性は、実験自体の実行と同じくらいです。 悪い実験を実行することは、信頼できない決定を下すための非常に高価で複雑な方法です.

Christophe Perrin、Booking.com グループ プロダクト マネージャー

次を読む: A/B テストで目標を使用するための究極のガイド (および Aces の目標を変換する方法)

2. 許容可能なガードレール メトリックのログを確立する

Tim Mehta は、テストの完全性が良好であるか、標準を満たしている場合にのみ、テスト速度をガードレール メトリックとして使用することを推奨しています。 品質テストを実行していない場合、選択したメトリックはすべて虚栄心のメトリックになります。

Tim と同様に、Ben Labay も、ガードレール メトリックのワーキング セットとして、これらの他のメトリックと共にテスト速度を設定することを提案しています。

Ben Labay Speero による実験的ガードレール メトリクス
ソース

3.ケースバイケースでドライバー指標を選択する

すべての指標が優れた指標であるとは限りません。 何千もの A/B テストを実行した後、Microsoft は優れた A/B メトリックの 6 つの重要な特性を特定しました。

  1. 感度
  2. 信頼性
  3. 効率
  4. デバッグ可能性
  5. 解釈可能性と実行可能性
  6. 包括性と公平性

STEDII を使用して、変更を追跡および測定するメトリックを絞り込むことができます。

適切な指標を作成するための Microsoft の STEDII チェックリスト
ソース

Zendesk のシニア Web 最適化マネージャーである Max Bradley 氏は、ドライバ メトリックについて柔軟に対応する必要があると考えています。

サブドメイン作成フィールド (以下に表示) は、訪問者にとってトライアルのサインアップ フローで群を抜いて最も難しいフォーム フィールドであることに気付きました。 このフィールドでのドロップオフ率は、他のどのフィールドよりもかなり高かった.

サブドメイン作成フィールド

重要なことは、そもそもフォームのパフォーマンスを詳細に調べることができる追跡機能があったことです。 始めたばかりの場合、このレベルの追跡は短期間で達成できる可能性は低いですが、時間が経つにつれて追跡を「雑草に入れる」ことをお勧めします.

問題が特定されると、さまざまな手順を実行して、テストするアプローチを決定しました。 サブドメインが関与している場合に他の企業が何をしたかを調べましたが、ここで競合他社を超えて検討することをお勧めします. ユーザーはサブドメインの作成に気を配る必要はないと考えました。これにより、ユーザーが一時停止して考えるための別の領域が導入され、認知負荷が増加します。 すでに提供されている会社名からサブドメインを作成し、サブドメイン フィールドをユーザーから非表示にすることができます。

当然のことながら、この変更により、試用版へのサインアップに成功したユーザーの数が増えると予想していました。前述の追跡により、予想される増加を見積もることができました。

ただし、この時点では、これがビジネスに与える全体的な影響はわかりませんでした。 試用版のコンバージョンが増えると予想していましたが、これは目標到達プロセスのすべての段階で Win につながるのでしょうか?

さらに、サブドメイン フィールドを非表示にし、ユーザーのサブドメインを自動生成することで、この問題をビジネスの別の領域に単純に転嫁しないようにしたいと考えました。 これには、顧客擁護と顧客サポートが最初から関与することが含まれていました。

この実験の影響を判断する上で重要と思われる主な領域は次のとおりです。

  • フォーム訪問者のトライアル登録率
  • リード、MQL、機会、勝利
  • ユーザーがサインアップ後に製品のサブドメイン名に加えた変更
  • サブドメイン名の変更について、カスタマー アドボカシーが受け取ったチケットの数。」

選択した目標とドライバーに一貫してアプローチする方法に基づいて、実験のペルソナとプログラムの軌道はいくつかの異なる方法で進むことができます。 Ben Labay のこのチャートを見てください。

Ben Labay Speero のメトリック戦略

メンタル モデル: プロが実世界の実験で測定基準を選択する方法

私たちは専門家に、問題を認識し、仮説を立て、成功を測定し、学習を統合するためのメトリクスを選択した例を紹介するよう依頼しました。

彼らが言ったことは次のとおりです。

ベン・ラベイとゴール・マッピング

ビジネスの方向性とその理由を明確にします。

ビジネスの成長戦略とは? より多くのユーザーを獲得することで、来年は 20% 成長しますか? 彼らは新製品や既存のユーザーベースの収益化に注力するつもりですか? この情報により、最適化プログラムをどこに向けるべきかがわかります。また、目標到達プロセスのどこに注目すべきか、またはどの主要なチャネルに注目すべきかを知る必要があります。

2021 年の多くの e コマース企業にとって、それは新規ユーザーの獲得と変換でした。 2022年後半には、収益性と買収効率に焦点を当てたAOV中心です。

  • 過去数年間の SaaS では、製品主導の成長に焦点を当てるパターンがありました。そのため、特にダウン マーケット セグメントのトライアルとオンボーディングに焦点を当てています。

顧客の行動 (ドロップオフ、ナビゲーションのパターンなど) と認識 (動機と FUD、恐怖、不確実性、疑い) を明確に理解します。

これには優れたデータ モデル、ResearchXL があります。これは、行動や認識に関するデータを収集するだけでなく、情報を通じてデータを洞察に導き、優先順位付けされたロードマップを構築します。

顧客行動の XL データ モデルの調査

ステップ 2 と 3 を組み合わせて、顧客調査から作成した問題/機会のテーマをゴール ツリー マップのビジネス目標に結び付けます。

ResearchXL 問題機会データ モデル

これは、この e コマース クライアントの焦点であったチェックアウト ページの進行指標に関連付けられている実験を確認できる、そのゴール ツリー マップの拡大図です。

e コマース クライアントの ResearchXL ゴール ツリー マップの例

次を読む:最適化を成功させるための A/B テスト ツールの使用方法上位 6 つの要因の説明

私が Workato にいたとき、インタラクティブな製品ツアーの構築についてできるだけ多くのことを学びたいと考えていました。 私たちはフリーミアム版を持っていなかったため、多くの見込み客は、製品が実際にどのように動作するかについてルック アンド フィールを知りたがっていました。

私たちが学びたかったことは、ここでの各実験の KPI を決定しました。

ある実験では、「デモをリクエスト」などの他の主要な Web サイトの CTA ボタンとは対照的に、人々が製品ツアーのコンセプトに興味を持っているかどうかを確認したかっただけです。 これは一種の「ペイントされたドア」テストでしたが、実際には実行可能な最小限の製品ツアーをすでに構築していました。 この実験では、製品ツアーへのクリックの割合を追跡し、見込み客に対して非劣性実験を使用しました (単に減少させたくなかっただけです)。

次に、ツアー自体を最適化する際に、Web サイトのコンバージョン率 (リード) の主要なマクロ KPI を使用し、製品ツアーをクリックした人をセグメント化して、コア KPI のマクロ的な改善だけでなく、高い相関関係があるかどうかを確認しました。 」

Deborah O'Malley が CTR の向上に貢献した方法

多くの場合、メトリックはクライアント主導です。 通常、それらは収益に結びついています。 ただし、クライアントがエンゲージメントを増やしたいだけの場合もあります。

この例では、教育セクターのクライアントが、クリック率 (CTR) を、教育プログラムについて説明するページから、入学希望者がプログラムについてさらに学び、それに申し込むことができるページへと増加させたいと考えていました。

データ駆動型の分析に基づく仮説は、ページ上に競合する情報があまりにも多くあるため、ユーザーはどのように進めればよいのか、どこをクリックすれば詳細を確認できるのかが明確ではないというものでした。

上記の 5 ステップのフレームワークを適用する際に、最適なフォーマットとタイミングのポップアップ、またはスライドイン通知が、訪問者にどこをクリックすれば詳細を確認できるかを知らせるのに最適であると判断されました。

そのため、通知ポップアップの最適なフォーマットとタイミングを決定するために、一連の実験が行われました。 クリック率を測定しました。

これらのケース スタディの結果 (テスト 1、テスト 2) が示すように、ポップアップの配置とタイミングを最適化すると、CTR コンバージョンに非常に良い影響がありました。

しかし、結果は肯定的であることが証明されましたが、最終的には、提出された申請書が学校に実際に変化をもたらした指標でした. したがって、アプリケーションの提出を増やすための最適な方法を決定するには、追加のテストを行う必要があります。

この例から得られる重要な教訓は、クライアントは何を改善したいのかという考えを持っていることが多いということです。 実験者としてのあなたの仕事は、彼らの期待に応え、さらに先へ進むことです。 クリック率が上がるのはいいことです。 ただし、目標到達プロセスの奥深くでコンバージョンを増やすことを目指してください。 完了したアプリケーションやチェックアウトの完了など、最終目標到達プロセスの収益指標を可能な限り押し下げます。 完了を測定し、成功を数値化します。

Justin Christianson がセカンダリ データ ポイントを追加する理由

私たちは目的に基づいて目標を設定します。 売上高と収益だけを考えることはできません。 通常、私たちの主要な指標は販売コンバージョンと RPV の両方ですが、訪問者がどのようにやり取りしているかを常に把握できるとは限りません。

そのために、カートへの追加、要素のクリック、カートやチェックアウトなどの特定のページへのアクセスなどの二次データ ポイントを設定したいと考えています。 二次的な目的は、ページまたはテストの種類によって若干異なります。 売上や収益は、結果の観点から狙おうとしているものではない場合があります。

私たちは実験を使用して、訪問者が何を気にかけているのか、UX 全体でどの要素が重要なのかを理解し、それらの結果に基づいて戦略を構築します。 私たちの仮説は一般的に、状況の中でなぜ、または何が起こっているのかを常に問いかけています。 ホームページのセクションを移動するのと同じくらい簡単なことかもしれません。その場合、目標はそのセクションのクリック、売上、収益、製品ページへの訪問になります。 次に、データを解釈する方法は、訪問者がセクションを移動することでより高いエンゲージメントを示した場合、そのセクションに重みがあり、したがって訪問者はその全体的な経路を好むということです. この例として、e コマース ストアのページにコレクションの内訳と実際の製品ブロックを表示することが挙げられます。

次を読む:経験に基づいた実験を実行するには、A/B テストの学習リポジトリが必要です (専門家の意見)

CXO: 学習の頂点 最初の実験?

コンバージョン率は虚栄心の指標ではありません。 狭義の言葉になってしまいましたが。

Speero のクライアント サービス担当ディレクター、Annika Thompson 氏

問題は、CRO が重要ではないということではなく、大量の荷物を伴うことだと Annika 氏は説明します。 それは時間内のスナップショットにすぎず、コンテキストがなければ、無関係であり、まったく危険な場合があります.

一方、CXO またはカスタマー エクスペリエンスの最適化は、顧客の好みや行動に関する質の高い洞察を掘り下げることに重点を置いており、変換ブロックを粉砕する実験から堅牢なビジネス戦略まで、あらゆるものを提供します。 それはあなたのテスト費用にとってより大きな価値があります.

CROマスター
CROマスター