دليل عدم المصطلحات اللغوية المتخصصة خطوة بخطوة لفهم مقاييس اختبار A / B (بدقة)

نشرت: 2022-08-02

دليل عدم المصطلحات اللغوية خطوة بخطوة لفهم مقاييس اختبار أ: ب (شامل)

لا يتم إنشاء محتوى رائع من قبل فرد. قل "مرحبًا" للخبراء الذين جعلوا هذا الدليل ممكنًا. أكثر من 80 عامًا من التجارب واختبار A / B - في أقراءة دقيقة.

أليكس بيركيت

بن لابي

كورتيس ستانير

ديبورا أو مالي

إريك برنهاردسون

جاستن كريستيانسون

ماكس برادلي

سومانثا شانكارانارايانا

تيم ميهتا

إن محاولة فهم مقاييس اختبار A / B تشبه الذهاب إلى حفرة من التعاريف المعقدة ، والمصطلحات الفنية ، و "آراء الخبراء" التي لا تنتهي أبدًا.

لا نلومك إذا تركت أكثر من تنهيدة غاضبة تحاول العثور على شيء ذي قيمة عبر الإنترنت.

بحث Google عن عبارة "فهم مقاييس اختبار A / B"

حتى إذا كنت مقتنعًا برغبتك في إجراء تجارب ، فقد تشعر أن الأشخاص الذين يعرفونهم هم معلومات حراسة البوابة.

لكننا مصممون على تغيير ذلك. التجريب متاح للجميع وبنهاية هذا الأمر ، ستصدق ذلك أيضًا.

يخفي

حقيقة صعبة حول الشروع في التجربة
- طرق مختلفة لعرض مقاييس اختبار A / B
- حالة التحول إلى إستراتيجية Insights First (باستخدام المقاييس الصحيحة)
- مقاييس المدخلات والمخرجات والنتائج: تفكيك برامج التجربة مع Ben Labay و Alex Birkett
  - إطار بن
  - إطار عمل Go-to من Alex
- الأهداف والمحركات وحواجز الحماية: المقاييس حسب النطاق
  - الهدف أو مقاييس نجم الشمال
  - مقاييس السائق
  - مقاييس الدرابزين
- نظرة فلسفية على المقاييس: The 5 Ws
اختيار المقاييس التي تحدث فرقًا مع شجرة السائق
- اتبع هذه الخطوات الثلاث لبدء برنامج التجربة الخاص بك
النماذج العقلية: كيف يختار المحترفون مقاييسهم في تجارب العالم الحقيقي
- بن لاباي ورسم خرائط الأهداف
- كيف ساعدت ديبورا أو مالي في زيادة نسبة النقر إلى الظهور
- لماذا يضيف جوستين كريستيانسون نقاط البيانات الثانوية
CXO: قمة تعلم التجربة الأولى؟

حقيقة صعبة حول الشروع في التجربة

سوف نتعمق في كيفية عرض المقاييس من خلال عدسات مختلفة ، لكن أولاً ، علينا أن نكون واضحين.

ربما سمعت هذا البيان من قبل: "لا توجد خسائر في اختبار A / B - التعلم فقط."

هذا صحيح جزئيا.

يمكن أن تساعدك الاختبارات غير الحاسمة (المسطحة) وحتى الخسائر في الحصول على فكرة واضحة عما لا يصلح لجمهورك المستهدف. ولكن إذا كنت تقوم ببناء برنامج التجريب ولم يكن لديك اشتراك C-suite بعد ، فكن مستعدًا للتنقل في بعض المياه الصعبة. افهم أن الأشخاص الذين يمسكون بسلاسل النقود لن يكونوا سعداء بشكل خاص بإجراء مناقشات مقصورة على فئة معينة حول "التعلم" دون تعليم كبير.

للحصول على موافقتهم ، ستحتاج إلى إظهار المكاسب السريعة والملموسة أولاً . نتائج اختبار A / B التي يمكن لمديرك أن يقدموها إلى القيادة حتى يظهروا بعض الثقة في حقيقة أن الطريقة العلمية الأكاديمية للتجريب يمكنها بالفعل دفع شيء عملي مثل الأعمال التجارية إلى الأمام.

وأسهل طريقة لعمل ذلك؟

السعي وراء أقل ثمار معلقة: تحسين معدل التحويل لتجربة المستخدم القريبة بشكل معقول من التأثير على الصفقات أو المشتريات. لنفترض أن الزيادة المباشرة بمقدار 1000 وحدة في الطلبات المقدمة (كما هو موضح في نتيجة الاختبار الخاصة بك) من السهل تحويلها إلى دولارات وأرباح.

قم بإحضار هذا التقرير إلى اجتماع مجلس الإدارة وستكون الغرفة مليئة بالإثارة - من النوع الذي يأتي من اكتشاف "قناة اكتساب" أخرى تعرف باسم CRO.

لكن الربع سيأتي ويذهب دون أن ترى الارتفاع الموعود. سيصاب التنفيذيون الذين أشادوا بك على أنك مستقبل الشركة بخيبة أمل كبيرة. سيتبع ذلك تخفيضات في الميزانية. وسيطرح شخص عالي المستوى (* سعال * سعال HiPPO * غير قابل للإصلاح *) بعض الهراء حول كيف أن التجارب لا يمكن أن تتفوق أبدًا على القنوات التقليدية مثل الإعلانات والأحداث التي صمدت أمام اختبار الزمن.

[HiPPO = الشخص الأعلى أجرًا الذي لديه رأي]

انظر ماذا حدث للتو؟ من خلال تنشيط رؤيتك النفقية ، قمت بإحالة التجربة إلى مجرد CRO - وهو أمر يُنظر إليه (تقريبًا) كقناة استحواذ جديدة لاسترداد الأموال المتبقية على الطاولة. وإلى جانب ذلك؟ جميع الادعاءات والخدع والمزالق الكبيرة التي تصاحبها.

المرجعية: اختبار أ / ب: دليل كامل تريد وضع إشارة مرجعية عليه

طرق مختلفة لعرض مقاييس اختبار A / B

التجريب آلة. لكن معظم الناس لديهم فهم خاطئ لكيفية عملها.

إنهم يعتقدون أن المدخلات هي مشاكل العمل والمخرجات هي حلول أعمال صالحة ذات دلالة إحصائية . وقد تكون هذه هي الصورة المثالية الأكبر.

رسم بياني يوضح افتراضات الاختبار حيث تكون مشاكل العمل هي المدخلات والحلول هي المخرجات

عند التكبير ، تقبل آلة التجريب التعلم والجهد المبذول في العملية العلمية كمدخلات وتنتج مقاييس البرنامج كمخرجات.

ولكن هناك علامة IF كبيرة هنا: لكي ينتج عن المخرجات في النهاية النتائج المتوقعة والمرغوبة ، فإن جودة برنامج التجربة لها أهمية قصوى.

TL ؛ DR: كلما كانت المدخلات أفضل (البيانات التي تم جمعها ، والتعليم ، والشهادات ، ومحو الأمية بالبيانات ، والعمليات) ، كان الناتج أفضل (سرعة التجربة ، ومعدل الفوز ، ومتوسط الفوز لكل تجربة.) ، وزادت فرص تحقيق الهدف. (ق) قمت بمواءمة برنامج التجربة الخاص بك معه.

فقط عندما تكون مهووسًا بجودة التجربة ، ستكون لديك فرصة أكبر لرؤية نتيجة يمكن أن تحرك الإبرة في مشاكل النمو والكفاءة الكبيرة التي تريد جميع الشركات حلها.

الطريقة لتحقيق ذلك هي أن يكون لديك إستراتيجية مقاييس لا تضع النتائج على قاعدة التمثال.

بدلاً من ذلك ، يساعد الفريق على قياس وتتبع المدخلات والمخرجات (المدخلات هي العامل الوحيد الذي يتحكم بشكل مباشر في المُحسِّن) واستخدامها كمقياس للتقدم. الرحلة إلى النتيجة ليست عدوًا سريعًا ، إنها ماراثون يتم تشغيله في الخلفية كمنتج ثانوي للتجربة الجيدة.

لا تخطئنا. القول اسهل من الفعل.

غالبًا ما تظهر التجارب أنه لا ينبغي إجراء بعض التغييرات. لا ينبغي شحن ميزات معينة! والتجريب في حد ذاته متعمد ... نقل التركيز من استراتيجية الشحن أولاً إلى رؤى واستراتيجية التعلم أولاً (مدعومة بالمقاييس الصحيحة).

تردد التجريب أمر شائع بشكل لا يصدق بين المديرين التنفيذيين. يتمتع معظم المؤسسين بسنوات من بناء الشركة بدون تجارب ، ويمكن أن يشعروا أن التجريب قوة محافظة تعيق سرعة الشركة وتسويق المنتجات والابتكار.
إريك برنهاردسون ، مؤسس Modal Labs

حالة التحول إلى إستراتيجية Insights First (باستخدام المقاييس الصحيحة)

لإحراز تقدم فعلي ، يتعين علينا التبديل من مطاردة استراتيجية الشحن إلى استراتيجية القياس. يؤدي هذا إلى إضفاء اللامركزية على إستراتيجية المنتج ، أي يدفع التفكير إلى أسفل وهو مثالي. واعتماد استراتيجية متريّة يعني في جوهره التجريب. لا يمكنك الابتعاد عن اختبار مدى تأثير تغييرات المنتج الجديدة على عملك.

قراءة جيدة: الدليل الكامل للاختبار متعدد المتغيرات في عام 2022

يتم ترميز "سبب" برنامج التجريب في إستراتيجية المقاييس الخاصة بك.

هل تركز كل جهودك على المكاسب والإيرادات السريعة؟
هل التجريب هو السبيل لفهم عملائك وتقديم قيمة لهم طوال دورة حياتهم؟
أم أن التجريب هو الهدف في حد ذاته ، حيث كلما كان الاختبار أفضل ، كلما تولدت رؤى أكثر موثوقية ومسؤوليتك هي الحفاظ على هذه العجلة قيد الحركة ، دون التأثير سلبًا على التجارب الحالية؟

المزيد عن هذا لاحقًا مع Ben Labay of Speero.

على أساس التجربة إلى التجربة ، تعزز المقاييس تركيزك (الحقيقي). يمكنك الحصول على بيان من 10 صفحات يتحدث عن تضمين التجريب في الحمض النووي لعملك لتسريع الابتكار ، ولكن إذا كان هدفك الأساسي هو التحويل دائمًا ، فإن برنامج الاختبار الخاص بك هو في الأساس برنامج CRO. قد يكون هذا هو ما تريد تحقيقه ، ولكن كن على دراية بالقيود التي ستظهر أمامك ، بما في ذلك التفكير في اختبارات A / B على أنها أدوات اكتساب / إيرادات - بصراحة ، ليست كذلك.

تجعل الفئات المختلفة من المقاييس من الممكن تتبع المؤشرات التي تهم المجموعة C ، مع تحسين البرنامج للحصول على اختبارات جودة أعلى ، والرؤى السببية ، والقيام بتكرارات مختلفة لتحسين الأعمال الداخلية للجهاز بحيث يمكن للمخرجات أن تبدأ في دفع النتائج على المدى البعيد.

يقدم هذا الفيديو مع Tim Mehta نظرة خاطفة صريحة على السبب الذي يجعل سرد التجربة الذي يدور فقط حول التعلم ليس موقفًا عمليًا يجب اتخاذه.

أعتقد أنه من الرائع حقًا الحصول على كل هذه الدروس المستفادة من جانب المشاركة ، ولكن لكي يكون صاحب عملك قادرًا على معرفة مواصلة بناء الموارد للبرنامج والحصول على ميزانية له ، فأنت تعلم أنك بحاجة للتأكد من أنك قادرة على الأقل على إظهار أنه من منظور تجاري للقيمة بالدولار التي يجلبها البرنامج إليك.

لذلك أعتقد أنه بالنسبة للكثير من التجارب يتعلق الأمر بالأسلوب العلمي العام ، فكل ما تحاول القيام به هو أن تتعلم أن هناك هذا ، هل تعلم أنه ليس بنفس القدر من الربح / الخسارة كما هو الحال في الفرضية التي تم إثباتها أه أنت تعلم أنها مثبتة أو مرفوضة. بينما مع ما نقوم به بشكل جيد ، نحن في الجانب التسويقي ، ومن الطبيعي أن نكون قادرين على إيصال نوع من الربح أو قيمة الإيرادات حتى نتمكن من الاستمرار.
تيم ميهتا ، مدير تسويق النمو في شركة Lucid Software

على مستوى أكثر عملية ، فإن المقاييس تحمل التعلم. هل تجري اختبارات مسطحة متتالية؟ قد تكون هذه مشكلة في طريقة جمع البيانات (مشكلة تركز على الأداة) أو في الطريقة التي تصمم بها التجارب. تساعدك المقاييس في العثور على الإبرة في كومة القش وتقوم بعمل أفضل.

TL & DR؛ تساعد المقاييس المختبرين على التقاط جوانب مختلفة للتجربة وتوزيع تأثيرها على أصحاب المصلحة بلغة يفهمونها ويقدرونها ويقدرونها. تتجاوز إستراتيجية المقاييس "الأهداف" والحصة على الأرض التي يتم على أساسها تقييم الاختلافات والخسائر الفائزة.

من خلال المقاييس ، تعيش برامج التجريب وتنضج وتتطور وتنجح (أو تفشل).

مقاييس المدخلات والمخرجات والنتائج: تفكيك برامج التجربة مع Ben Labay و Alex Birkett

هناك الكثير من التعريفات حول المقاييس الأولية والثانوية وحاجز الحماية. لكن أي شخص يدير برنامجًا تجريبيًا يعرف أنه يجب أن يكون هناك إطار عمل لتحديد المستويات المختلفة للأهداف.

لذلك سألنا بن لاباي ، العضو المنتدب لشركة Speero ، وأليكس بيركيت ، المؤسس المشارك لـ Omniscient ، هذا السؤال:

ما هو إطار عمل مقاييس go-to الخاص بك لتعيين المتغيرات المقاسة لتأثير التجريب متعدد الطبقات؟

إطار بن

1. فئات مقياس البرنامج

برنامج Ben Labay Speero التجريبي قياس التطور

هذا "حسب المرحلة" يجب أن يؤخذ على محمل الجد. تريد مراقبة كل هذه الأشياء طوال الوقت ، لكن FOCUS يختلف قليلاً حسب مرحلة البرنامج.

2. ابدأ بتصنيف المقاييس عالي المستوى ، وهذا ما يخصني:

متري تصنيف الرسم البياني مقاييس الهدف قياسات السائق قياسات الدرابزين بواسطة Ben Labay Speero

ثم لكل منهم ،

3. أمثلة على مقاييس الأهداف:

مخطط مقاييس الهدف Ben Labay Speero بواسطة CXL

ثم

4. أمثلة مترية السائق

مخطط مقاييس السائق Ben Labay Speero بواسطة CXL

ثم

5. برنامج مقاييس الدرابزين

مخطط مقاييس الدرابزين Ben Labay Speero بواسطة CXL

لذا…. إذن لديك مكونات استراتيجية القياس:

مخطط إستراتيجية المقاييس Ben Labay Speero بواسطة CXL

ملاحظة: يجب أن تركز التجارب في المراحل المبكرة على مقاييس الإدخال ولكن عليك أن تتعامل مع ضغط إنتاج نتائج لن تتحقق إذا لم يكن لديك التعليم المناسب والأشخاص والعمليات.

إنها دورة هزيمة ذاتية. أيضًا ، لا ينبغي الاحتفال بمقاييس النتائج فورًا ، خاصةً إذا كنت تتوقع "إيرادات".

أفضل طريقة لفهم هذا هو النظر في كيفية تحول Airbnb إلى استراتيجية القياس:

"كان على الضيوف أولاً طلب الإذن للمضيفين بالبقاء في Airbnb ، وسيقرر المضيفون ما إذا كانوا يرغبون في طلب الحجز. خلق هذا الكثير من الاحتكاك ، وكان تجربة مروعة للضيوف ، وفتح الباب أمام التحيز غير المناسب للدخول في العملية.

كان من الممكن أن تفرض إستراتيجية شحن المنتج مجموعة من الميزات التي يجب شحنها. لكن Airbnb أنشأت فريقًا قويًا بإستراتيجية متريّة: اجعل Airbnb تصل إلى 100٪ كتابًا فوريًا.

وكانت النتيجة استراتيجية ثقيلة التجارب أدت بشكل تراكمي إلى تغيير السوق. امتدت تغييرات المنتج إلى تصنيف البحث ، وإعداد المضيف ، ووظائف المضيف الأساسية (مثل عناصر تحكم الضيف ، وقواعد المنزل ، وإعدادات المهلة ، وما إلى ذلك) التي سمحت للمضيفين بالنجاح في عالم يحجز فيه الضيوف منازلهم على الفور.
إريك برنهاردسون

إطار عمل Go-to من Alex

يعد إطار العمل الخاص بي لتعيين مقاييس التجربة بسيطًا: مقاييس الإدخال والإخراج .
يهتم أصحاب المصلحة بمقاييس المخرجات. تُستخدم هذه في حسابات عائد الاستثمار وإثبات قيمة البرنامج - أشياء مثل معدل تحويل موقع الويب ، ومعدل تحويل مسار التحويل ، والعملاء المحتملين عالي الجودة ، وما إلى ذلك.
أنا شخصياً أعتقد أنه تم المبالغة في تقديرها على المستوى البرنامجي والاستخفاف بها على مستوى كل تجربة. أعني بذلك أنه إذا كنت تقوم بتتبع معدل التحويل لصفحات الويب الخاصة بك من ربع إلى آخر ، فلن يكون التجريب هو الشيء الوحيد الذي حدث خلال تلك الفترة الزمنية. جمع الأموال واتجاهات الاقتصاد الكلي وتحويل قنوات الاستحواذ - كل هذه يمكن أن تكون عوامل مربكة هائلة. يمكنك الالتفاف على بعض هذه من خلال وجود مجموعات معوقات أو إعادة اختبار الإصدار الأساسي لتجربتك الرقمية.
لقد تم التقليل من شأنها على أساس كل تجربة لأن الناس لا يميلون إلى التفكير من خلال تجربتهم الأساسية KPI ، وبدلاً من ذلك يختارون تضمين مجموعة متنوعة من الأهداف واختيار الهدف الذي يناسب روايتهم. من الصعب حقًا التوصل إلى هدف مركب ، وهو معيار تقييم شامل ، لتحديد تجربتك. تعتبر مقاييس الإدخال طريقة أفضل بالنسبة لي للحصول على مقياس في برنامجنا. الثلاثة الرئيسية التي أنظر إليها هي
أ) سرعة التجربة
ب) تجربة الفوز معدل و
ج) متوسط الفوز لكل تجربة.

إذا قمت بتحريك الإبرة في أي من هذه ، فمن المحتمل أن أحرك الإبرة في مقاييس الإخراج الخاصة بي

الأهداف والمحركات وحواجز الحماية: المقاييس حسب النطاق

يستخدم Ben Labay تشبيه السيارة لشرح هذه المقاييس:

جوهر الأمر هو أن لديك مقاييس طويلة الأجل مثل مقاييس الهدف وهذا هو نظام تحديد المواقع العالمي أو نظام الملاحة ، أي مقاييس نجم الشمال (NSM).

هذا على عكس مقاييس السائق التي هي المقاييس قصيرة المدى والمعروفة أيضًا باسم عداد السرعة الخاص بك. على سبيل المثال ، تحسين معدل التحويل لمتوسط قيمة الأمر (AOV).

ضع هذا في تناقض أكبر مع مقاييس التنبيه والمحاذاة ، مثل مقياس سرعة الدوران أو مقياس الحرارة ؛ هذه هي مقاييس حراسة السكك الحديدية الخاصة بك.

ملاحظة : شاهد هذا الفيديو من قبل Ben لفهم هذه الفئات بشكل أفضل:

الهدف أو مقاييس نجم الشمال

يعتبر مقياس نورث ستار أو مقياس نطاق متخلف أو واسع النطاق كما حدده بن أكثر استراتيجية من كونه تكتيكيًا بطبيعته.

على سبيل المثال ، لم يتم تصميم اختبارات A / B الخاصة بـ Netflix لتحسين التفاعل — بل إنها مصممة لزيادة الاحتفاظ. إذا كانوا يحتفظون بالعملاء ، فهذا يعني أن المشتركين يتفاعلون مع المنتج ويجدون قيمة فيه. لذلك ، يُلخص الاحتفاظ بالعديد من المقاييس التكتيكية مثل النسبة المئوية للمستخدمين الذين يدفعون أو يشاهدون أكثر من 3 أجزاء من المحتوى.

قراءة التالي: الدليل النهائي لاستخدام الأهداف في اختبار A / B (وكيفية تحويل أهداف Aces)

مقاييس السائق

هذه المؤشرات الرائدة هي ما تركز عليه على المدى القصير ، أي معدل الارتداد ومعدل التحويل. في بعض الأحيان ، لا يكفي وجود مقياس واحد لتقييم نتيجة. وهنا يأتي دور معيار التقييم العام أو OEC .

يُعرف أيضًا باسم الاستجابة أو المتغير التابع ، متغير النتيجة أو مقياس الأداء ، OEC هو في الأساس مزيج من مؤشرات الأداء الرئيسية الموزونة بشكل مختلف كمؤشر أداء رئيسي واحد.

يفرض المقياس الفردي إجراء المفاضلات مرة واحدة لتجارب متعددة ويوجه المنظمة وراء هدف واضح. لا ينبغي أن يكون تركيز OEC الجيد مركّزًا على المدى القصير (على سبيل المثال ، النقرات) ؛ على العكس من ذلك ، يجب أن تتضمن العوامل التي تتنبأ بالأهداف طويلة المدى ، مثل القيمة الدائمة المتوقعة والزيارات المتكررة.
روني كوخافي

مقاييس الدرابزين

وفقًا لروني كوخافي ،

مقاييس الدرابزين هي مقاييس مهمة تم تصميمها لتنبيه المجربين حول الافتراض المنتهك. توفر مقاييس الدرابزين ما يسميه سبيتزر (2007) "القدرة على التحريض على عمل مستنير". عندما يحرك تأثير العلاج مقياس حماية بشكل غير متوقع ، فقد ترغب في تقليل الثقة في النتائج ، أو إيقاف التجربة في الحالات التي قد يحدث فيها ضرر للمستخدمين أو المؤسسة.

هناك نوعان من مقاييس الدرابزين: مقاييس الدرابزين المتعلقة بالثقة ومقاييس الدرابزين التنظيمي. نبدأ بما نعتقد أنه أهم مقياس للدرابزين يجب أن تمتلكه كل تجربة: نسبة العينة ، ثم المتابعة بمقاييس الدرابزين الأخرى ومقاييس الدرابزين التنظيمية.

نسبة العينة = في تجربة مضبوطة ، تساوي نسبة العينة نسبة تخصيص حجم العينة بين مجموعات الاختبار المختلفة: التحكم والمتغيرات

نظرة فلسفية على المقاييس: The 5 Ws

سومانثا شانكارانارايانا ، مؤسس Endless ROI ، ترى المقاييس بشكل مختلف.

تكمن قيمة المقاييس في قدرتها على التنبؤ بسلوك المستخدم. عند تفسير المقاييس ، لا يتمثل الهدف في طرح السؤال "كم عدد؟" بل بالأحرى أن نسأل "لماذا؟". المقاييس هي أثر تركه عقل المستخدم.

من الناحية الفلسفية ، يمكن تقسيم المقاييس إلى أربع فئات أساسية:

المجموعة 1 - المبلغ (أين ومتى)

مشاهدات الصفحة (فريدة وليست فريدة)
زوار الموقع (الجدد والعائدين)
الزيارات
إجمالي الإيرادات
قيمة الحياة
أرباح سلة التسوق التراكمية لمجموعة من التجارب

المجموعة 2 - الطبيعة (لماذا)

تتبع الحدث
المتصفح / النظام الأساسي
الوقت المستغرق في الصفحة
تفاصيل الصفقه
أخطاء تحميل الصفحة
دقة الشاشة
صفحة الخروج

المجموعة 3 - المصدر (من)

المُحيلون
مصطلحات البحث
البلد / اللغات
المنظمات
أهم الصفحات المقصودة
الصفحات السابقة

المجموعة 4 - النتائج (ماذا)

الاشتراكات
عدد مشاهدات الصفحة
الطلب #٪ s
نقرات
المحاكمات
الصفحات التالية
الاحتفاظ بالمستخدمين

بينما نقوم بقياس البيانات ونبدأ في رؤية كيفية أداء الفرضية ، يجب أن نأخذ في الاعتبار جميع تهديدات الصلاحية مثل

تأثيرات التاريخ (الأحداث الإعلامية ، مبادرات تسويق المنافسين ، مبادرات التسويق الداخلي ، التغيرات الموسمية ، التغيرات الاقتصادية) ،
تأثير الأجهزة (إعداد الاختبار ، باستخدام تحكم مزدوج) ،
تأثير الاختيار (فترات ثقة وثقة مختلفة للتحكم والمتغيرات) ، و
تأثير تشويه أخذ العينات (تباين مرتفع ، لا يوجد يقين إحصائي).

استنادًا إلى الفئات المذكورة أعلاه ، يمكن أن يكون أحد المقاييس مقياسًا أساسيًا ، على سبيل المثال ، الطلبات (معدل التحويل).

يجب أن تستند تقديراتك إلى:

معدل النجاح - اتجاهات معدل التحويل الأخيرة
العينات المستلمة - مستوى حركة المرور الحديثة والعدد المخطط للعلاجات
مقدار الاختلاف في حجم المقياس الأساسي بين عنصر التحكم والمتغير وكيف يؤثر ذلك على أهداف العمل.

ومع ذلك ، فإن جمع البيانات من مقاييسك الثانوية سيساعد في تفسير نتيجة الاختبار.

قد يعتمد التفسير على:

عائد الاستثمار للاختبار
الأفكار الرئيسية التي يتم جمعها تجيب عادة على أسئلة مثل
- ماذا يقول هذا الاختبار عن عملائي؟
- ما الذي يحفز عملائي؟
- كيف يستجيبون لعناصر محددة؟
- ما هي قيمة عملائي؟
- ما الذي يسبب لهم أكبر قدر من القلق؟
- لماذا يسقطون في نقطة معينة؟
- أين هم في المحادثة؟
الاختبارات اللاحقة: في أي مكان آخر يمكن أن يكون هذا التعلم مفيدًا؟

في ملاحظة مهمة ، يسمح اختبار العناصر في وقت مبكر من عملية التحويل بمزيد من الحركة ، كما أن اختبار العناصر بشكل أكبر في عملية التحويل له تأثير محتمل أكبر على الإيرادات. لذلك ، بناءً على مراحل مسار التحويل ، يجب أن تعكس مقاييسنا أيضًا الهدف الذي تم تعيين المرء لتحقيقه.

قراءة التالي: 7 خطوات أساسية للتعلم والتحسين من نتائج اختبار أ / ب

تأتي فكرة أخرى عن المقاييس من أفيناش كوشيك ، مبشر التسويق الرقمي في Google.

في العدد الأخير من رسالته الإخبارية ، The Marketing <> Analytics Intersect ، أوصى بتجاهل مقاييس الغرور مثل الإعجابات والمتابعين والآلهة الزائفة مثل مشاهدات الصفحة و "التفاعل".

بدلاً من ذلك ، ركز على النتائج الصغيرة مثل الاشتراك في الرسائل الإخبارية ومعدلات إكمال المهام ، والنتائج الكلية الرقمية مثل إيرادات التحويل والإيرادات ، ومقاييس التأثير الأساسي مثل الربح والقيمة الدائمة.

تأتي فكرة أخرى عن المقاييس من Simon Girardin من محامي التحويل:

أثناء عملك مع المقاييس ، ستبدأ في معرفة كيفية ارتباطها ببعضها البعض. معظم مقاييس السائق هي مقاييس النتائج. غالبًا ما ترتبط حواجز الحماية بمقاييس الإخراج. قد ترغب في تشغيل برامج التشغيل الخاصة بك من خلال 5Ws بينما تصل إلى الصواميل والمسامير في اختيار المقاييس للاختبارات الخاصة بك. يتيح لك فهم الأساسيات أن تكون مبدعًا في تفسيراتك.

اختيار المقاييس التي تحدث فرقًا مع شجرة السائق

تأتي صياغة إستراتيجية مقاييس متينة لفهم ماهية شجرة السائق.

شجرة السائق هي خريطة لكيفية توافق المقاييس والرافعات المختلفة في المؤسسة معًا. في أقصى اليسار ، لديك مقياس شامل تريد قيادته. هذا هو الهدف النهائي الذي تريد أن تعمل جميع الفرق من أجله.
مصدر
كلما انتقلت إلى اليمين ، تصبح أكثر دقة فيما يتعلق بالطريقة التي تريدها لتحقيق هذا الهدف. يمنحك كل فرع مؤشرًا للأجزاء المكونة التي تشكل "ماذا" أعلاه.
كيرتس ستانير ، مدير المنتج في Delivery Hero

يمكن أن تساعد شجرة السائق ، عند دمجها مع المقاييس ، في تحديد مجالات الفرص المحتملة وإرشادك إلى الحل.

يشرح كورتيس هذا بمثال. على سبيل المثال ، إذا كان هدفك هو زيادة عدد الاشتراكات في البريد الإلكتروني. لنفترض أن نصف العملاء فقط نقروا بنجاح على رابط تأكيد البريد الإلكتروني الذي أرسلته إليهم. هناك سيناريوهان محتملان هنا - إما أن العملاء لا يتلقون البريد الإلكتروني أو أنهم لا ينقرون عليه. يمكن أن يكون لهذه الدوافع عوامل مؤثرة مختلفة.

عندما تقوم بتعيين تدفق العملية على Driver Tree ، يمكنك الوصول إلى السبب الجذري. ربما يكون لدى مزود البريد الإلكتروني الذي تستخدمه معدل خطأ بنسبة 10٪ مما يعني أن البريد الإلكتروني لم يتم إرساله مطلقًا. تصبح هذه المشكلة المحددة فرصة لفريقك لإصلاحها.

مثال على شجرة سائق متري بواسطة Curtis Stanier Delivery Hero — مصدر

إليك مثال محدد مقدمًا من بهافيك باتيل ، رئيس تحليلات المنتج في هوبين ، لتوضيح كيف يمكنك تعيين هدف مثل اختبار السرعة ، أي عدد الاختبارات التي يتم إجراؤها على قياسات السائق وحاجز الحماية.

متري سائق شجرة بواسطة بهافيك باتيل هوبين — مصدر

اتبع هذه الخطوات الثلاث لبدء برنامج التجربة الخاص بك

1. اختر هدف برنامج التجربة الخاص بك

قم بإشراك HiPPO المعروف أيضًا باسم C-suite الخاص بك حتى لا تطارد مقياس نجم الشمال الذي لا تهتم به القيادة. وإلا فلن يرى برنامج التجربة ضوء النهار أبدًا. التكرار في الأشخاص الذين يدركون أن المشكلات الكبيرة تحتاج إلى حلول مبتكرة ، وليس اللعب بأمان.

كقاعدة عامة ، يقول Ben Labay إن الهدف المتأخر طويل المدى لبرنامج التجربة الخاص بك يمكن أن يكون أحد ثلاثة أشياء - الإيرادات أو العميل أو عملية التجربة .

مقاييس الهدف الإيرادات أو العميل أو عملية التجربة بواسطة Ben Labay Speero

على سبيل المثال ، تتميز Booking.com بجودة التجربة كمقياس نجم الشمال. إليكم السبب:

ما يهمنا حقًا ليس عدد قرارات المنتج التي يتم اتخاذها ، ولا مدى سرعة اتخاذ القرارات ، ولكن مدى جودة تلك القرارات.

في حين أن استخدام التجريب كجزء من تطوير المنتج وصنع القرار هو ممارسة شائعة في الوقت الحاضر ، إلا أنه في حد ذاته لا يضمن اتخاذ قرارات جيدة. قد يكون إجراء التجارب بشكل صحيح أمرًا صعبًا ، والبيانات التي يتم الحصول عليها من التجربة موثوقة فقط مثل تنفيذ التجربة نفسها. إن إجراء تجارب سيئة هو مجرد طريقة مكلفة للغاية ومعقدة لاتخاذ قرارات غير موثوقة.
كريستوف بيرين ، مدير منتجات المجموعة في Booking.com

اقرأ التالي: الدليل النهائي لاستخدام الأهداف في اختبار A / B (وكيفية تحويل أهداف Aces)

2. إنشاء سجل لمقاييس الدرابزين المقبولة

يوصي Tim Mehta بإجراء اختبار السرعة كمقياس للدرابزين مع تحذير ، أي فقط إذا كانت سلامة اختبارك جيدة أو تفي بالمعيار. إذا كنت لا تجري اختبارات الجودة ، فإن أي مقياس تختاره ينتهي به الأمر ليكون مقياسًا للغرور.

مثل Tim ، يقترح Ben Labay أيضًا اختبار السرعة جنبًا إلى جنب مع هذه المقاييس الأخرى كمجموعة عمل من مقاييس الدرابزين:

التجربة مقاييس الدرابزين بواسطة بن لاباي سبيرو — مصدر

3. اختر مقاييس السائق الخاص بك على أساس كل حالة على حدة

ليست كل المقاييس مقاييس جيدة. بعد إجراء الآلاف من اختبارات A / B ، حددت Microsoft ست خصائص رئيسية لمقياس A / B الجيد:

حساسية
الجدارة بالثقة
نجاعة
التصحيح
التفسير والقابلية للتنفيذ
الشمولية والإنصاف

يمكنك استخدام STEDII لتنقيح المقاييس لتتبع التغييرات وقياسها.

قائمة مراجعة STEDII من Microsoft لإنشاء مقاييس جيدة — مصدر

يعتقد ماكس برادلي ، كبير مديري تحسين الويب في Zendesk ، أنه يجب عليك التحلي بالمرونة بشأن مقاييس السائق حتى تتمكن من التفكير داخل الصندوق أو خارجه:

لقد لاحظنا أن حقل إنشاء النطاق الفرعي (الموضح أدناه) كان ، إلى حد بعيد ، هو حقل النموذج الأكثر تحديًا في تدفق التسجيل التجريبي للزوار. كان معدل الانسحاب في هذا المجال أعلى بكثير من أي مجال آخر.
بشكل حاسم ، كان لدينا تتبع في المكان الذي سمح لنا بالنظر في أداء النموذج بالتفصيل في المقام الأول. إذا كنت تبدأ ، فمن غير المرجح أن يكون هذا المستوى من التتبع ممكنًا على المدى القصير ، لكنني أشجع "الدخول في الحشائش" مع التتبع الخاص بك مع مرور الوقت.
عندما تم تحديد المشكلة ، اتخذنا مجموعة متنوعة من الخطوات لتحديد النهج الذي نرغب في اختباره. نظرنا إلى ما فعلته الشركات الأخرى حيث كان هناك مجال فرعي متورط ، أود أن أقترح النظر إلى ما هو أبعد من منافسيك هنا. كنا نعتقد أن المستخدم لا يحتاج إلى الاهتمام بإنشاء مجال فرعي ، فهو يقدم مجالًا آخر للمستخدم للتوقف والتفكير ، مما يزيد من العبء المعرفي. يمكننا إنشاء المجال الفرعي الخاص بهم من اسم الشركة الذي قدموه بالفعل وإخفاء حقل النطاق الفرعي عن المستخدمين.
لقد توقعنا بطبيعة الحال أن يؤدي هذا التغيير إلى زيادة عدد المستخدمين الذين يشتركون بنجاح في نسخة تجريبية ، وقد تمكنا من تقدير الزيادة المتوقعة بسبب التتبع المذكور.
ومع ذلك ، ما لم نكن نعرفه في هذه المرحلة هو التأثير العام الذي سيكون لذلك على الأعمال. توقعنا أن نشهد زيادة في التحويلات التجريبية ، لكن هل سيترجم هذا على طول مسار التحويل إلى الفوز؟
بالإضافة إلى ذلك ، من خلال إخفاء حقل النطاق الفرعي وإنشاء النطاق الفرعي تلقائيًا للمستخدم ، أردنا التأكد من أننا لم نمرر هذه المشكلة ببساطة إلى منطقة أخرى من العمل. وقد تضمن ذلك إشراك مناصرة العملاء ودعم العملاء منذ البداية.
كانت المجالات الأولية التي اعتقدنا أنها ستكون مهمة في تحديد تأثير هذه التجربة كما يلي:
معدل التسجيل التجريبي لزوار النموذج
العملاء المتوقعون ، و MQLs ، والفرص ، والمكاسب
التغييرات التي أجراها المستخدمون على اسم المجال الفرعي في الاشتراك في نشر المنتج
عدد التذاكر التي تلقاها فريق مناصرة العملاء لتغيير اسم النطاق الفرعي ".

بناءً على الهدف الذي تختاره وكيف تتعامل باستمرار مع السائقين ، يمكن أن تسير شخصية التجربة ومسار البرنامج بعدة طرق مختلفة. ألق نظرة على هذا المخطط من Ben Labay:

النماذج العقلية: كيف يختار المحترفون مقاييسهم في تجارب العالم الحقيقي

لقد طلبنا من الخبراء أن يرشدونا إلى مثال حيث رأوا المشكلة ، وصمموا الفرضية ، ثم اخترنا المقاييس لقياس النجاح وتعزيز التعلم.

هذا ما قالوه:

بن لاباي ورسم خرائط الأهداف

كن واضحًا بشأن وجهة العمل ولماذا.

ما هي استراتيجية نمو الأعمال التجارية؟ هل ينموون بنسبة 20٪ العام المقبل باكتساب المزيد من المستخدمين؟ هل سيركزون على المنتجات الجديدة أو تحقيق الدخل من قاعدة المستخدمين الحالية؟ باستخدام هذه المعلومات ، تعرف مكان توجيه برنامج التحسين ، يجب أن تعرف مكان مسار التحويل أو القنوات الأساسية التي يجب التركيز عليها.

بالنسبة للعديد من شركات التجارة الإلكترونية في عام 2021 ، كان اكتساب وتحويل مستخدمين جدد. في أواخر عام 2022 ، كان يتمحور حول AOV ، والذي يركز على الربحية وكفاءات الاستحواذ.
مع SaaS على مدى السنوات القليلة الماضية ، كان هناك نمط من التركيز على النمو الذي يقوده المنتج ، لذلك التركيز على التجارب ، والتأهيل خاصة لقطاعات السوق المنخفضة.
احصل على فهم واضح لسلوك العميل (حالات الانسحاب ، وأنماط التنقل ، وما إلى ذلك) والتصورات (الدوافع مقابل FUDs ، والمخاوف ، والشكوك ، والشكوك).

لدينا نموذج بيانات رائع حول هذا ، ResearchXL ، الذي لا يجمع البيانات عن السلوكيات والتصورات فحسب ، بل يسير البيانات من خلال المعلومات إلى رؤى تبني خريطة طريق ذات أولوية.
اجمع بين الخطوتين 2 و 3 ، وقم بتوصيل موضوعات المشاكل / الفرص التي تقوم بإنشائها من بحث العميل إلى أهداف العمل في خريطة شجرة الأهداف.
إليك صورة مقربة لخريطة شجرة الأهداف حيث يمكنك رؤية التجارب المرتبطة بمقياس تقدم صفحة الخروج ، والذي كان نقطة محورية لعميل التجارة الإلكترونية هذا:

قراءة التالي: كيف تتعامل مع أدوات اختبار A / B لنجاح التحسين؟ تم توضيح أهم 6 عوامل

عندما كنت في Workato ، أردنا أن نتعلم قدر الإمكان عن بناء جولة تفاعلية حول المنتج. نظرًا لعدم وجود إصدار مجاني ، أراد العديد من العملاء المحتملين إلقاء نظرة وإحساس على كيفية عمل المنتج بالفعل.
ما كنا نأمل أن نتعلمه هو الذي حدد مؤشر الأداء الرئيسي لكل تجربة هنا.
في إحدى التجارب ، أردنا فقط معرفة ما إذا كان الأشخاص ، على عكس الأزرار الأساسية الأخرى للحث على اتخاذ إجراء لموقع الويب مثل "طلب العرض التوضيحي" ، مهتمين بمفهوم جولة المنتج. كان هذا نوعًا من اختبار "الباب المطلي" ، على الرغم من أننا قد أنشأنا بالفعل الحد الأدنى من جولة المنتج القابلة للتطبيق. في هذه التجربة ، قمنا فقط بتتبع نسبة النقرات على جولة المنتج واستخدمنا تجربة عدم الدونية على العملاء المحتملين (لم نرغب في إسقاطهم).
بعد ذلك ، عند تحسين الجولة نفسها ، استخدمنا مؤشر الأداء الرئيسي الكلي الرئيسي لمعدل تحويل موقع الويب (العملاء المحتملون) وقمنا بتقسيم أولئك الذين نقروا على جولة المنتج لمعرفة ما إذا كان هناك أيضًا ارتباط كبير بالإضافة إلى تحسن كبير في مؤشرات الأداء الرئيسية لدينا . "

كيف ساعدت ديبورا أو مالي في زيادة نسبة النقر إلى الظهور

غالبًا ما تكون المقاييس مدفوعة بالعميل. عادة ، يتم ربطهم بالإيرادات. ومع ذلك ، في بعض الأحيان ، يرغب العملاء فقط في زيادة المشاركة.
في هذا المثال ، أراد أحد العملاء في قطاع التعليم زيادة نسب النقر إلى الظهور (CTRs) من صفحة تشرح برنامجًا تعليميًا إلى صفحة يمكن للطلاب المحتملين معرفة المزيد عن البرنامج والتقدم إليها.
استنادًا إلى تحليل قائم على البيانات ، كانت الفرضية هي أن هناك الكثير من المعلومات المتنافسة على الصفحة ، بحيث لم يكن المستخدمون واضحين بشأن كيفية المتابعة أو مكان النقر لمعرفة المزيد.
عند تطبيق إطار العمل المكون من 5 خطوات الموضح أعلاه ، فقد تقرر أن النافذة المنبثقة المنسقة والموقوتة بشكل مثالي ، أو إشعار الشريحة ، سيعمل بشكل أفضل لإعلام الزائرين بمكان النقر لمعرفة المزيد.
لذلك ، تم إجراء سلسلة من التجارب لتحديد التنسيق والتوقيت الأمثل لإخطار منبثق. تم قياس معدلات النقر.
كما تظهر نتائج دراسة الحالة هذه (الاختبار 1 ، الاختبار 2) ، كان لتحسين موضع النافذة المنبثقة وتوقيتها تأثير إيجابي كبير على تحويلات نسبة النقر إلى الظهور.
ومع ذلك ، في حين أثبتت النتائج إيجابية ، في نهاية المطاف ، كانت الطلبات المقدمة هي المقياس الذي حرك حقًا إبرة المدرسة. لذلك ، يجب إجراء اختبارات إضافية لتحديد الطريقة المثلى لزيادة عمليات تقديم الطلبات.
التعلم الأساسي من هذا المثال هو أن العملاء غالبًا ما يكون لديهم فكرة عما يريدون تحسينه. بصفتك مجربًا ، وظيفتك هي تلبية توقعاتهم ، ولكن المضي قدمًا. زيادة نسبة النقر إلى الظهور (CTR) أمر جيد. لكن تهدف إلى زيادة التحويلات بشكل أعمق في مسار التحويل. ادفع إلى أسفل قدر المستطاع في مقاييس كسب المال في مسار التحويل النهائي ، مثل التطبيقات المكتملة أو إتمام عملية الدفع. قم بقياس الإكمالات وقياس نجاحك.

لماذا يضيف جوستين كريستيانسون نقاط البيانات الثانوية

نبني أهدافنا حول الأهداف. لا يمكنك مجرد التفكير في المبيعات والإيرادات. بشكل عام ، سيكون المقياس الأساسي لدينا هو تحويلات المبيعات و RPV ، ولكن هذا لا يرسم دائمًا الصورة الأكبر لكيفية تفاعل الزوار.
لذلك نود تعيين نقاط بيانات ثانوية مثل الإضافة إلى سلة التسوق أو نقرات العنصر أو الزيارات على صفحات معينة مثل عربة التسوق أو الخروج. تتغير الأهداف الثانوية قليلاً حسب الصفحة أو نوع الاختبار. في بعض الأحيان ، لا تكون المبيعات والإيرادات هي ما تحاول تحقيقه من حيث النتيجة.
نستخدم تجربتنا للمساعدة حقًا في فهم ما يهتم به الزائرون ، والعناصر التي لها وزن في تجربة المستخدم الإجمالية ، ثم نبني الإستراتيجية بناءً على تلك النتائج. تطرح فرضيتنا دائمًا السؤال ، لماذا أو ماذا في الموقف. يمكن أن يكون شيئًا بسيطًا مثل نقل قسم على الصفحة الرئيسية ، ثم تتمثل أهدافنا في النقر على هذا القسم والمبيعات والإيرادات والزيارات على صفحات المنتج. عندئذٍ ، ستكون كيفية تفسير البيانات هي أنه إذا أظهر الزائرون تفاعلًا أعلى عن طريق تحريك القسم ، فسيكون لهذا القسم وزنًا ، وبالتالي يفضل الزائرون هذا المسار العام. مثال على ذلك هو تقديم تفاصيل المجموعات مقابل إظهار كتل المنتجات الفعلية على صفحة لمتجر التجارة الإلكترونية.

قراءة التالي: أنت بحاجة إلى مستودع تعليمي لاختبار A / B لإجراء تجارب مستنيرة بالخبرة (يقول الخبراء)

CXO: قمة تعلم التجربة الأولى؟

معدل التحويل ليس مقياسًا للغرور. لقد أصبح مصطلحًا ضيقًا على الرغم من ذلك.
أنيكا طومسون ، مديرة خدمات العملاء في Speero

تشرح أنيكا أن المشكلة ليست أن CRO غير مهم بل أنها تأتي مع الكثير من الأمتعة. إنها مجرد لقطة في الوقت المناسب وبدون سياق ، يمكن أن تكون غير ذات صلة وخطيرة تمامًا.

من ناحية أخرى ، يركز CXO أو تحسين تجربة العملاء على التنقيب عن رؤى جودة حول تفضيلات العملاء وسلوكياتهم - تغذية كل شيء من تجارب تحطيم كتلة التحويل إلى استراتيجية عمل قوية. إنه مجرد ضجة أكبر مقابل دولارات الاختبار الخاصة بك.