كم عدد اختبارات A / B التي يجب إجراؤها في الشهر؟

نشرت: 2023-01-19

كم عدد الاختبارات أ: ب التي يجب أن تجريها لمدة شهر؟

إنه سؤال مهم يجب مراعاته لنجاح برنامج الاختبار الخاص بك.

قم بإجراء العديد من الاختبارات وقد تهدر الموارد دون الحصول على قيمة كبيرة من أي تجربة فردية.

لكن قم بإجراء عدد قليل جدًا من الاختبارات وقد تفوتك فرص تحسين مهمة يمكن أن تجلب المزيد من التحويلات.

إذن ، بالنظر إلى هذا اللغز ، ما هو اختبار إيقاع الاختبار المثالي؟

للمساعدة في الإجابة عن هذا السؤال ، من المفيد البحث في بعض أكثر فرق التجارب نجاحًا وتقدمًا في العالم.

أمازون هو أحد الأسماء التي تتبادر إلى الذهن.

عملاق التجارة الإلكترونية هو أيضًا أحد عمالقة التجارب. في الواقع ، يُقال إن أمازون تجري أكثر من 12000 تجربة سنويًا! ينقسم هذا المبلغ إلى حوالي ألف تجربة شهريًا.

يقال إن شركات مثل Google و Microsoft Bing تحافظ على وتيرة مماثلة.

وفقًا لـ Wikipedia ، يقوم كل من عمالقة محرك البحث بإجراء أكثر من 10000 اختبار A / B سنويًا أو حوالي 800 اختبار شهريًا.

ولا يقتصر الأمر على محركات البحث التي تعمل بهذا المعدل.

Booking.com هو اسم بارز آخر في التجربة. يُذكر أن موقع حجز السفر يجري أكثر من 25000 اختبار سنويًا أي ما يزيد عن ألفي اختبار شهريًا أو 70 اختبارًا في اليوم!

ومع ذلك ، تظهر الدراسات أن الشركة المتوسطة تجري 2-3 اختبارات فقط في الشهر.

لذا ، إذا قامت معظم الشركات بإجراء عدد قليل من الاختبارات شهريًا ، ولكن بعضًا من أفضل الشركات في العالم تجري آلاف التجارب شهريًا ، فكم عدد الاختبارات التي يجب أن تجريها بشكل مثالي؟

في أسلوب CRO الحقيقي ، الجواب هو: هذا يتوقف.

على ماذا تعتمد؟ هناك عدد من العوامل المهمة التي تحتاج إلى أخذها في الاعتبار.

يتم تحديد العدد المثالي لاختبارات A / B للتشغيل من خلال الوضع المحدد وعوامل مثل حجم العينة وتعقيد اختبار الأفكار والموارد المتاحة.

العوامل الستة التي يجب مراعاتها عند إجراء اختبارات A / B

هناك 6 عوامل أساسية يجب مراعاتها عند تحديد عدد الاختبارات التي يجب إجراؤها في الشهر. يشملوا

متطلبات حجم العينة
النضج التنظيمي
الموارد المتاحة
تعقيد أفكار الاختبار
اختبار الجداول الزمنية
آثار التفاعل

دعونا نتعمق في كل منها.

متطلبات حجم العينة

في اختبار A / B ، يصف حجم العينة مقدار حركة المرور التي تحتاجها لإجراء اختبار جدير بالثقة.

لإجراء دراسة صالحة إحصائيًا ، تحتاج إلى عينة تمثيلية كبيرة من المستخدمين.

بينما ، من الناحية النظرية ، يمكنك إجراء تجربة مع عدد قليل من المستخدمين ، فلن تسفر عن نتائج ذات مغزى.

لا تزال أحجام العينات المنخفضة تعطي نتائج ذات دلالة إحصائية

على سبيل المثال ، تخيل اختبار A / B حيث رأى 10 مستخدمين فقط أن الإصدار A و 2 قد تم تحويلهما. وشاهد 8 مستخدمين فقط الإصدار B مع 6 الذين قاموا بالتحويل.

كما يوضح هذا الرسم البياني ، فإن النتائج ذات دلالة إحصائية:

يبدو أن الإصدار B يتفوق في الأداء بنسبة 275٪. لكن هذه النتائج ليست جديرة بالثقة. حجم العينة منخفض جدًا لتقديم نتائج ذات مغزى.

الدراسة ضعيفة. لا يحتوي على عينة تمثيلية كبيرة من المستخدمين.

نظرًا لضعف الاختبار ، تكون النتائج عرضة للخطأ. وليس من الواضح ما إذا كانت النتيجة قد حدثت فقط عن طريق الصدفة العشوائية أو ما إذا كانت نسخة واحدة متفوقة حقًا.

باستخدام هذه العينة الصغيرة ، من السهل استخلاص استنتاجات غير صحيحة.

اختبارات تعمل بالطاقة بشكل صحيح

للتغلب على هذا المأزق ، يجب أن تدعم اختبارات A / B بشكل كافٍ عينة كبيرة تمثيلية من المستخدمين.

ما هو الحجم الكبير بما يكفي؟

يمكن الإجابة على هذا السؤال عن طريق إجراء بعض الحسابات البسيطة لحجم العينة.

لحساب متطلبات حجم العينة الخاصة بك بسهولة ، أقترح استخدام حاسبة حجم العينة. هناك الكثير منهم الى هناك.

المفضل لدي هو Evan Miller لأنه مرن وشامل. بالإضافة إلى ذلك ، إذا تمكنت من فهم كيفية استخدامها ، فيمكنك فهم أي آلة حاسبة تقريبًا.

إليك ما تبدو عليه آلة حاسبة إيفان ميلر:

في حين أن الحسابات نفسها بسيطة إلى حد ما ، فإن فهم المصطلحات التي تقف وراءها ليس كذلك. لذلك حاولت توضيح المعقد:

معدل التحويل الأساسي

معدل التحويل الأساسي هو معدل التحويل الحالي للنسخة الضابطة أو الأصلية. عادة ما يسمى "الإصدار أ" عند إعداد اختبار أ / ب.

يجب أن تكون قادرًا على العثور على معدل التحويل هذا داخل منصة التحليلات الخاصة بك.

إذا لم تقم مطلقًا بإجراء اختبار A / B ، أو لا تعرف معدل التحويل الأساسي ، فاحرص على أفضل تخمين متعلم.

يتراوح متوسط معدل التحويل عبر معظم المواقع وقطاعات الصناعة وأنواع الأجهزة بين 2 و 5٪. لذا ، إذا لم تكن متأكدًا حقًا من معدل التحويل الأساسي الخاص بك ، فعليك توخي الحذر والبدء بنسبة 2٪.

كلما انخفض معدل التحويل الأساسي ، زاد حجم العينة الذي ستحتاج إليه. والعكس صحيح.

الحد الأدنى من التأثير القابل للكشف (MDE)

يبدو الحد الأدنى من التأثير القابل للاكتشاف (MDE) كمفهوم معقد. لكن يصبح من السهل فهمه إذا قسمت المصطلح إلى أجزائه الثلاثة:

الصغرى = الأصغر
قابل للاكتشاف = الرغبة التي تحاول اكتشافها أو العثور عليها من خلال تشغيل التجربة
التأثير = فرق التحويل بين الضبط والمعالجة

لذلك ، فإن الحد الأدنى من التأثير القابل للاكتشاف هو أصغر زيادة في التحويل تأمل في اكتشافها من خلال إجراء الاختبار.

سوف يجادل بعض أخصائيو البيانات أن هذا التعريف يصف في الواقع الحد الأدنى من تأثير الفائدة (MEI). مهما كان ما تريد تسميته ، فإن الهدف هو توقع حجم تحسين التحويل الذي تتوقع الحصول عليه من خلال إجراء الاختبار.

على الرغم من أن هذا التمرين قد يبدو مضارباً للغاية ، إلا أنه يمكنك استخدام آلة حاسبة لحجم العينة مثل هذه أو الآلة الحاسبة الإحصائية لاختبار A / B الخاصة بـ Convert لحساب MDE المتوقع.

كقاعدة عامة جدًا ، تعتبر نسبة 2-5٪ MDE معقولة. عادةً ما يكون أي شيء أعلى من ذلك غير واقعي عند إجراء اختبار يعمل بالطاقة بشكل صحيح.

كلما كان MDE أصغر ، زاد حجم العينة المطلوب. والعكس صحيح.

يمكن التعبير عن MDE كمبلغ مطلق أو نسبي.

مطلق

MDE المطلق هو فرق الرقم الأولي بين معدل تحويل عنصر التحكم والمتغير.

على سبيل المثال ، إذا كان معدل التحويل الأساسي هو 2.77٪ وكنت تتوقع أن يحقق المتغير + 3٪ MDE مطلق ، فإن الفرق المطلق هو 5.77٪.

نسبيا

في المقابل ، يعبر التأثير النسبي عن الفرق بالنسبة المئوية بين المتغيرات.

على سبيل المثال ، إذا كان معدل التحويل الأساسي هو 2.77٪ وكنت تتوقع أن يحقق المتغير نسبة + 3٪ MDE نسبيًا ، فإن الاختلاف النسبي هو 2.89٪.

بشكل عام ، يستخدم معظم المجربين ارتفاعًا نسبيًا بالنسبة المئوية ، لذلك ، عادةً ، من الأفضل تمثيل النتائج بهذه الطريقة.

القدرة الإحصائية 1 β

تشير القوة إلى احتمال العثور على تأثير ، أو اختلاف التحويل ، بافتراض وجود أحدهما بالفعل.

في الاختبار ، هدفك هو التأكد من أن لديك ما يكفي من القوة لاكتشاف الفرق بشكل هادف ، إن وجد ، دون أخطاء. لذلك ، فإن القوة الأعلى هي الأفضل دائمًا. لكن المفاضلة هي أنها تتطلب حجم عينة أكبر.

تعتبر القوة البالغة 0.80 من أفضل الممارسات القياسية. لذلك ، يمكنك تركه كنطاق افتراضي في هذه الآلة الحاسبة.

هذا المبلغ يعني أن هناك فرصة بنسبة 80٪ ، إذا كان هناك تأثير ، فسوف تكتشفه بدقة دون أخطاء. على هذا النحو ، هناك فرصة بنسبة 20٪ فقط أن تفوتك اكتشاف التأثير بشكل صحيح. مخاطرة تستحق المخاطرة.

مستوى الأهمية α

كتعريف بسيط للغاية ، مستوى الأهمية ألفا هو المعدل الإيجابي الخاطئ ، أو النسبة المئوية للوقت الذي سيتم فيه اكتشاف فرق التحويل - على الرغم من عدم وجود واحد بالفعل.

كأفضل ممارسة لاختبار A / B ، يجب أن يكون مستوى الأهمية لديك 5٪ أو أقل. لذا يمكنك تركها كخيار افتراضي في هذه الآلة الحاسبة.

يعني مستوى الأهمية α بنسبة 5٪ أن هناك فرصة بنسبة 5٪ لأن تجد فرقًا بين عنصر التحكم والمتغير - في حالة عدم وجود اختلاف فعليًا.

مرة أخرى ، مخاطرة جديرة بالاهتمام.

تقييم متطلبات حجم العينة الخاصة بك

من خلال توصيل هذه الأرقام بالآلة الحاسبة ، يمكنك الآن التأكد من أن موقعك يحتوي على عدد كافٍ من الزيارات لإجراء اختبار يعمل بالطاقة بشكل صحيح خلال فترة اختبار قياسية من 2 إلى 6 أسابيع.

للتحقق ، انتقل إلى نظام التحليلات المفضل لديك وانظر إلى متوسط معدل حركة المرور التاريخي للموقع ، أو الصفحة التي تريد اختبارها ، خلال فترة زمنية محدودة.

على سبيل المثال ، في حساب Google Analytics 4 (GA4) هذا ، بالانتقال إلى دورة الحياة> الاكتساب> علامة التبويب نظرة عامة على الاكتساب ، يمكنك أن ترى أنه كان هناك 365 ألف مستخدم في الفترة الزمنية التاريخية الأخيرة بين أكتوبر ونوفمبر 2022:

عدد GA4 لبُعد المستخدمين — *تم استخدام هذا النطاق الزمني لتجنب التغييرات في حركة المرور الموسمية خلال فترة العطلة.*

استنادًا إلى معدل التحويل الأساسي الحالي بنسبة 3.5٪ ، مع MDE نسبيًا بنسبة 5٪ ، وبطاقة قياسية تبلغ 80٪ ومستوى أهمية قياسي يبلغ 5٪ ، تُظهر الآلة الحاسبة حجم عينة من 174،369 زائرًا لكل متغير مطلوب لتشغيل - اختبار A / B بالطاقة:

إيفان ميلر مثال على آلة حاسبة لحجم العينة

بافتراض ثبات اتجاهات حركة المرور نسبيًا للأشهر القادمة ، فمن المعقول أن نتوقع أن يحقق الموقع حوالي 365 ألف مستخدم أو (365 ألفًا / 2 متغيرًا) 182 ألف زائر لكل متغير خلال إطار زمني معقول للاختبار.

يمكن تحقيق متطلبات حجم العينة ، مما يمنح الضوء الأخضر للمضي قدمًا وإجراء الاختبار.

ملاحظة مهمة ، يجب إجراء تمرين التحقق من متطلبات حجم العينة هذا دائمًا قبل إجراء أي دراسة حتى تعرف ما إذا كان لديك عدد كافٍ من الزيارات لإجراء اختبار يعمل بالطاقة بشكل صحيح.

بالإضافة إلى ذلك ، عند إجراء الاختبار ، لا يجب عليك أبدًا إيقاف اختبارك قبل الوصول إلى متطلبات حجم العينة المحسوبة مسبقًا - حتى لو ظهرت النتائج مهمة في وقت أقرب.

إن إعلان الفائز أو الخاسر قبل الأوان قبل تلبية متطلبات حجم العينة هو ما يُعرف باسم "النظرة الخاطفة" وهو ممارسة اختبار خطيرة يمكن أن تقودك إلى إجراء مكالمات غير صحيحة قبل مسح النتائج بالكامل.

كم عدد الاختبارات التي يمكنك إجراؤها إذا كان لديك حركة مرور كافية؟

بافتراض أن الموقع أو الصفحة (الصفحات) التي تريد اختبارها تفي بمتطلبات حجم العينة ، كم عدد الاختبارات التي يمكنك إجراؤها؟

الجواب ، مرة أخرى ، يعتمد.

وفقًا للعرض التقديمي الذي شاركه روني كوخافي ، نائب الرئيس السابق للتجارب في شركة Microsoft Bing ، تجري Microsoft عادةً أكثر من 300 تجربة يوميًا.

لكن لديهم حركة المرور للقيام بذلك.

ترى كل تجربة أكثر من 100 ألف مستخدم:

كلما زادت حركة المرور المتاحة لديك ، زادت الاختبارات التي يمكنك إجراؤها.

مع أي اختبار ، تحتاج إلى التأكد من أن لديك حجم عينة كبير بما يكفي لإجراء تجربة تعمل بالطاقة بشكل صحيح.

إذا كنت تمثل مؤسسة أصغر ذات حركة مرور محدودة ، ففكر في عدد أقل من اختبارات الجودة الأعلى.

في نهاية اليوم ، لا يتعلق الأمر حقًا بعدد الاختبارات التي تجريها ، ولكن نتيجة تجاربك.

خيارات إذا لم تتمكن من تلبية متطلبات حجم العينة

إذا اكتشفت أنك لا تستطيع تلبية متطلبات حجم العينة ، فلا تقلق. التجريب ليس خارج الطاولة بالنسبة لك. لديك عدد قليل من خيارات التجريب المحتملة المتاحة:

ركز على اكتساب حركة المرور

حتى المواقع الكبيرة يمكن أن يكون لها حركة مرور منخفضة على صفحات معينة.

إذا وجدت أن زيارات الموقع ، أو الزيارات على صفحات معينة ، لا تفي بمتطلبات حجم العينة ، ففكر في تركيز الجهود على اكتساب المزيد من الزيارات.

للقيام بذلك ، يمكنك تنفيذ تكتيكات تحسين محركات البحث (SEO) القوية للحصول على مرتبة أعلى في محركات البحث وكسب المزيد من النقرات.

يمكنك أيضًا الحصول على زيارات مدفوعة من خلال قنوات مثل إعلانات Google أو إعلانات LinkedIn أو حتى إعلانات البانر.

يمكن أن يساعد كل من نشاطي الاكتساب هذين في تعزيز حركة مرور الويب ويمنحك قدرة أقوى على اختبار ما يتم تحويله بشكل أفضل مع المستخدمين.

ومع ذلك ، إذا كنت تستخدم زيارات مدفوعة للوفاء بمتطلبات حجم العينة ، ففكر في تقسيم نتائج الاختبار حسب نوع الزيارات حيث يمكن أن يختلف سلوك الزائر حسب مصدر الزيارات.

قم بتقييم ما إذا كان اختبار A / B هو أفضل طريقة للتجربة بالنسبة لك

في حين أن اختبار A / B يعتبر المعيار الذهبي للتجربة ، فإن النتائج تكون جيدة فقط مثل البيانات التي تقف وراءها.

إذا وجدت أنه ليس لديك عدد كافٍ من الزيارات لإجراء اختبار يعمل بالطاقة بشكل صحيح ، فقد ترغب في التفكير فيما إذا كان اختبار A / B هو بالفعل أفضل خيار تجريبي بالنسبة لك.

هناك مناهج أخرى قائمة على الأبحاث تتطلب عينات أصغر بكثير ويمكن أن تسفر عن رؤى تحسين قيمة بشكل لا يصدق.

يعد اختبار تجربة المستخدم (UX) ، أو استطلاعات الرأي للمستهلكين ، أو استطلاعات الرأي عند الخروج ، أو مقابلات العملاء عددًا قليلاً من طرق التجريب الأخرى التي يمكنك تجربتها كبديل لاختبار A / B.

قد توفر النتائج المحققة بيانات اتجاهية فقط

ولكن إذا بقيت عازمًا على اختبار A / B ، فلا يزال بإمكانك إجراء الاختبارات.

فقط أدرك أن النتائج قد لا تكون دقيقة تمامًا وستقدم فقط "بيانات اتجاهية" تشير إلى النتيجة المحتملة - وليست موثوقة تمامًا -.

نظرًا لأن النتائج قد لا تكون صحيحة تمامًا ، فستحتاج إلى مراقبة تأثير التحويل عن كثب بمرور الوقت.

ومع ذلك ، غالبًا ما تكون أكثر أهمية من أرقام التحويل الدقيقة هي الأرقام الموجودة في الحساب المصرفي. إذا كانوا في طريقهم للأعلى ، فأنت تعلم أن عمل التحسين الذي تقوم به يعمل.

نضج الاختبار

بالإضافة إلى متطلبات حجم العينة ، هناك عامل آخر يؤثر على إيقاع الاختبار وهو مستوى نضج مؤسسة الاختبار.

اختبار النضج هو مصطلح يستخدم لوصف مدى تجذر التجريب داخل الثقافة التنظيمية ومدى تقدم ممارسات التجريب.

منظمات مثل Amazon و Google و Bing و Booking - التي تجري آلاف الاختبارات شهريًا - لديها فرق اختبار تقدمية وناضجة.

هذا ليس من قبيل الصدفة.

يميل اختبار الإيقاع إلى الارتباط الوثيق بمستوى نضج المؤسسة.

إذا كان التجريب راسخًا داخل المنظمة ، فإن الإدارة ملتزمة به. بالإضافة إلى ذلك ، يتم عادةً تشجيع الموظفين في جميع أنحاء المؤسسة على دعم التجريب وتحديد أولوياته ، وقد يساعدون أيضًا في تقديم أفكار للاختبار.

عندما تجتمع هذه العوامل معًا ، يكون من الأسهل بكثير تشغيل برنامج اختبار مناسب.

إذا كنت تأمل في زيادة الاختبارات ، فقد يكون من المفيد أن تنظر أولاً إلى مستوى نضج مؤسستك.

ابدأ بتقييم أسئلة مثل

ما مدى أهمية التجريب في C-Suite؟
ما هي الموارد التي يتم توفيرها لتعزيز التجريب؟
ما هي قنوات الاتصال المتاحة للتواصل بشأن تحديثات الاختبار؟

إذا كانت الإجابة "لا شيء" أو قريبة منها ، ففكر في العمل أولاً على إنشاء ثقافة اختبار.

نظرًا لأن مؤسستك تتبنى ثقافة تجريب أكثر تقدمًا ، سيكون من الأسهل بطبيعة الحال زيادة إيقاع الاختبار.

للحصول على اقتراحات حول كيفية إنشاء ثقافة التجريب ، تحقق من الموارد مثل هذه المقالة وهذه المقالة.

قيود المصادر

بافتراض أن لديك بالفعل درجة معينة من التأييد التنظيمي ، فإن المشكلة التالية التي يجب مكافحتها هي قيود الموارد.

الوقت والمال والقوة البشرية كلها قيود قد تحد من قدرتك على الاختبار. واختبر بسرعة.

للتغلب على قيود الموارد ، قد يكون من المفيد البدء بتقييم مدى تعقيد الاختبار.

موازنة الاختبارات البسيطة والمعقدة

باعتبارك مجربًا ، يمكنك اختيار إجراء اختبارات تتراوح من معقدة للغاية إلى معقدة للغاية.

قد تتضمن الاختبارات البسيطة تحسين عناصر مثل النسخ أو اللون أو تحديث الصور أو التنقل حول عناصر مفردة على الصفحة.

قد تتضمن الاختبارات المعقدة تغيير عدة عناصر أو تغيير بنية الصفحة أو تحديث مسار التحويل. غالبًا ما تتطلب هذه الأنواع من الاختبارات عمل تشفير عميق.

من خلال إجراء الآلاف من اختبارات A / B ، وجدت أنه من المفيد أن يكون لديك مزيج من حوالي اختبارات أبسط وأكثر تعقيدًا تعمل بشكل متزامن في جميع الأوقات.

يمكن أن تمنحك الاختبارات الأكثر بساطة انتصارات سريعة وسهلة.

لكن الاختبارات الأكبر ، مع التغييرات الأكبر ، غالبًا ما تسفر عن تأثيرات أكبر. في الواقع ، وفقًا لبعض أبحاث التحسين ، كلما أجريت اختبارات أكثر تعقيدًا ، زاد احتمال نجاحك. لذلك لا تخف من إجراء اختبارات التأرجح الكبيرة في كثير من الأحيان.

فقط كن على علم ، المفاضلة هي أنك ستنفق المزيد من الموارد في تصميم وبناء الاختبار. وليس هناك ما يضمن فوزه.

اختبار على أساس الموارد البشرية المتاحة

إذا كنت استراتيجيًا منفردًا لـ CRO ، أو تعمل مع فريق صغير ، فإن قدرتك محدودة. سواء كانت بسيطة أو معقدة ، قد تجد من 2 إلى 5 اختبارات في الشهر.

في المقابل ، إذا كنت تعمل مع مؤسسة لديها فريق متخصص من الباحثين والاستراتيجيين والمصممين والمطورين والمتخصصين في ضمان الجودة ، فمن المحتمل أن يكون لديك القدرة على إجراء عشرات إلى مئات الاختبارات شهريًا.

لتحديد عدد الاختبارات التي يجب عليك إجراؤها ، قم بتقييم مدى توفر الموارد البشرية لديك.

في المتوسط ، قد يستغرق الاختبار البسيط من 3 إلى 6 ساعات لتحديد النتائج وإطارها الشبكي وتصميمها وتطويرها وتنفيذها وضمان الجودة ومراقبتها.

من ناحية أخرى ، قد يستغرق الاختبار شديد التعقيد 15-20 ساعة.

هناك حوالي 730 ساعة في الشهر ، لذا فأنت تريد أن تحسب جيدًا بشأن الاختبارات وعدد الاختبارات التي تجريها خلال هذا الوقت الثمين.

تخطيط وتحديد أولويات أفكار الاختبار الخاصة بك

لمساعدتك في تحديد هيكل الاختبار الأمثل لديك ، فكر في استخدام إطار عمل لتحديد أولويات الاختبار ، مثل PIE أو ICE أو PXL.

توفر هذه الأطر تقنية كمية لتصنيف أفضل أفكار الاختبار الخاصة بك ، وتقييم سهولة التنفيذ ، وتقييم الاختبارات التي من المرجح أن تزيد التحويلات.

عند إجراء هذا التقييم ، ستبدو قائمة أفكار الاختبار ذات الأولوية كما يلي:

مع تصنيف أفضل أفكار الاختبار الخاصة بك ، يوصى أيضًا بإنشاء خارطة طريق اختبارية للتخطيط البصري للجدول الزمني للاختبار والخطوات التالية.

قد تبدو خارطة الطريق الخاصة بك كما يلي:

يجب أن تشمل:

قائمة الأفكار التي تخطط لاختبارها ، حسب الصفحة.
كم من الوقت تتوقع أن تستغرق كل مرحلة اختبار (التصميم ، التطوير ، ضمان الجودة ، إلخ).
كم من الوقت تخطط لتشغيل كل اختبار ، بناءً على متطلبات حجم العينة المحسوبة مسبقًا. يمكنك حساب متطلبات مدة الاختبار باستخدام حاسبة مدة الاختبار مثل هذه.

من خلال تخطيط أفكار الاختبار الخاصة بك ، ستتمكن من تحديد إيقاع الاختبار وقدرته بشكل أكثر دقة.

أثناء قيامك بتعبئة خارطة طريق الاختبار الخاصة بك ، قد يصبح من الواضح جدًا أن عدد الاختبارات التي يمكنك إجراؤها يعتمد على الموارد المتاحة لديك.

هل يجب عليك إجراء اختبارات متعددة في وقت واحد؟

لكن لمجرد أنك تستطيع فعل شيء ما ، لا يعني ذلك دائمًا أنه يجب عليك ذلك.

عندما يتعلق الأمر بإجراء اختبارات متعددة في وقت واحد ، فهناك جدل كبير حول أفضل نهج.

تطرح المقالات ، مثل هذه ، بقلم قائد التجربة الأمة ، روميل سانتياغو ، سؤالًا مثيرًا للجدل: هل من المقبول إجراء اختبارات A / B متعددة في وقت واحد؟

سيقول بعض المجربين ، لا على الإطلاق!

سوف يجادلون بأنه يجب عليك إجراء اختبار واحد فقط ، صفحة واحدة في كل مرة. وإلا فلن تتمكن من عزل أي تأثير بشكل صحيح.

اعتدت أن أكون في هذا المعسكر لأن هذه هي الطريقة التي علمت بها منذ ما يقرب من عقد من الزمان.

لقد تم إخباري بشكل صارم أنه يجب عليك إجراء اختبار واحد فقط ، مع تغيير واحد ، على صفحة واحدة ، في وقت واحد. لقد عملت بهذه العقلية لسنوات عديدة - مما أثار استياء العملاء القلقين الذين أرادوا المزيد من النتائج بشكل أسرع.

ومع ذلك ، فإن هذه المقالة التي كتبها تيموثي تشان ، عالم البيانات السابق في Facebook والآن عالم البيانات الرئيسي في Statsig ، غيرت رأيي تمامًا.

يجادل شان في مقالته أن تأثيرات التفاعل مبالغ فيها.

في الواقع ، لا يعد إجراء اختبارات متعددة بشكل متزامن مجرد مشكلة ؛ إنها حقًا الطريقة الوحيدة للاختبار!

هذا الموقف مدعوم ببيانات من وقته في Facebook حيث رأى تشان عملاق وسائل التواصل الاجتماعي يجري بنجاح مئات التجارب في وقت واحد ، والعديد منها حتى على نفس الصفحة.

يتفق خبراء البيانات مثل Ronny Kohavi و Hazjier Pourkhalkhali على أن تأثيرات التفاعل غير مرجحة إلى حد كبير. وفي الواقع ، فإن أفضل طريقة لاختبار النجاح هي إجراء اختبارات متعددة في عدة مرات ، على أساس مستمر.

لذلك ، عند التفكير في اختبار الإيقاع ، لا تقلق بشأن تأثير التفاعل للاختبارات المتداخلة. اختبر بحرية.

ملخص

في اختبار A / B ، لا يوجد العدد الأمثل لاختبارات A / B التي يجب عليك إجراؤها.

الرقم المثالي هو ما يناسب وضعك الفريد.

يعتمد هذا الرقم على عدة عوامل ، بما في ذلك قيود حجم عينة موقعك ، وتعقيد اختبار الأفكار ، والدعم والموارد المتاحة.

في النهاية ، لا يتعلق الأمر بعدد الاختبارات التي تجريها ، بل يتعلق بجودة الاختبارات والنتائج التي تحصل عليها. يعتبر الاختبار الفردي الذي يجلب رفعًا كبيرًا قيمة أكبر بكثير من العديد من الاختبارات غير الحاسمة التي لا تحرك الإبرة.

الاختبار حقًا يتعلق بالجودة أكثر من الكمية!

لمزيد من المعلومات حول كيفية الحصول على أقصى قيمة من برنامج اختبار A / B الخاص بك ، راجع مقالة التحويل هذه.