Berapa Banyak Pengujian A/B yang Harus Anda Jalankan dalam Sebulan?
Diterbitkan: 2023-01-19
Ini adalah pertanyaan penting untuk dipertimbangkan demi keberhasilan program pengujian Anda.
Jalankan terlalu banyak pengujian dan Anda dapat menghabiskan sumber daya tanpa mendapatkan banyak nilai dari setiap eksperimen.
Namun, jalankan terlalu sedikit pengujian dan Anda mungkin kehilangan peluang pengoptimalan penting yang dapat menghasilkan lebih banyak konversi.
Jadi, mengingat teka-teki ini, apa irama pengujian yang ideal?
Untuk membantu menjawab pertanyaan itu, membuat $en$e untuk melihat beberapa tim eksperimen paling sukses dan progresif di dunia.
Amazon adalah salah satu nama yang muncul di benak Anda.
Raksasa eCommerce juga merupakan raksasa eksperimen. Faktanya, Amazon dikatakan menjalankan lebih dari 12.000 percobaan setahun! Jumlah ini terurai menjadi sekitar seribu percobaan sebulan.
Perusahaan seperti Google dan Microsoft Bing dikatakan memiliki kecepatan yang sama.
Menurut Wikipedia, raksasa mesin pencari masing-masing menjalankan lebih dari 10.000 tes A/B setahun atau sekitar 800 tes sebulan.
Dan bukan hanya mesin pencari yang berjalan pada kecepatan ini.
Booking.com adalah nama terkenal lainnya dalam eksperimen. Situs pemesanan perjalanan dilaporkan menjalankan lebih dari 25.000 tes setahun yang berjumlah lebih dari 2 ribu tes sebulan atau 70 tes sehari!
Namun, studi menunjukkan, rata-rata perusahaan hanya menjalankan 2-3 tes sebulan.
Jadi, jika sebagian besar perusahaan hanya menjalankan beberapa pengujian dalam sebulan, tetapi beberapa perusahaan terbaik di dunia menjalankan ribuan eksperimen dalam sebulan, idealnya, berapa banyak pengujian yang harus Anda lakukan?
Dalam gaya CRO sejati, jawabannya adalah: tergantung.
Tergantung pada apa? Sejumlah faktor penting yang perlu Anda pertimbangkan.
Jumlah ideal pengujian A/B untuk dijalankan ditentukan oleh situasi dan faktor tertentu seperti ukuran sampel, kerumitan ide pengujian, dan sumber daya yang tersedia.
6 Faktor yang Perlu Dipertimbangkan saat Menjalankan Pengujian A/B
Ada 6 faktor penting yang perlu dipertimbangkan saat memutuskan berapa banyak pengujian yang akan dijalankan dalam sebulan. Mereka termasuk
- Persyaratan ukuran sampel
- Kematangan organisasi
- Sumber daya yang tersedia
- Kompleksitas ide pengujian
- Garis waktu pengujian
- Efek interaksi
Mari selami masing-masing.
Persyaratan Ukuran Sampel
Dalam pengujian A/B, ukuran sampel menjelaskan jumlah lalu lintas yang Anda perlukan untuk menjalankan pengujian tepercaya.
Untuk menjalankan studi yang valid secara statistik, Anda memerlukan sampel pengguna yang besar dan representatif.
Meskipun, secara teori, Anda dapat menjalankan eksperimen hanya dengan beberapa pengguna, Anda tidak akan memberikan hasil yang berarti.
Ukuran Sampel yang Rendah Masih Dapat Menghasilkan Hasil yang Signifikan Secara Statistik
Misalnya, bayangkan pengujian A/B di mana hanya 10 pengguna yang melihat versi A dan 2 dikonversi. Dan hanya 8 pengguna yang melihat versi B dengan 6 yang mengonversi.
Seperti yang ditunjukkan bagan ini, hasilnya signifikan secara statistik:

Versi B tampaknya mengungguli 275%. Tapi, temuan ini tidak terlalu bisa dipercaya. Ukuran sampel terlalu kecil untuk memberikan hasil yang berarti.
Studi ini kurang bertenaga. Itu tidak berisi sampel pengguna yang besar dan representatif.
Karena tes ini kurang bertenaga, hasilnya rentan terhadap kesalahan. Dan tidak jelas apakah hasilnya terjadi secara kebetulan atau jika satu versi benar-benar lebih unggul.
Dengan sampel kecil ini, mudah untuk menarik kesimpulan yang salah.
Tes Bertenaga Benar
Untuk mengatasi jebakan ini, pengujian A/B perlu didukung secara memadai dengan sampel pengguna yang besar dan representatif.
Seberapa besar cukup besar?
Pertanyaan ini dapat dijawab dengan melakukan beberapa perhitungan ukuran sampel sederhana.
Untuk menghitung persyaratan ukuran sampel Anda dengan paling mudah, saya sarankan menggunakan kalkulator ukuran sampel. Ada banyak dari mereka di luar sana.
Favorit saya adalah Evan Miller karena fleksibel dan menyeluruh. Plus, jika Anda dapat memahami cara menggunakannya, Anda dapat memahami hampir semua kalkulator di luar sana.
Inilah tampilan kalkulator Evan Miller:

Meskipun perhitungannya sendiri cukup sederhana, memahami terminologi di baliknya tidaklah demikian. Jadi saya sudah berusaha untuk mengklarifikasi kompleks:
Rasio Konversi Dasar
Tingkat konversi dasar adalah tingkat konversi yang ada dari kontrol atau versi asli. Biasanya diberi label "versi A" saat menyiapkan pengujian A/B.
Anda harus dapat menemukan tingkat konversi ini dalam platform analitik Anda.
Jika Anda belum pernah menjalankan pengujian A/B, atau tidak mengetahui rasio konversi dasar, buat tebakan terbaik Anda.
Rasio konversi rata-rata, di sebagian besar situs, vertikal industri, dan jenis perangkat, adalah antara 2 dan 5%. Jadi, jika Anda benar-benar tidak yakin dengan tingkat konversi garis dasar Anda, berhati-hatilah dan mulailah dengan garis dasar 2%.
Semakin rendah rasio konversi dasar, semakin besar ukuran sampel yang Anda perlukan. Dan sebaliknya.
Efek Terdeteksi Minimum (MDE)
Minimum Detectable Effect (MDE) terdengar seperti konsep yang rumit. Tetapi akan lebih mudah dipahami jika Anda memecah istilah tersebut menjadi tiga bagian:
- Minimal = terkecil
- Terdeteksi = ingin Anda mencoba mendeteksi, atau menemukan, dengan menjalankan percobaan
- Efek = selisih konversi antara kontrol dan perlakuan
Oleh karena itu, Efek Minimum yang Dapat Dideteksi adalah peningkatan konversi terkecil yang ingin Anda deteksi dengan menjalankan pengujian.
Beberapa ahli data berpendapat bahwa definisi ini benar-benar menggambarkan Efek Minat Minimum (MEI). Bagaimanapun Anda ingin menyebutnya, tujuannya adalah untuk mengantisipasi seberapa besar peningkatan konversi yang Anda harapkan dengan menjalankan pengujian.
Meskipun latihan ini terasa sangat spekulatif, Anda dapat menggunakan kalkulator ukuran sampel seperti ini atau kalkulator statistik uji A/B Convert untuk menghitung MDE yang diantisipasi.
Sebagai aturan praktis yang sangat umum, MDE 2-5% dianggap masuk akal. Apa pun yang jauh lebih tinggi biasanya tidak realistis saat menjalankan tes yang benar-benar bertenaga.
Semakin kecil MDE, semakin besar ukuran sampel yang dibutuhkan. Dan sebaliknya.
MDE dapat dinyatakan sebagai jumlah absolut atau relatif.
Mutlak
MDE absolut adalah selisih angka mentah antara rasio konversi kontrol dan varian.
Misalnya, jika rasio konversi dasar adalah 2,77% dan Anda mengharapkan varian mencapai MDE absolut +3%, selisih absolutnya adalah 5,77%.
Relatif
Sebaliknya, efek relatif mengungkapkan perbedaan persentase antara varian.
Misalnya, jika rasio konversi dasar adalah 2,77% dan Anda mengharapkan varian mencapai MDE relatif +3%, perbedaan relatifnya adalah 2,89%.
Secara umum, sebagian besar pelaku eksperimen menggunakan peningkatan persentase relatif, jadi, biasanya, sebaiknya merepresentasikan hasil dengan cara ini.
Kekuatan statistik 1−β
Kekuasaan mengacu pada kemungkinan untuk menemukan efek, atau perbedaan konversi, dengan asumsi efek tersebut benar-benar ada.
Dalam pengujian, tujuan Anda adalah untuk memastikan Anda memiliki kekuatan yang cukup untuk mendeteksi perbedaan secara bermakna, jika ada, tanpa kesalahan. Oleh karena itu, kekuatan yang lebih tinggi selalu lebih baik. Tapi untungnya, ini membutuhkan ukuran sampel yang lebih besar.
Kekuatan 0,80 dianggap praktik terbaik standar. Jadi, Anda dapat membiarkannya sebagai rentang default pada kalkulator ini.
Jumlah ini berarti ada kemungkinan 80%, jika ada efek, Anda akan mendeteksinya secara akurat tanpa kesalahan. Dengan demikian, hanya ada 20% kemungkinan Anda akan melewatkan mendeteksi efeknya dengan benar. Risiko yang layak diambil.
Tingkat Signifikansi α
Sebagai definisi yang sangat sederhana, tingkat signifikansi alfa adalah tingkat positif palsu, atau persentase waktu perbedaan konversi akan terdeteksi — meskipun sebenarnya tidak ada.
Sebagai praktik terbaik pengujian A/B, tingkat signifikansi Anda harus 5% atau lebih rendah. Jadi Anda bisa membiarkannya sebagai default pada kalkulator ini.
Tingkat signifikansi α 5% berarti ada 5% kemungkinan Anda akan menemukan perbedaan antara kontrol dan varian — bila sebenarnya tidak ada perbedaan.
Sekali lagi, risiko yang layak diambil.
Menilai Persyaratan Ukuran Sampel Anda
Dengan angka-angka ini dicolokkan ke kalkulator Anda, Anda sekarang dapat memastikan situs Anda memiliki cukup lalu lintas untuk menjalankan pengujian yang didukung dengan benar selama periode waktu pengujian standar 2 hingga 6 minggu.
Untuk memverifikasi, masuk ke platform analitik pilihan Anda dan lihat tingkat lalu lintas rata-rata historis dari situs, atau halaman yang ingin Anda uji, selama periode tertentu.
Misalnya, di akun Google Analytics 4 (GA4) ini, dengan membuka tab Life cycle > Acquisition > Acquisition overview , Anda dapat melihat ada 365 ribu pengguna dalam periode waktu historis terakhir antara Oktober-November 2022:

Berdasarkan rasio konversi dasar yang ada sebesar 3,5%, dengan MDE relatif 5%, dengan kekuatan standar 80% dan tingkat signifikansi standar 5%, kalkulator menunjukkan ukuran sampel 174.369 pengunjung per varian diperlukan untuk menjalankan dengan benar- uji A/B bertenaga:

Dengan asumsi tren lalu lintas relatif stabil untuk beberapa bulan mendatang, masuk akal untuk memperkirakan situs akan mencapai sekitar 365 ribu pengguna atau (365 ribu/2 varian) 182 ribu pengunjung per varian dalam jangka waktu pengujian yang wajar.
Persyaratan ukuran sampel dapat dicapai, memberi lampu hijau untuk melanjutkan dan menjalankan pengujian.
Catatan penting, latihan verifikasi persyaratan ukuran sampel ini harus selalu dilakukan SEBELUM menjalankan studi apa pun sehingga Anda tahu apakah Anda memiliki lalu lintas yang cukup untuk menjalankan pengujian yang didukung dengan benar.
Selain itu, saat menjalankan pengujian, Anda TIDAK PERNAH menghentikan pengujian sebelum mencapai persyaratan ukuran sampel yang telah dihitung sebelumnya – bahkan jika hasilnya tampak signifikan lebih cepat.
Menyatakan pemenang atau pecundang secara prematur sebelum memenuhi persyaratan ukuran sampel adalah apa yang dikenal sebagai "mengintip" dan merupakan praktik pengujian berbahaya yang dapat membuat Anda melakukan panggilan yang salah sebelum hasilnya benar-benar hilang.
Berapa Banyak Tes yang Dapat Anda Jalankan jika Anda Memiliki Lalu Lintas yang Cukup?
Dengan asumsi situs atau halaman yang ingin Anda uji memenuhi persyaratan ukuran sampel, berapa banyak pengujian yang dapat Anda jalankan?
Jawabannya, sekali lagi, tergantung.
Menurut presentasi yang dibagikan oleh Ronny Kohavi, mantan Wakil Presiden Eksperimen di Bing Microsoft, Microsoft biasanya menjalankan lebih dari 300 eksperimen sehari.
Tetapi mereka memiliki lalu lintas untuk melakukannya.
Setiap percobaan melihat lebih dari 100 ribu pengguna:

Semakin besar lalu lintas yang tersedia, semakin banyak pengujian yang dapat Anda jalankan.

Dengan pengujian apa pun, Anda perlu memastikan bahwa Anda memiliki ukuran sampel yang cukup besar untuk menjalankan eksperimen yang didukung dengan benar.
Jika Anda adalah organisasi yang lebih kecil dengan lalu lintas yang lebih terbatas, pertimbangkan lebih sedikit pengujian kualitas yang lebih tinggi.
Pada akhirnya, ini bukan tentang berapa banyak pengujian yang Anda jalankan, tetapi hasil eksperimen Anda.
Opsi jika Anda Tidak Dapat Memenuhi Persyaratan Ukuran Sampel
Jika ternyata Anda tidak dapat memenuhi persyaratan ukuran sampel, jangan khawatir. Eksperimen bukanlah hal yang mustahil untuk Anda. Anda memiliki beberapa opsi eksperimen potensial yang tersedia:
- Fokus pada akuisisi lalu lintas
Bahkan situs besar pun bisa memiliki lalu lintas rendah pada halaman tertentu.
Jika Anda menemukan lalu lintas situs, atau lalu lintas di laman tertentu, tidak memenuhi persyaratan ukuran sampel, pertimbangkan untuk memfokuskan upaya untuk mendapatkan lebih banyak lalu lintas.
Untuk melakukannya, Anda dapat melakukan taktik Search Engine Optimization (SEO) yang agresif untuk mendapatkan peringkat lebih tinggi di mesin pencari dan mengumpulkan lebih banyak klik.
Anda juga dapat memperoleh lalu lintas berbayar melalui saluran seperti Iklan Google, iklan LinkedIn, atau bahkan iklan spanduk.
Kedua aktivitas akuisisi ini dapat membantu meningkatkan lalu lintas web dan memberi Anda kemampuan yang lebih kuat untuk menguji apa yang paling baik menghasilkan konversi dengan pengguna.
Namun, jika Anda menggunakan lalu lintas berbayar untuk memenuhi persyaratan ukuran sampel, pertimbangkan untuk menyegmentasikan hasil pengujian menurut jenis lalu lintas karena perilaku pengunjung dapat berbeda menurut sumber lalu lintas.
- Nilai apakah pengujian A/B adalah metode eksperimen terbaik untuk Anda
Meskipun pengujian A/B dianggap sebagai standar emas eksperimen, hasilnya hanya sebaik data di belakangnya.
Jika ternyata Anda tidak memiliki cukup lalu lintas untuk menjalankan pengujian yang diberdayakan dengan benar, Anda mungkin ingin mempertimbangkan apakah pengujian A/B benar-benar pilihan eksperimen terbaik untuk Anda.
Ada pendekatan berbasis penelitian lain yang memerlukan sampel yang jauh lebih kecil dan masih dapat menghasilkan wawasan pengoptimalan yang sangat berharga.
Pengujian Pengalaman Pengguna (UX), survei konsumen, polling keluar, atau wawancara pelanggan adalah beberapa modalitas eksperimen lain yang dapat Anda coba sebagai alternatif pengujian A/B.
- Sadarilah hasil hanya dapat memberikan data arah
Namun jika Anda tetap ingin melakukan pengujian A/B, Anda masih dapat menjalankan pengujian.
Sadarilah, hasilnya mungkin tidak sepenuhnya akurat dan hanya akan memberikan “data terarah” yang menunjukkan kemungkinan – bukan sepenuhnya dapat dipercaya – hasil.
Karena hasilnya mungkin tidak sepenuhnya benar, Anda sebaiknya memantau dengan cermat efek konversi dari waktu ke waktu.
Meskipun demikian, seringkali yang lebih penting daripada angka konversi yang akurat adalah angka di rekening bank. Jika naik, Anda tahu pekerjaan pengoptimalan yang Anda lakukan berhasil.
Menguji Kematangan
Selain persyaratan ukuran sampel, faktor lain yang memengaruhi irama pengujian adalah tingkat kematangan organisasi penguji.
Kedewasaan pengujian adalah istilah yang digunakan untuk menjelaskan seberapa mengakar eksperimentasi dalam budaya organisasi dan seberapa maju praktik eksperimentasi.
Organisasi seperti Amazon, Google, Bing, dan Booking – yang menjalankan ribuan pengujian setiap bulan – memiliki tim pengujian yang progresif dan matang.
Itu bukan kebetulan.
Irama pengujian cenderung terkait erat dengan tingkat kematangan organisasi.
Jika eksperimen tertanam dalam organisasi, manajemen berkomitmen untuk itu. Selain itu, karyawan, di seluruh organisasi, biasanya didorong untuk mendukung dan memprioritaskan eksperimen, dan bahkan dapat membantu memberikan ide pengujian.
Ketika faktor-faktor ini bersatu, jauh lebih mudah untuk menjalankan program pengujian yang bijaksana.
Jika Anda berharap untuk meningkatkan pengujian, sebaiknya lihat terlebih dahulu tingkat kedewasaan organisasi Anda.
Mulailah dengan mengevaluasi pertanyaan seperti
- Seberapa pentingkah eksperimen bagi C-Suite?
- Sumber daya apa yang disediakan untuk mendorong eksperimen?
- Saluran komunikasi apa yang tersedia untuk mengomunikasikan pembaruan pengujian?
Jika jawabannya "tidak ada", atau mendekati itu, pertimbangkan untuk bekerja terlebih dahulu dalam membuat budaya pengujian.
Karena organisasi Anda mengadopsi budaya eksperimen yang lebih progresif, secara alami akan lebih mudah untuk meningkatkan irama pengujian.
Untuk saran tentang cara membuat budaya eksperimen, lihat sumber daya seperti artikel ini dan yang ini.
Kendala Sumber Daya
Dengan asumsi Anda sudah memiliki tingkat dukungan organisasi tertentu, masalah berikutnya yang harus dilawan adalah kendala sumber daya.
Waktu, uang, dan tenaga manusia adalah semua keterbatasan yang dapat membatasi kemampuan Anda untuk menguji. Dan tes dengan cepat.
Untuk mengatasi kendala sumber daya, akan sangat membantu untuk memulai dengan menilai kompleksitas pengujian.
Tes Keseimbangan Sederhana dan Kompleks
Sebagai seorang pelaku eksperimen, Anda dapat memilih untuk menjalankan pengujian yang berkisar dari super sederhana hingga sangat kompleks.
Tes sederhana mungkin mencakup pengoptimalan elemen seperti salinan atau warna, memperbarui gambar, atau memindahkan elemen tunggal pada halaman.
Tes kompleks mungkin melibatkan perubahan beberapa elemen, mengubah struktur halaman, atau memperbarui corong konversi. Tes semacam ini seringkali membutuhkan pekerjaan pengkodean yang mendalam.
Dengan menjalankan ribuan pengujian A/B, saya merasa berguna untuk memiliki campuran sekitar ⅗ pengujian yang lebih sederhana dan ⅖ yang lebih kompleks yang berjalan bersamaan setiap saat.
Tes yang lebih sederhana dapat memberi Anda kemenangan yang cepat dan mudah.
Tetapi pengujian yang lebih besar, dengan perubahan yang lebih besar, seringkali menghasilkan efek yang lebih besar. Faktanya, menurut beberapa penelitian pengoptimalan, semakin banyak, dan semakin kompleks pengujian yang Anda jalankan, semakin besar kemungkinan keberhasilan Anda. Jadi jangan takut untuk sering-sering menjalankan tes ayunan besar.
Sadarilah, imbal baliknya adalah Anda akan menghabiskan lebih banyak sumber daya untuk merancang dan membangun tes. Dan tidak ada jaminan itu akan menang.
Tes Berdasarkan Sumber Daya Manusia yang Tersedia
Jika Anda seorang ahli strategi CRO tunggal, atau bekerja dengan tim kecil, kapasitas Anda terbatas. Apakah sederhana atau kompleks, Anda mungkin menemukan 2-5 tes per bulan mengetuk Anda.
Sebaliknya, jika Anda berada di organisasi yang memiliki tim peneliti, ahli strategi, perancang, pengembang, dan spesialis QA yang berdedikasi, kemungkinan besar Anda memiliki kapasitas untuk menjalankan lusinan hingga ratusan pengujian dalam sebulan.
Untuk menentukan berapa banyak pengujian yang harus Anda jalankan, nilai ketersediaan sumber daya manusia Anda.
Rata-rata, tes sederhana dapat memakan waktu 3-6 jam untuk membuat ide, gambar rangka, merancang, mengembangkan, menerapkan, QA, dan memantau hasil.
Di sisi lain, tes yang sangat kompleks dapat memakan waktu hingga 15-20 jam.
Ada sekitar 730 jam dalam sebulan, jadi Anda pasti ingin menghitung dengan cermat tentang pengujian, dan jumlah pengujian, yang Anda jalankan selama waktu yang berharga ini.
Rencanakan dan Prioritaskan Ide Ujian Anda
Untuk membantu Anda memetakan struktur pengujian yang optimal, pertimbangkan untuk menggunakan kerangka prioritas pengujian, seperti PIE, ICE, atau PXL.
Kerangka kerja ini memberikan teknik kuantitatif untuk memberi peringkat ide pengujian teratas Anda, mengevaluasi kemudahan penerapan, dan menilai pengujian mana yang paling mungkin meningkatkan konversi.
Setelah melakukan penilaian ini, daftar ide tes yang diprioritaskan akan terlihat seperti ini:

Dengan peringkat ide pengujian teratas Anda, sebaiknya Anda juga membuat peta rencana pengujian untuk merencanakan garis waktu pengujian dan langkah selanjutnya secara visual.
Peta jalan Anda mungkin terlihat seperti ini:

Itu harus mencakup:
- Daftar ide yang Anda rencanakan untuk diuji, per halaman.
- Berapa lama Anda mengantisipasi setiap tahap pengujian (desain, pengembangan, QA, dll.) akan berlangsung.
- Berapa lama Anda berencana untuk menjalankan setiap pengujian, berdasarkan persyaratan ukuran sampel yang dihitung sebelumnya. Anda dapat menghitung persyaratan durasi tes menggunakan kalkulator durasi tes seperti ini.
Dengan memetakan ide pengujian, Anda akan dapat menentukan irama dan kapasitas pengujian dengan lebih akurat.
Saat Anda mengisi roadmap pengujian, mungkin menjadi sangat jelas bahwa jumlah pengujian yang dapat Anda jalankan didasarkan pada sumber daya yang Anda miliki.
Haruskah Anda Menjalankan Beberapa Tes Sekaligus?
Tetapi hanya karena Anda dapat melakukan sesuatu, tidak selalu berarti Anda harus melakukannya.
Ketika datang untuk menjalankan beberapa tes sekaligus, ada banyak perdebatan tentang pendekatan terbaik.
Artikel, seperti ini, oleh pemimpin Negara Eksperimen, Rommil Santiago, memunculkan pertanyaan kontroversial: bolehkah menjalankan beberapa pengujian A/B secara bersamaan?
Beberapa peneliti akan berkata, sama sekali tidak!
Mereka akan berpendapat bahwa Anda hanya boleh menjalankan satu pengujian, satu halaman dalam satu waktu. Jika tidak, Anda tidak akan dapat mengisolasi efek apa pun dengan benar.
Saya dulu berada di kamp ini karena begitulah cara saya diajar hampir satu dekade yang lalu.
Diberikan dengan tegas kepada saya bahwa Anda hanya boleh menjalankan satu pengujian, dengan satu perubahan, pada satu halaman, pada satu waktu. Saya beroperasi dengan pola pikir ini selama bertahun-tahun — banyak klien cemas yang menginginkan hasil lebih cepat.
Namun, artikel ini oleh Timothy Chan, mantan ilmuwan data di Facebook dan sekarang ilmuwan data utama di Statsig, benar-benar mengubah pikiran saya.
Dalam karyanya, Chan berpendapat, efek interaksi terlalu dilebih-lebihkan.
Nyatanya, menjalankan beberapa pengujian secara bersamaan bukan hanya bukan masalah; itu benar-benar satu-satunya cara untuk menguji!
Sikap ini didukung oleh data dari masanya di Facebook di mana Chan melihat raksasa media sosial itu berhasil menjalankan ratusan eksperimen secara bersamaan, banyak di antaranya bahkan di halaman yang sama.
Pakar data seperti Ronny Kohavi dan Hazjier Pourkhalkhali setuju: efek interaksi sangat tidak mungkin terjadi. Dan faktanya, cara terbaik untuk menguji keberhasilan adalah dengan menjalankan beberapa pengujian secara berulang kali, secara berkelanjutan.
Jadi, saat mempertimbangkan pengujian irama, jangan khawatir tentang efek interaksi dari pengujian yang tumpang tindih. Tes secara bebas.
Ringkasan
Dalam pengujian A/B, tidak ada jumlah optimal pengujian A/B yang harus Anda jalankan.
Angka ideal adalah yang tepat untuk situasi unik Anda.
Jumlah ini didasarkan pada beberapa faktor, termasuk batasan ukuran sampel situs Anda, kerumitan ide pengujian, serta dukungan dan sumber daya yang tersedia.
Pada akhirnya, ini bukan tentang jumlah pengujian yang Anda jalankan, melainkan kualitas pengujian dan hasil yang Anda peroleh. Satu tes yang menghasilkan daya angkat yang besar jauh lebih berharga daripada beberapa tes yang tidak meyakinkan yang tidak menggerakkan jarum.
Pengujian benar-benar tentang kualitas daripada kuantitas!
Untuk informasi lebih lanjut tentang cara mendapatkan hasil maksimal dari program pengujian A/B Anda, lihat artikel Konversi ini.

