Apa itu Pengujian A/A, dan Mengapa Pemasar Harus Peduli?
Diterbitkan: 2017-05-18Pernahkah Anda melalui skenario ini? Anda menyiapkan pengujian A/B untuk menemukan apakah kombinasi tombol dan judul baru Anda akan menghasilkan lebih banyak konversi…
Anda mengarahkan lalu lintas yang sama ke kedua laman landas pasca-klik Anda — kontrol dan variasi — dan berhenti setelah sebulan, ketika perangkat lunak Anda menyatakan variasi Anda sebagai pemenang dengan keyakinan 99%…
Anda meluncurkan desain "menang" baru, tetapi beberapa siklus bisnis kemudian, peningkatan 50% dalam rasio konversi tidak berdampak pada keuntungan Anda. Anda bingung. Kamu kesal…
Dan Anda mungkin menjadi korban dari hasil tes positif palsu.
Apa itu hasil tes positif palsu?
Mengapa peningkatan tingkat konversi sebesar 50% itu tidak berarti lebih banyak penjualan? Alasannya, kata Lance Jones dari Copyhackers, adalah karena itu mungkin tidak ada.
Sangat mungkin (bahkan mungkin) bahwa Anda tidak melihat peningkatan penjualan atau pendapatan dari pengujian Anda karena hal itu tidak pernah ada sejak awal. Anda mungkin tanpa sadar menerima "false positive" dalam pengujian Anda – dikenal sebagai kesalahan statistik Tipe I, atau dikenal sebagai penolakan yang salah terhadap hipotesis nol yang sebenarnya. Itu seteguk, jadi saya hanya mengingatnya sebagai positif palsu.
Seteguk atau tidak, kesalahan statistik Tipe 1 ini lebih umum daripada yang Anda kira. Diperkirakan sekitar 80% hasil tes AB adalah imajiner.
Klik Untuk Menge-Tweet
Jika Anda membuat keputusan penting berdasarkan positif palsu, paling-paling, Anda menyerahkan pengoptimalan pada peluang. Paling buruk, Anda justru memperburuk tingkat konversi halaman arahan pasca-klik Anda.
Untungnya, ada beberapa cara untuk memerangi data beracun. Salah satunya mirip dengan metode pengujian yang mungkin sudah Anda kenal…
Apa itu pengujian A/A?
Pengujian A/B melibatkan mengarahkan lalu lintas ke dua laman berbeda — laman asli (kontrol Anda) dan versi lain (variasi Anda) — untuk melihat mana yang berkinerja lebih baik.
Demikian pula, pengujian A/A melibatkan mengarahkan lalu lintas ke dua halaman untuk melihat mana yang berkinerja lebih baik. Namun tidak seperti dalam pengujian A/B, pengujian A/A mengadu dua halaman identik satu sama lain — dan alih-alih menemukan peningkatan, tujuannya adalah untuk tidak menemukan perbedaan antara kontrol dan variasi Anda.
Mengapa Anda melakukan tes A/A?
Kami tidak menyalahkan Anda karena menggaruk-garuk kepala, bertanya-tanya "Apa yang akan dicapai dengan menguji dua halaman identik satu sama lain?"
Ini mungkin terdengar konyol, tetapi ini adalah teknik yang digunakan beberapa penguji profesional untuk menguji pengujian A/B mereka sebelum melakukan pengujian. (Hah?)
Hasil tes yang akurat membutuhkan lebih dari signifikansi statistik
Siapa saja dapat menjalankan pengujian A/B, tetapi hanya sedikit yang dapat menjalankan pengujian A/B yang valid (ingat: Hanya sekitar 20% hasil pengujian yang benar-benar sah).
Menghasilkan data uji yang akurat melibatkan lebih dari sekadar mencapai signifikansi statistik dengan ukuran sampel yang besar dan representatif. Agar yakin dengan hasil Anda, Anda harus memastikan bahwa sampel tidak tercemar oleh sejumlah ancaman validitas.
Salah satu ancaman tersebut, efek instrumen, adalah tes A/A yang paling membantu untuk dilawan.
Apa efek instrumennya?
Perlindungan dari ancaman validitas dimulai bahkan sebelum Anda memulai pengujian A/B. Efek instrumen, kata Peep Laja dari CXL, adalah yang paling meracuni hasil tes:
Ini adalah masalah yang paling umum. Saat itulah terjadi sesuatu dengan alat pengujian (atau instrumen) yang menyebabkan data cacat dalam pengujian. Ini sering terjadi karena penerapan kode yang salah di situs web, dan akan memiringkan semua hasil.
Itulah sebabnya, saat menyiapkan pengujian, penting untuk memastikan alat Anda dikonfigurasi dengan benar dan berfungsi sebagaimana mestinya. Jika tidak, masalah umum berikut dapat muncul:
- Kesalahan pelaporan indikator kinerja utama. Hanya satu kesalahan dalam satu alat dapat mengacaukan data Anda, itulah sebabnya Anda tidak boleh mengandalkan platform tunggal untuk melacak semua informasi pengujian Anda. Paling tidak, integrasikan dengan Google Analytics untuk memeriksa ulang apakah metrik yang Anda lihat di perangkat lunak pengujian dan pelacakan situs web sudah akurat. Untuk hasil yang lebih baik, periksa tiga kali dengan alat lain. Waspadalah terhadap laporan apa pun yang tidak cocok secara relatif.
- masalah tampilan halaman arahan pasca-klik. Kesalahan pengkodean kecil dapat menyebabkan ancaman validitas yang besar, seperti masalah tampilan, selama pengujian A/B Anda. Itulah mengapa sangat penting untuk memastikan halaman arahan pasca-klik Anda terlihat seperti yang seharusnya di semua perangkat dan browser, dan bahwa pengunjung Anda tidak terpengaruh oleh sesuatu yang disebut "efek kedip". Antara lain, situs web yang lambat dapat menyebabkan masalah ini, yang terjadi saat kontrol Anda ditampilkan sesaat kepada pengunjung tepat sebelum variasi.
- Menghentikan tes terlalu dini. Beberapa perangkat lunak pengujian akan mendeklarasikan halaman pemenang sebelum waktunya — bila ukuran sampel tidak cukup besar, atau mewakili pelanggan target Anda. Ingat: Mencapai signifikansi statistik tidak berarti sudah waktunya untuk menghentikan pengujian Anda. Semakin lama Anda menjalankannya, semakin akurat hasilnya.
Salah satu dari masalah ini (dan lebih banyak lagi) dapat menyebabkan kesalahan positif pada akhir pengujian Anda, itulah sebabnya Peep memperingatkan penguji untuk waspada:
Saat Anda menyiapkan pengujian, awasi seperti elang. Perhatikan bahwa setiap sasaran dan metrik yang Anda lacak dicatat. Jika beberapa metrik tidak mengirimkan data (mis. tambahkan ke data klik keranjang), hentikan pengujian, temukan dan perbaiki masalahnya, dan mulai lagi dengan menyetel ulang data.
Namun tidak semua orang merasa nyaman untuk segera melakukan pengujian A/B dengan kedua kaki — terutama saat menggunakan perangkat lunak baru. Jadi, sebagai tindakan pencegahan tambahan, beberapa praktisi menguji A/A untuk mengevaluasi alat mereka sebelum memulai pengujian A/B.
Jika eksperimen Anda disiapkan dengan benar, di akhir pengujian A/A, kedua halaman akan muncul dengan rasio konversi yang serupa. Namun, seperti yang ditunjukkan oleh penguji berikut, hal itu tidak selalu terjadi.
Contoh pengujian A/A
Apakah positif palsu benar-benar umum? Bisakah satu halaman benar-benar mengungguli tiruannya? Orang-orang ini menggunakan pengujian A/A untuk mencari tahu dan mengungkapkan temuan mereka di postingan blog berikut…
1. Tes Pemisahan Halaman Beranda Mengungkapkan Kelemahan Utama Alat Uji Populer
Pada tanggal 11 November 2012, tim Copyhackers memulai pengujian terpisah A/A di beranda mereka, seperti gambar di bawah:
Pada tanggal 18 — 6 hari kemudian — alat pengujian mereka dinyatakan sebagai pemenang dengan keyakinan 95%. Demi akurasi, tim memutuskan untuk membiarkan pengujian berjalan satu hari lagi — pada saat itu perangkat lunak mereka dinyatakan sebagai pemenang pada tingkat kepercayaan 99,6%:
Beranda mereka berperforma hampir 24% lebih baik daripada laman yang sama persis , dan hanya ada 0,4% kemungkinan hasilnya positif palsu, menurut perangkat lunak. Tetap saja, tim membiarkan pengujian berjalan sekitar tiga hari lagi, dan perbedaannya akhirnya merata:
Tapi bukan itu intinya. Intinya adalah: Alat pengujian menyatakan pemenang terlalu dini. Jika tim Copyhacker tidak menjalankannya, mereka akan salah berasumsi bahwa ada masalah dengan eksperimen mereka. Baca lebih lanjut tentang tes di sini.
2. Pengujian A/A: Bagaimana Saya Meningkatkan Konversi 300% dengan Tidak Melakukan Apa-apa
Judul sarkastik ini berasal dari penulis dan memproklamirkan diri sebagai “pengusaha yang sedang memulihkan diri”, David Kadavy, yang menjalankan sejumlah pengujian A/A selama 8 bulan pada 750.000 pelanggan email. Selama waktu itu, dia menghasilkan hasil yang signifikan secara statistik, seperti ini:
Di antara hasil itu adalah:
- Peningkatan 9% dalam membuka email
- Peningkatan klik sebesar 300%.
- Tingkat berhenti berlangganan 51% lebih rendah
Dia berkata:
Bagi banyak wantrepreneur (termasuk diri saya sebelumnya), ini terlihat seperti "oh wow, Anda meningkat 10%!" Mereka bahkan mungkin memasukkannya ke dalam kalkulator signifikansi Pengoptimal Situs Web Visual dan melihat bahwa p=0,048. “Ini signifikan secara statistik!” mereka (atau saya) mungkin berseru.
Sebenarnya, ini semua adalah tes A/A. Konten yang diuji satu sama lain identik. Lihat lebih banyak hasil nya di sini.
Haruskah Anda menjalankan pengujian A/A?
Jawaban atas pertanyaan ini tergantung pada siapa Anda bertanya.
Neil Patel, yang terus melihat peningkatan konversi besar yang tidak sama dengan lebih banyak pendapatan, berkata, "Sangat penting bagi Anda untuk menjalankan pengujian A/A terlebih dahulu karena ini akan membantu memastikan bahwa Anda tidak membuang waktu dengan perangkat lunak yang tidak akurat."
Di sisi lain, Peep Laja dari CXL mengatakan bahwa pengujian A/A sendiri hanya membuang-buang waktu. Jadi siapa yang benar?
Dua masalah utama dengan pengujian A/A
Dari sudut pandang teoretis, pengujian A/A sangat masuk akal. Yang terpenting, akurasi adalah hal yang paling penting saat menjalankan pengujian A/B, dan menguji pengujian Anda hanyalah salah satu dari banyak cara untuk memastikannya.
Namun, dalam lingkungan pengujian dunia nyata, pengujian A/A berpotensi lebih merugikan daripada menguntungkan. Craig Sullivan menjelaskan:
Bagi saya, masalahnya selalu memakan lalu lintas nyata dan waktu pengujian, dengan harus melakukan pramuat waktu uji coba dengan periode pengujian A/A. Jika saya mencoba menjalankan 40 tes sebulan, ini akan melumpuhkan kemampuan saya untuk menjalankan sesuatu. Saya lebih suka melakukan pengujian QA setengah hari pada percobaan daripada menjalankan pengujian A/A selama 2-4 minggu untuk memeriksanya.
Itu masalah satu. Pengujian A/A memerlukan biaya waktu nyata dan lalu lintas yang dapat Anda gunakan untuk mempelajari lebih lanjut tentang pengunjung situs web Anda dengan pengujian A/B.
Masalah kedua dicontohkan dalam studi kasus dari Copyhackers. Seperti pengujian A/B, pengujian A/A perlu dirancang dan dipantau dengan hati-hati, karena juga rentan terhadap kesalahan positif.
Dengan kata lain, pengujian A/A Anda mungkin memberi tahu Anda bahwa satu halaman berperforma lebih baik daripada yang lain, padahal tidak (kemungkinan itu jauh lebih tinggi daripada yang Anda pikirkan — sekitar 50%)
Jika tim di Copyhackers mendengarkan alat pengujian mereka dan mengumumkan pemenang hanya dalam enam hari, mereka akan menghabiskan lebih banyak waktu untuk mencoba mencari tahu mengapa beranda mereka berkinerja lebih baik daripada kembarannya yang identik (padahal sebenarnya tidak) .
Manfaat utama pengujian A/A
Terlepas dari masalah ini, pengujian A/A memiliki potensi untuk membantu Anda menemukan masalah yang lebih besar selama pengujian sebenarnya . Ketika hasil tes tersebut adalah yang menjadi dasar keputusan bisnis penting Anda, itu adalah manfaat yang kuat untuk dipertimbangkan.
Jika Anda memutuskan untuk melakukan pengujian A/A, ada cara yang berpotensi tidak terlalu boros untuk melakukannya, yang disebut pengujian A/A/B.
Pengujian A/A/B vs pengujian A/A
Metode pengujian A/A tradisional memboroskan lalu lintas karena tidak memberi tahu Anda apa pun tentang pengunjung Anda pada akhirnya. Tapi, jika Anda menambahkan variasi “B” ke pengujian itu, itu bisa. Inilah perbedaan antara keduanya:
- Pengujian A/A = 2 halaman identik diuji satu sama lain
- Pengujian A/A/B = 2 halaman identik dan satu variasi diuji satu sama lain
Pengujian A/A/B membagi lalu lintas Anda menjadi tiga segmen, yang berarti perlu waktu lebih lama untuk mencapai signifikansi statistik. Namun keuntungannya adalah, begitu Anda melakukannya, Anda akan memiliki data tentang alat pengujian dan pengunjung Anda.
Bandingkan hasil A vs. A untuk menentukan apakah Anda dapat mempercayai tes Anda. Jika secara statistik serupa, bandingkan hasil A vs. B. Namun, jika tidak, Anda harus membuang hasil seluruh pengujian (yang memerlukan waktu lebih lama daripada pengujian A/A tradisional untuk dijalankan karena lalu lintas Anda tersegmentasi tiga cara).
Apakah manfaat pengujian A/A lebih besar daripada kerugiannya?
Beberapa ahli mengatakan "ya", sementara yang lain mengatakan "tidak". Andrew First dari Leadplum tampaknya berpikir bahwa jawabannya ada di antara:
Pengujian A/A mungkin tidak boleh dilakukan setiap bulan, tetapi saat Anda menyiapkan alat baru, sebaiknya luangkan waktu untuk menguji data Anda. Jika Anda mencegat data yang buruk sekarang, Anda akan lebih percaya diri dengan hasil pengujian Anda beberapa bulan ke depan.
Pada akhirnya, terserah Anda. Jika Anda menggunakan alat baru, sebaiknya ikuti saran Andrew. Namun, jika Anda tidak, mungkin lebih baik mengikuti petunjuk Craig Sullivan dan sebagai gantinya menyiapkan proses QA pra-tes yang ketat. Hemat waktu, sumber daya, dan lalu lintas Anda untuk pengujian A/B.
Dapatkan hasil maksimal dari upaya pengujian dan kampanye iklan digital Anda, daftar untuk demo Instapage Enterprise hari ini.