Câte teste A/B ar trebui să alergi pe lună?
Publicat: 2023-01-19Este o întrebare importantă de luat în considerare pentru succesul programului dvs. de testare.
Rulați prea multe teste și puteți irosi resurse fără a obține prea multă valoare de la niciun experiment individual.
Dar executați prea puține teste și este posibil să pierdeți oportunități importante de optimizare care ar putea aduce mai multe conversii.
Deci, având în vedere această enigma, care este cadența ideală de testare?
Pentru a ajuta la răspunsul la această întrebare, este necesar ca $en$e să se uite la unele dintre cele mai de succes și mai progresive echipe de experimentare din lume.
Amazon este un astfel de nume care îmi vine în minte.
Gigantul comerțului electronic este, de asemenea, un goliat al experimentelor. De fapt, se spune că Amazon rulează peste 12.000 de experimente pe an! Această sumă se descompune la aproximativ o mie de experimente pe lună.
Se spune că companii precum Google și Bing de la Microsoft țin un ritm similar.
Potrivit Wikipedia, giganții motoarelor de căutare rulează fiecare peste 10.000 de teste A/B pe an sau aproximativ 800 de teste pe lună.
Și nu sunt doar motoarele de căutare care rulează în acest ritm.
Booking.com este un alt nume notabil în experimentare. Site-ul de rezervări de călătorii este raportat că rulează peste 25.000 de teste pe an, ceea ce înseamnă peste 2 mii de teste pe lună sau 70 de teste pe zi!
Cu toate acestea, studiile arată că o companie medie realizează doar 2-3 teste pe lună.
Deci, dacă majoritatea companiilor efectuează doar câteva teste pe lună, dar unele dintre cele mai bune din lume realizează mii de experimente pe lună, câte teste ar trebui, în mod ideal, să rulați?
În adevăratul stil CRO, răspunsul este: depinde.
De ce depinde? O serie de factori importanți pe care trebuie să îi luați în considerare.
Numărul ideal de teste A/B de rulat este determinat de situația specifică și de factori precum dimensiunea eșantionului, complexitatea ideilor de testare și resursele disponibile.
Cei 6 factori de care trebuie să luați în considerare atunci când rulați teste A/B
Există 6 factori esențiali de care trebuie să luați în considerare atunci când decideți câte teste să rulați pe lună. Ei includ
- Cerințe privind dimensiunea eșantionului
- Maturitatea organizațională
- Resurse valabile
- Complexitatea ideilor de testare
- Testarea termenelor
- Efecte de interacțiune
Să ne scufundăm adânc în fiecare.
Cerințe privind dimensiunea eșantionului
În testarea A/B, dimensiunea eșantionului descrie cantitatea de trafic de care aveți nevoie pentru a rula un test de încredere.
Pentru a efectua un studiu valid statistic, aveți nevoie de un eșantion mare și reprezentativ de utilizatori.
Deși, teoretic, puteți rula un experiment cu doar câțiva utilizatori, nu veți obține rezultate foarte semnificative.
Dimensiunile reduse ale eșantionului pot încă produce rezultate semnificative statistic
De exemplu, imaginați-vă un test A/B în care doar 10 utilizatori au văzut versiunea A și 2 convertite. Și doar 8 utilizatori au văzut versiunea B, iar 6 au făcut conversie.
După cum arată acest grafic, rezultatele sunt semnificative statistic:
Versiunea B pare să depășească cu 275%. Dar, aceste constatări nu sunt foarte demne de încredere. Dimensiunea eșantionului este prea mică pentru a oferi rezultate semnificative.
Studiul este sub putere. Nu conține un eșantion mare și reprezentativ de utilizatori.
Deoarece testul are putere redusă, rezultatele sunt predispuse la erori. Și nu este clar dacă rezultatul a avut loc doar întâmplător sau dacă o versiune este cu adevărat superioară.
Cu acest eșantion mic, este ușor să trageți concluzii incorecte.
Teste corect alimentate
Pentru a depăși această capcană, testele A/B trebuie să fie alimentate în mod adecvat cu un eșantion mare și reprezentativ de utilizatori.
Cât de mare este suficient de mare?
La această întrebare se poate răspunde făcând câteva calcule simple ale dimensiunii eșantionului.
Pentru a calcula cel mai ușor cerințele privind dimensiunea eșantionului, vă sugerez să utilizați un calculator pentru dimensiunea eșantionului. Sunt o mulțime de ei acolo.
Preferatul meu este cel al lui Evan Miller pentru că este flexibil și minuțios. În plus, dacă poți înțelege cum să-l folosești, poți înțelege aproape orice calculator de acolo.
Iată cum arată calculatorul lui Evan Miller:
În timp ce calculele în sine sunt destul de simple, înțelegerea terminologiei din spatele lor nu este. Deci am încercat să clarific complexul:
Rata de conversie de bază
Rata de conversie de bază este rata de conversie existentă a versiunii de control sau a versiunii originale. Este de obicei etichetat „versiunea A” atunci când configurați un test A/B.
Ar trebui să puteți găsi această rată de conversie în platforma dvs. de analiză.
Dacă nu ați efectuat niciodată un test A/B sau nu cunoașteți rata de conversie de bază, faceți o ghicire mai bine informată.
Rata medie de conversie, pe majoritatea site-urilor, a sectoarelor industriale și a tipurilor de dispozitive, este între 2 și 5%. Așadar, dacă nu sunteți cu adevărat sigur de rata de conversie de referință, greșiți cu prudență și începeți cu o valoare de referință de 2%.
Cu cât rata de conversie de bază este mai mică, cu atât este mai mare dimensiunea eșantionului de care veți avea nevoie. Si invers.
Efect minim detectabil (MDE)
Efectul minim detectabil (MDE) pare un concept complicat. Dar devine mult mai ușor de înțeles dacă împărțiți termenul în trei părți:
- Minimum = cel mai mic
- Detectabil = doriți să încercați să detectați sau să găsiți prin rularea experimentului
- Efect = diferența de conversie între control și tratament
Prin urmare, efectul minim detectabil este cea mai mică creștere a conversiei pe care sperați să-l detectați prin rularea testului.
Unii puriști ai datelor vor argumenta că această definiție descrie de fapt efectul minim al interesului (MEI). Oricum doriți să o numiți, obiectivul este să anticipați cât de mare de creștere a conversiilor vă așteptați să obțineți prin rularea testului.
Deși acest exercițiu poate fi foarte speculativ, puteți utiliza un calculator pentru dimensiunea eșantionului ca acesta sau calculatorul statistic de test A/B al lui Convert pentru a calcula MDE-ul anticipat.
Ca regulă generală, un MDE de 2-5% este considerat rezonabil. Orice lucru mult mai mare este de obicei nerealist atunci când rulați un test cu adevărat alimentat corespunzător.
Cu cât MDE este mai mic, cu atât este mai mare dimensiunea eșantionului necesară. Si invers.
Un MDE poate fi exprimat ca valoare absolută sau relativă.
Absolut
Un MDE absolut este diferența de număr brut dintre rata de conversie a controlului și a variantei.
De exemplu, dacă rata de conversie de bază este de 2,77% și vă așteptați ca varianta să atingă un MDE absolut de +3%, diferența absolută este de 5,77%.
Relativ
În schimb, un efect relativ exprimă diferența procentuală dintre variante.
De exemplu, dacă rata de conversie de bază este de 2,77% și vă așteptați ca varianta să atingă un MDE relativ de +3%, diferența relativă este de 2,89%.
În general, majoritatea experimentatorilor folosesc o creștere relativă procentuală, așa că, de obicei, cel mai bine este să reprezentați rezultatele în acest fel.
Puterea statistică 1−β
Puterea se referă la probabilitatea de a găsi un efect sau o diferență de conversie, presupunând că există într-adevăr unul.
În testare, scopul dvs. este să vă asigurați că aveți suficientă putere pentru a detecta în mod semnificativ o diferență, dacă există, fără eroare. Prin urmare, o putere mai mare este întotdeauna mai bună. Dar compromisul este că necesită o dimensiune mai mare a eșantionului.
O putere de 0,80 este considerată cea mai bună practică standard. Deci, îl puteți lăsa ca interval implicit pe acest calculator.
Această sumă înseamnă că există o șansă de 80% ca, dacă există un efect, să îl detectezi cu acuratețe, fără eroare. Ca atare, există doar 20% șanse să ratezi detectarea corectă a efectului. Un risc care merită asumat.
Nivelul de semnificație α
Ca o definiție foarte simplă, nivelul de semnificație alfa este rata fals pozitive sau procentul de timp în care va fi detectată o diferență de conversie - chiar dacă nu există una.
Ca cea mai bună practică de testare A/B, nivelul de semnificație ar trebui să fie de 5% sau mai mic. Deci, îl puteți lăsa ca implicit pe acest calculator.
Un nivel de semnificație de 5% α înseamnă că există o șansă de 5% să găsiți o diferență între control și variantă - atunci când nu există nicio diferență.
Din nou, un risc care merită asumat.
Evaluarea cerințelor privind dimensiunea eșantionului
Cu aceste numere conectate la calculator, vă puteți asigura acum că site-ul dvs. are suficient trafic pentru a rula un test alimentat corespunzător pe o perioadă standard de testare de 2 până la 6 săptămâni.
Pentru a verifica, accesați platforma dvs. de analiză preferată și uitați-vă la rata de trafic medie istorică a site-ului sau a paginii pe care doriți să o testați, pe o perioadă determinată.
De exemplu, în acest cont Google Analytics 4 (GA4), accesând fila Ciclu de viață > Achiziție > Prezentare generală a achiziției, puteți vedea că au existat 365 de mii de utilizatori în perioada istorică recentă dintre octombrie-noiembrie 2022:
Pe baza unei rate de conversie de referință existente de 3,5%, cu 5% MDE relativă, la o putere standard de 80% și un nivel de semnificație standard de 5%, calculatorul arată că este nevoie de o dimensiune a eșantionului de 174.369 de vizitatori per variantă pentru a rula corect un test A/B alimentat:
Presupunând că tendințele de trafic se mențin relativ constant pentru lunile următoare, este rezonabil să ne așteptăm ca site-ul să atingă aproximativ 365 mii de utilizatori sau (365 mii/2 variante) 182 mii vizitatori per variantă într-un interval de timp rezonabil de testare.
Cerințele privind dimensiunea eșantionului sunt realizabile, dând undă verde pentru a continua și a rula testul.
O notă importantă, acest exercițiu de verificare a cerințelor privind dimensiunea eșantionului ar trebui să fie efectuat întotdeauna ÎNAINTE de efectuarea oricărui studiu, astfel încât să știți dacă aveți suficient trafic pentru a efectua un test alimentat corespunzător.
În plus, atunci când rulați testul, nu ar trebui să opriți NICIODATĂ testul înainte de a atinge cerințele precalculate privind dimensiunea eșantionului – chiar dacă rezultatele par semnificative mai devreme.
Declararea prematură a unui câștigător sau învins înainte de a îndeplini cerințele privind dimensiunea eșantionului este ceea ce se numește „peeking” și este o practică de testare periculoasă care vă poate determina să efectuați apeluri incorecte înainte ca rezultatele să fie complet eliminate.
Câte teste poți rula dacă ai suficient trafic?
Presupunând că site-ul sau paginile pe care doriți să le testați îndeplinesc cerințele privind dimensiunea eșantionului, câte teste puteți rula?
Răspunsul este, din nou, depinde.
Potrivit unei prezentări împărtășite de Ronny Kohavi, fostul vicepreședinte al experimentelor la Microsoft’s Bing, Microsoft rulează de obicei peste 300 de experimente pe zi.
Dar au trafic să o facă.
Fiecare experiment vede peste 100 de mii de utilizatori:
Cu cât traficul dvs. disponibil este mai mare, cu atât puteți rula mai multe teste.
Cu orice test, trebuie să vă asigurați că aveți o dimensiune a eșantionului suficient de mare pentru a rula un experiment alimentat corespunzător.
Dacă sunteți o organizație mai mică, cu trafic mai limitat, luați în considerare mai puține teste de calitate superioară.
La sfârșitul zilei, nu este vorba despre câte teste rulezi, ci despre rezultatul experimentelor tale.
Opțiuni dacă nu puteți îndeplini cerințele privind dimensiunea eșantionului
Dacă descoperiți că nu puteți îndeplini cerințele privind dimensiunea eșantionului, nu vă îngrijorați. Experimentarea nu este exclusă pentru tine. Aveți la dispoziție câteva posibile opțiuni de experimentare:
- Concentrați-vă pe achiziția de trafic
Chiar și site-urile mari pot avea trafic redus pe anumite pagini.
Dacă găsiți că traficul pe site sau traficul pe anumite pagini nu îndeplinește cerințele privind dimensiunea eșantionului, luați în considerare concentrarea eforturilor pe obținerea de mai mult trafic.
Pentru a face acest lucru, puteți lua tactici agresive de optimizare pentru motoarele de căutare (SEO) pentru a vă poziționa mai sus în motoarele de căutare și pentru a obține mai multe clicuri.
De asemenea, puteți obține trafic plătit prin canale precum Google Ads, reclame LinkedIn sau chiar anunțuri banner.
Ambele activități de achiziție pot ajuta la creșterea traficului web și vă pot oferi o capacitate mai puternică de a testa ceea ce face cel mai bine conversie cu utilizatorii.
Cu toate acestea, dacă utilizați traficul plătit pentru a îndeplini cerințele privind dimensiunea eșantionului, luați în considerare segmentarea rezultatelor testelor în funcție de tipul de trafic, deoarece comportamentul vizitatorilor poate diferi în funcție de sursa de trafic.
- Evaluează dacă testarea A/B este cea mai bună metodă de experimentare pentru tine
În timp ce testarea A/B este considerată standardul de aur al experimentelor, rezultatele sunt la fel de bune ca și datele din spatele lor.
Dacă descoperiți că nu aveți suficient trafic pentru a rula un test alimentat corespunzător, vă recomandăm să vă gândiți dacă testarea A/B este într-adevăr cea mai bună opțiune de experimentare pentru dvs.
Există și alte abordări bazate pe cercetare care necesită eșantioane mult mai mici și încă pot oferi informații de optimizare incredibil de valoroase.
Testarea experienței utilizatorului (UX), sondajele consumatorilor, sondajele de exit sau interviurile cu clienții sunt alte câteva modalități de experimentare pe care le puteți încerca ca alternativă la testarea A/B.
- Realizați că rezultatele pot furniza numai date direcționale
Dar dacă rămâneți intenționat să testați A/B, puteți în continuare să rulați teste.
Realizează-ți doar că rezultatele pot să nu fie pe deplin exacte și vor oferi doar „date direcționale” care indică rezultatul probabil – mai degrabă decât pe deplin de încredere.
Deoarece este posibil ca rezultatele să nu fie în întregime adevărate, veți dori să monitorizați îndeaproape efectul de conversie în timp.
Acestea fiind spuse, ceea ce este adesea mai important decât cifrele exacte de conversie sunt numerele din contul bancar. Dacă acestea cresc, știți că munca de optimizare pe care o faceți funcționează.
Testarea maturității
Pe lângă cerințele privind dimensiunea eșantionului, un alt factor care influențează cadența testării este nivelul de maturitate al organizației de testare.
Testarea maturității este un termen folosit pentru a descrie cât de înrădăcinată este experimentarea într-o cultură organizațională și cât de avansate sunt practicile de experimentare.
Organizații precum Amazon, Google, Bing și Booking – care efectuează mii de teste pe lună – au echipe de testare progresive și mature.
Nu este o coincidență.
Cadența de testare tinde să fie strâns legată de nivelul de maturitate al unei organizații.
Dacă experimentarea este înrădăcinată în organizație, managementul se angajează în aceasta. De asemenea, angajații din întreaga organizație sunt de obicei încurajați să susțină și să prioritizeze experimentarea și pot chiar ajuta la furnizarea de idei de testare.
Când acești factori se adună, este mult mai ușor să rulezi un program de testare adecvat.
Dacă sperați să intensificați testele, poate fi util să vă uitați mai întâi la nivelul de maturitate al organizației dvs.
Începeți prin a evalua întrebări precum
- Cât de importantă este experimentarea pentru C-Suite?
- Ce resurse sunt oferite pentru a stimula experimentarea?
- Ce canale de comunicare sunt disponibile pentru a comunica actualizările de testare?
Dacă răspunsul este „niciunul” sau aproape de acesta, luați în considerare mai întâi să lucrați la crearea unei culturi de testare.
Pe măsură ce organizația dvs. adoptă o cultură mai progresivă a experimentării, va fi în mod natural mai ușor să creșteți cadența de testare.
Pentru sugestii despre cum să creați o cultură a experimentării, consultați resurse precum acest articol și acesta.
Constrângeri de resurse
Presupunând că aveți deja un anumit grad de acceptare organizațională, următoarea problemă de combatet este constrângerile de resurse.
Timpul, banii și puterea umană sunt toate limitări care vă pot limita capacitatea de a testa. Și testează repede.
Pentru a depăși constrângerile de resurse, poate fi util să începeți prin a evalua complexitatea testului.
Echilibrați teste simple și complexe
În calitate de experimentator, puteți alege să rulați teste care variază de la super simple la complexe nebunești.
Testele simple pot include optimizarea elementelor cum ar fi copierea sau culoarea, actualizarea imaginilor sau deplasarea în jurul elementelor individuale dintr-o pagină.
Testele complexe pot implica modificarea mai multor elemente, modificarea structurii paginii sau actualizarea canalului de conversie. Aceste tipuri de teste necesită adesea o muncă profundă de codare.
Prin rularea a mii de teste A/B, mi s-a părut util să existe un amestec de aproximativ ⅗ teste mai simple și ⅖ mai complexe care rulează simultan în orice moment.
Testele mai simple vă pot oferi câștiguri rapide și ușoare.
Dar testele mai mari, cu schimbări mai mari, produc adesea efecte mai mari. De fapt, conform unor cercetări de optimizare, cu cât efectuați teste mai multe și mai complexe, cu atât sunt mai multe șansele de succes. Așa că nu vă fie teamă să faceți teste mari de swing, des.
Fiți conștienți, compromisul este că veți cheltui mai multe resurse pentru proiectarea și construirea testului. Și nu există nicio garanție că va câștiga.
Test bazat pe resursele umane disponibile
Dacă ești un strateg CRO singur sau lucrezi cu o echipă mică, capacitatea ta este limitată. Indiferent dacă sunt simple sau complexe, s-ar putea să descoperi că 2-5 teste pe lună te ajută.
În schimb, dacă sunteți într-o organizație care are o echipă dedicată de cercetători, strategi, designeri, dezvoltatori și specialiști QA, probabil că aveți capacitatea de a rula zeci până la sute de teste pe lună.
Pentru a determina câte teste ar trebui să rulați, evaluați disponibilitatea resurselor umane.
În medie, un test simplu poate dura 3-6 ore pentru a idea, a încadra, a proiecta, a dezvolta, a implementa, a QA și a monitoriza rezultatele.
Pe de altă parte, un test extrem de complex poate dura oriunde până la 15-20 de ore.
Există aproximativ 730 de ore într-o lună, așa că vei dori să fii foarte calculat în ceea ce privește testele și numărul de teste pe care le rulezi în acest timp prețios.
Planificați și prioritizați ideile dvs. de testare
Pentru a vă ajuta să vă mapați structura optimă de testare, luați în considerare utilizarea unui cadru de prioritizare a testării, cum ar fi PIE, ICE sau PXL.
Aceste cadre oferă o tehnică cantitativă pentru clasarea ideilor tale de testare de top, evaluarea ușurinței implementării și evaluarea testelor care sunt cele mai susceptibile de a crește conversiile.
După efectuarea acestei evaluări, lista dvs. prioritizată de idei de testare va arăta cam așa:
Cu ideile dvs. de testare de top clasate, se recomandă, de asemenea, să creați o foaie de parcurs de testare pentru a vă planifica vizual cronologia testului și pașii următori.
Foaia de parcurs poate arăta cam așa:
Ar trebui să includă:
- Lista de idei pe care intenționați să le testați, după pagină.
- Cât timp anticipați că va dura fiecare etapă de testare (proiectare, dezvoltare, QA etc.).
- Cât timp intenționați să rulați fiecare test, pe baza cerințelor de dimensiunea eșantionului precalculate. Puteți calcula cerințele privind durata testului folosind un calculator de durată a testului ca acesta.
Prin cartografierea ideilor dvs. de testare, veți putea determina cu mai multă precizie cadența și capacitatea de testare.
Pe măsură ce vă completați foaia de parcurs de testare, poate deveni foarte clar că numărul de teste pe care le puteți rula se bazează pe resursele pe care le aveți la dispoziție.
Ar trebui să efectuați mai multe teste simultan?
Dar doar pentru că poți face ceva, nu înseamnă întotdeauna că ar trebui.
Când vine vorba de rularea mai multor teste simultan, există o mare dezbatere despre cea mai bună abordare.
Articole, ca acesta, ale liderului Experiment Nation, Rommil Santiago, aduc o întrebare controversată: este bine să rulezi mai multe teste A/B simultan?
Unii experimentatori vor spune, absolut nu!
Ei vor argumenta că ar trebui să rulați un singur test, o pagină la un moment dat. În caz contrar, nu veți putea izola în mod corespunzător niciun efect.
Am fost în această tabără pentru că așa am fost învățat acum aproape un deceniu.
Mi s-a spus cu strictețe că ar trebui să rulați un singur test, cu o singură modificare, pe o singură pagină, la un moment dat. Am operat cu această mentalitate timp de mulți ani - spre consternarea clienților anxioși care doreau mai multe rezultate mai repede.
Cu toate acestea, acest articol al lui Timothy Chan, un fost cercetător de date la Facebook și acum principalul cercetător de date la Statsig, mi-a schimbat complet părerea.
În lucrarea sa, susține Chan, efectele de interacțiune sunt mult supraevaluate.
De fapt, rularea mai multor teste simultan nu este doar o problemă; chiar este singurul mod de a testa!
Această poziție este susținută de datele din perioada petrecută pe Facebook, unde Chan a văzut că gigantul rețelelor sociale a derulat cu succes sute de experimente simultan, multe dintre ele chiar și pe aceeași pagină.
Experții în date precum Ronny Kohavi și Hazjier Pourkhalkhali sunt de acord: efectele interacțiunii sunt foarte puțin probabile. Și, de fapt, cel mai bun mod de a testa succesul este să rulezi mai multe teste în mai multe ori, în mod continuu.
Deci, atunci când luați în considerare cadența de testare, nu vă faceți griji cu privire la efectul de interacțiune al testelor care se suprapun. Testați liberal.
rezumat
În testarea A/B, nu există un număr optim de teste A/B pe care ar trebui să le rulați.
Numărul ideal este cel potrivit pentru situația dvs. unică.
Acest număr se bazează pe mai mulți factori, inclusiv constrângerile privind dimensiunea eșantionului site-ului dvs., complexitatea ideilor de testare și suportul și resursele disponibile.
Până la urmă, nu este vorba atât de numărul de teste pe care le rulezi, ci mai degrabă de calitatea testelor și de rezultatele pe care le obții. Un singur test care aduce o ridicare mare este mult mai valoros decât mai multe teste neconcludente care nu mișcă acul.
Testarea înseamnă cu adevărat calitate mai degrabă decât cantitate!
Pentru mai multe despre cum să obțineți cea mai mare valoare din programul dvs. de testare A/B, consultați acest articol Convert.