Quanti test A/B dovresti eseguire al mese?

Pubblicato: 2023-01-19
Quanti test A:B dovresti eseguire al mese?

È una domanda importante da considerare per il successo del tuo programma di test.

Esegui troppi test e potresti sprecare risorse senza ottenere molto valore da ogni singolo esperimento.

Ma esegui troppi pochi test e potresti perdere importanti opportunità di ottimizzazione che potrebbero portare a più conversioni.

Quindi, dato questo enigma, qual è la cadenza di test ideale?

Per aiutare a rispondere a questa domanda, fa $en$e dare un'occhiata ad alcuni dei team di sperimentazione di maggior successo e progressivi al mondo.

Amazon è uno di questi nomi che mi viene in mente.

Il gigante dell'e-commerce è anche un gigante della sperimentazione. In effetti, si dice che Amazon esegua oltre 12.000 esperimenti all'anno! Questo importo si riduce a circa mille esperimenti al mese.

Si dice che aziende come Google e Bing di Microsoft mantengano un ritmo simile.

Secondo Wikipedia, i giganti dei motori di ricerca eseguono ciascuno oltre 10.000 test A/B all'anno o circa 800 test al mese.

E non sono solo i motori di ricerca che funzionano a questo ritmo.

Booking.com è un altro nome degno di nota nella sperimentazione. Si dice che il sito di prenotazione viaggi esegua oltre 25.000 test all'anno, il che equivale a oltre 2.000 test al mese o 70 test al giorno!

Tuttavia, gli studi dimostrano che l'azienda media esegue solo 2-3 test al mese.

Quindi, se la maggior parte delle aziende esegue solo pochi test al mese, ma alcune delle migliori aziende del mondo eseguono migliaia di esperimenti al mese, quanti test dovresti, idealmente, eseguire?

In vero stile CRO, la risposta è: dipende.

Da cosa dipende? Una serie di fattori importanti che devi considerare.

Il numero ideale di test A/B da eseguire è determinato dalla situazione specifica e da fattori come la dimensione del campione, la complessità delle idee di test e le risorse disponibili.

I 6 fattori da considerare quando si eseguono i test A/B

Ci sono 6 fattori essenziali da considerare quando si decide quanti test eseguire al mese. Loro includono

  • Requisiti per la dimensione del campione
  • Maturità organizzativa
  • Risorse disponibili
  • Complessità delle idee di test
  • Tempi di prova
  • Effetti di interazione

Approfondiamo ciascuno di essi.

Requisiti per la dimensione del campione

Nei test A/B, la dimensione del campione descrive la quantità di traffico necessaria per eseguire un test affidabile.

Per eseguire uno studio statisticamente valido, è necessario un campione ampio e rappresentativo di utenti.

Mentre, in teoria, puoi eseguire un esperimento con pochi utenti, non otterrai risultati molto significativi.

Campioni di dimensioni ridotte possono ancora produrre risultati statisticamente significativi

Ad esempio, immagina un test A/B in cui solo 10 utenti hanno visto la versione A e 2 convertite. E solo 8 utenti hanno visto la versione B con 6 che si sono convertiti.

Come mostra questo grafico, i risultati sono statisticamente significativi:

Esempio di risultati di test statisticamente significativi

La versione B sembra sovraperformare del 275%. Ma questi risultati non sono molto affidabili. La dimensione del campione è troppo bassa per fornire risultati significativi.

Lo studio è sottodimensionato. Non contiene un campione ampio e rappresentativo di utenti.

Poiché il test è sottodimensionato, i risultati sono soggetti a errori. E non è chiaro se il risultato sia avvenuto solo per caso o se una versione sia veramente superiore.

Con questo piccolo esempio, è facile trarre conclusioni errate.

Prove correttamente alimentate

Per superare questa trappola, i test A/B devono essere adeguatamente alimentati con un campione ampio e rappresentativo di utenti.

Quanto è grande abbastanza?

A questa domanda si può rispondere facendo alcuni semplici calcoli sulla dimensione del campione.

Per calcolare più facilmente i requisiti della dimensione del campione, suggerisco di utilizzare un calcolatore della dimensione del campione. Ce ne sono molti là fuori.

Il mio preferito è quello di Evan Miller perché è flessibile e completo. Inoltre, se riesci a capire come usarlo, puoi afferrare quasi tutti i calcolatori là fuori.

Ecco come appare la calcolatrice di Evan Miller:

Calcolatore della dimensione del campione di Evan Miller

Mentre i calcoli stessi sono abbastanza semplici, la comprensione della terminologia dietro di loro non lo è. Quindi ho cercato di chiarire il complesso:

Tasso di conversione di riferimento

Il tasso di conversione di base è il tasso di conversione esistente del controllo o della versione originale. Di solito è etichettato come "versione A" quando si imposta un test A/B.

Dovresti essere in grado di trovare questo tasso di conversione all'interno della tua piattaforma di analisi.

Se non hai mai eseguito un test A/B o non conosci il tasso di conversione di base, fai la tua ipotesi più plausibile.

Il tasso di conversione medio, nella maggior parte dei siti, settori verticali e tipi di dispositivi, è compreso tra il 2 e il 5%. Quindi, se non sei davvero sicuro del tuo tasso di conversione di riferimento, pecca per eccesso di cautela e inizia con un tasso di riferimento del 2%.

Più basso è il tasso di conversione di base, maggiore sarà la dimensione del campione di cui avrai bisogno. E viceversa.

Effetto minimo rilevabile (MDE)

Minimum Detectable Effect (MDE) suona come un concetto complicato. Ma diventa molto più facile da capire se spezzi il termine nelle sue tre parti:

  • Minimo = più piccolo
  • Detectable = vuoi che stai cercando di rilevare, o trovare, eseguendo l'esperimento
  • Effetto = differenza di conversione tra controllo e trattamento

Pertanto, l'effetto minimo rilevabile è il più piccolo aumento delle conversioni che speri di rilevare eseguendo il test.

Alcuni puristi dei dati sosterranno che questa definizione descrive in realtà il Minimum Effect of Interest (MEI). In qualunque modo tu voglia definirlo, l'obiettivo è anticipare l'entità dell'aumento delle conversioni che ti aspetti di ottenere eseguendo il test.

Sebbene questo esercizio possa sembrare molto speculativo, puoi utilizzare un calcolatore della dimensione del campione come questo o il calcolatore statistico del test A/B di Convert per calcolare l'MDE previsto.

Come regola empirica molto generale, un MDE del 2-5% è considerato ragionevole. Qualsiasi cosa molto più alta di solito non è realistica quando si esegue un test veramente adeguatamente potenziato.

Più piccolo è l'MDE, maggiore è la dimensione del campione necessaria. E viceversa.

Un MDE può essere espresso come importo assoluto o relativo.

Assoluto

Un MDE assoluto è la differenza numerica non elaborata tra il tasso di conversione del controllo e la variante.

Ad esempio, se il tasso di conversione di base è del 2,77% e prevedi che la variante raggiunga un MDE assoluto del +3%, la differenza assoluta è del 5,77%.

Parente

Al contrario, un effetto relativo esprime la differenza percentuale tra le varianti.

Ad esempio, se il tasso di conversione di base è del 2,77% e ti aspetti che la variante raggiunga un MDE relativo del +3%, la differenza relativa è del 2,89%.

In generale, la maggior parte degli sperimentatori utilizza un aumento percentuale relativo, quindi, in genere, è meglio rappresentare i risultati in questo modo.

Potenza statistica 1−β

Il potere si riferisce alla probabilità di trovare un effetto, o differenza di conversione, supponendo che ne esista davvero uno.

Nei test, il tuo obiettivo è assicurarti di avere abbastanza potenza per rilevare in modo significativo una differenza, se ne esiste una, senza errori. Pertanto, una potenza maggiore è sempre migliore. Ma il compromesso è che richiede una dimensione del campione più ampia.

Una potenza di 0,80 è considerata la migliore pratica standard. Quindi, puoi lasciarlo come intervallo predefinito su questa calcolatrice.

Questa quantità significa che c'è una probabilità dell'80% che, se c'è un effetto, lo rileverai accuratamente senza errori. In quanto tale, c'è solo una probabilità del 20% di non riuscire a rilevare correttamente l'effetto. Un rischio che vale la pena correre.

Livello di significatività α

Come definizione molto semplice, il livello di significatività alfa è il tasso di falsi positivi o la percentuale di tempo in cui verrà rilevata una differenza di conversione, anche se in realtà non esiste.

Come best practice per i test A/B, il tuo livello di significatività dovrebbe essere del 5% o inferiore. Quindi puoi semplicemente lasciarlo come predefinito su questa calcolatrice.

Un livello di significatività α del 5% significa che c'è una probabilità del 5% che troverai una differenza tra il controllo e la variante, quando in realtà non esiste alcuna differenza.

Ancora una volta, un rischio che vale la pena correre.

Valutazione dei requisiti di dimensione del campione

Con questi numeri inseriti nel tuo calcolatore, ora puoi assicurarti che il tuo sito abbia traffico sufficiente per eseguire un test correttamente potenziato per un periodo di tempo di test standard da 2 a 6 settimane.

Per verificare, accedi alla tua piattaforma di analisi preferita e osserva il tasso di traffico medio storico del sito o della pagina che desideri testare, per un periodo limitato.

Ad esempio, in questo account Google Analytics 4 (GA4), andando alla scheda Ciclo di vita > Acquisizione > Panoramica acquisizione , puoi vedere che c'erano 365 mila utenti nel recente periodo storico compreso tra ottobre e novembre 2022:

Dimensione GA4 del numero di utenti
Questo intervallo di date è stato utilizzato per evitare cambiamenti nel traffico stagionale durante il periodo festivo.

Sulla base di un tasso di conversione di riferimento esistente del 3,5%, con un MDE relativo del 5%, con una potenza standard dell'80% e un livello di significatività standard del 5%, il calcolatore mostra che è necessaria una dimensione del campione di 174.369 visitatori per variante per eseguire correttamente un test A/B alimentato:

Esempio di calcolatore della dimensione del campione di Evan Miller

Supponendo che le tendenze del traffico rimangano relativamente stabili per i prossimi mesi, è ragionevole aspettarsi che il sito raggiunga circa 365mila utenti o (365mila/2 varianti) 182mila visitatori per variante entro un ragionevole lasso di tempo di test.

I requisiti relativi alle dimensioni del campione sono realizzabili, dando il via libera per procedere ed eseguire il test.

Una nota importante, questo esercizio di verifica dei requisiti delle dimensioni del campione dovrebbe essere sempre eseguito PRIMA dell'esecuzione di qualsiasi studio in modo da sapere se si dispone di traffico sufficiente per eseguire un test adeguatamente potenziato.

Inoltre, durante l'esecuzione del test, non devi MAI interrompere il test prima di raggiungere i requisiti di dimensione del campione precalcolati, anche se i risultati appaiono significativi prima.

Dichiarare prematuramente un vincitore, o un perdente, prima di soddisfare i requisiti di dimensione del campione è ciò che è noto come "sbirciare" ed è una pratica di test pericolosa che può portarti a effettuare chiamate errate prima che i risultati siano completamente cancellati.

Quanti test puoi eseguire se hai abbastanza traffico?

Supponendo che il sito o le pagine che desideri testare soddisfino i requisiti di dimensione del campione, quanti test puoi eseguire?

La risposta è, ancora una volta, dipende.

Secondo una presentazione condivisa da Ronny Kohavi, l'ex vicepresidente della sperimentazione presso Bing di Microsoft, Microsoft in genere esegue oltre 300 esperimenti al giorno.

Ma hanno il traffico per farlo.

Ogni esperimento vede oltre 100mila utenti:

Test simultanei di Microsoft Bing 300

Maggiore è il tuo traffico disponibile, più test puoi eseguire.

Con qualsiasi test, devi assicurarti di avere una dimensione del campione sufficientemente grande per eseguire un esperimento correttamente potenziato.

Se sei un'organizzazione più piccola con un traffico più limitato, prendi in considerazione meno test di qualità superiore.

Alla fine della giornata, non si tratta davvero di quanti test stai eseguendo, ma del risultato dei tuoi esperimenti.

Opzioni se non riesci a soddisfare i requisiti relativi alle dimensioni del campione

Se scopri di non poter soddisfare i requisiti relativi alle dimensioni del campione, non preoccuparti. La sperimentazione non è fuori dal tavolo per te. Hai a disposizione alcune potenziali opzioni di sperimentazione:

  1. Concentrati sull'acquisizione del traffico

Anche i siti di grandi dimensioni possono avere un traffico ridotto su determinate pagine.

Se ritieni che il traffico del sito o il traffico su determinate pagine non soddisfi i requisiti relativi alle dimensioni del campione, valuta la possibilità di concentrare gli sforzi sull'acquisizione di più traffico.

Per fare ciò, puoi intraprendere tattiche aggressive di ottimizzazione dei motori di ricerca (SEO) per posizionarti più in alto nei motori di ricerca e ottenere più clic.

Puoi anche acquisire traffico a pagamento attraverso canali come Google Ads, annunci LinkedIn o persino banner pubblicitari.

Entrambe queste attività di acquisizione possono aiutare a incrementare il traffico web e darti una maggiore capacità di testare ciò che converte meglio con gli utenti.

Tuttavia, se utilizzi il traffico a pagamento per soddisfare i requisiti relativi alle dimensioni del campione, prendi in considerazione la possibilità di segmentare i risultati dei test in base al tipo di traffico poiché il comportamento dei visitatori può variare in base alla sorgente di traffico.

  1. Valuta se il test A/B è il miglior metodo di sperimentazione per te

Mentre il test A/B è considerato il gold standard della sperimentazione, i risultati sono buoni solo quanto i dati che li stanno dietro.

Se ritieni di non avere abbastanza traffico per eseguire un test adeguatamente potenziato, potresti considerare se il test A/B è davvero la migliore opzione di sperimentazione per te.

Esistono altri approcci basati sulla ricerca che richiedono campioni molto più piccoli e possono comunque produrre informazioni di ottimizzazione incredibilmente preziose.

I test dell'esperienza utente (UX), i sondaggi sui consumatori, gli exit poll o le interviste ai clienti sono alcune altre modalità di sperimentazione che puoi provare in alternativa al test A/B.

  1. I risultati di Realize possono fornire solo dati direzionali

Ma se rimani concentrato sui test A/B, puoi comunque eseguire i test.

Tieni presente che i risultati potrebbero non essere del tutto accurati e forniranno solo "dati direzionali" che indicano il risultato probabile, piuttosto che completamente affidabile.

Poiché i risultati potrebbero non essere del tutto veritieri, ti consigliamo di monitorare attentamente l'effetto della conversione nel tempo.

Detto questo, ciò che è spesso più importante dei dati di conversione accurati sono i numeri nel conto bancario. Se stanno salendo, sai che il lavoro di ottimizzazione che stai facendo sta funzionando.

Test di maturità

Oltre ai requisiti sulla dimensione del campione, un altro fattore che influenza la cadenza dei test è il livello di maturità dell'organizzazione di test.

Testare la maturità è un termine usato per descrivere quanto sia radicata la sperimentazione all'interno di una cultura organizzativa e quanto siano avanzate le pratiche di sperimentazione.

Organizzazioni come Amazon, Google, Bing e Booking, che eseguono migliaia di test al mese, dispongono di team di test progressivi e maturi.

Non è una coincidenza.

La cadenza dei test tende ad essere strettamente legata al livello di maturità di un'organizzazione.

Se la sperimentazione è radicata all'interno dell'organizzazione, la direzione vi si impegna. Inoltre, i dipendenti, in tutta l'organizzazione, sono generalmente incoraggiati a supportare e dare priorità alla sperimentazione e possono persino aiutare a fornire idee di test.

Quando questi fattori si uniscono, è molto più facile eseguire un opportuno programma di test.

Se speri di intensificare i test, può essere utile esaminare prima il livello di maturità della tua organizzazione.

Inizia valutando domande come

  • Quanto è importante la sperimentazione per la C-Suite?
  • Quali risorse vengono fornite per favorire la sperimentazione?
  • Quali canali di comunicazione sono disponibili per comunicare gli aggiornamenti sui test?

Se la risposta è "nessuna" o quasi, considera di lavorare prima sulla creazione di una cultura del test.

Man mano che la tua organizzazione adotta una cultura di sperimentazione più progressiva, sarà naturalmente più facile aumentare la cadenza dei test.

Per suggerimenti su come creare una cultura della sperimentazione, dai un'occhiata a risorse come questo articolo e questo.

Limiti di risorse

Supponendo che tu abbia già un certo grado di consenso organizzativo, il prossimo problema da combattere sono i limiti delle risorse.

Tempo, denaro e potere umano sono tutte limitazioni che possono limitare la tua capacità di testare. E prova rapidamente.

Per superare i vincoli di risorse, può essere utile iniziare valutando la complessità del test.

Bilancia test semplici e complessi

Come sperimentatore, puoi scegliere di eseguire test che vanno dal super semplice al folle complesso.

Semplici test potrebbero includere l'ottimizzazione di elementi come la copia o il colore, l'aggiornamento delle immagini o lo spostamento di singoli elementi in una pagina.

Test complessi possono comportare la modifica di diversi elementi, l'alterazione della struttura della pagina o l'aggiornamento della canalizzazione di conversione. Questi tipi di test richiedono spesso un lavoro di codifica approfondito.

Attraverso l'esecuzione di migliaia di test A/B, ho trovato utile avere una combinazione di circa ⅗ test più semplici e ⅖ più complessi eseguiti contemporaneamente in ogni momento.

I test più semplici possono darti vittorie facili e veloci.

Ma test più grandi, con cambiamenti più grandi, spesso producono effetti più grandi. In effetti, secondo alcune ricerche sull'ottimizzazione, più test esegui e più complessi, più è probabile che tu abbia successo. Quindi non aver paura di eseguire spesso grandi test di swing.

Tieni presente che il compromesso è che spenderai più risorse per progettare e costruire il test. E non c'è alcuna garanzia che vincerà.

Test basato sulle risorse umane disponibili

Se sei uno stratega CRO solista o lavori con un piccolo team, la tua capacità è limitata. Che siano semplici o complessi, potresti scoprire che 2-5 test al mese ti toccano.

Al contrario, se fai parte di un'organizzazione che dispone di un team dedicato di ricercatori, strateghi, designer, sviluppatori e specialisti di QA, probabilmente avrai la capacità di eseguire da dozzine a centinaia di test al mese.

Per determinare quanti test dovresti eseguire, valuta la disponibilità delle tue risorse umane.

In media, un semplice test può richiedere 3-6 ore per ideare, wireframe, progettare, sviluppare, implementare, QA e monitorare i risultati.

D'altra parte, un test molto complesso può richiedere fino a 15-20 ore.

Ci sono circa 730 ore in un mese, quindi vorrai essere molto calcolato riguardo ai test e al numero di test che stai eseguendo durante questo tempo prezioso.

Pianifica e dai priorità alle tue idee di test

Per aiutarti a mappare la tua struttura di test ottimale, prendi in considerazione l'utilizzo di un framework di prioritizzazione dei test, come PIE, ICE o PXL.

Questi framework forniscono una tecnica quantitativa per classificare le tue migliori idee di test, valutare la facilità di implementazione e valutare quali test hanno maggiori probabilità di aumentare le conversioni.

Dopo aver condotto questa valutazione, il tuo elenco di idee di test con priorità sarà simile a questo:

Framework di priorità PXL di CXL

Con le tue migliori idee di test classificate, ti consigliamo anche di creare una roadmap di test per pianificare visivamente la sequenza temporale del test e i passaggi successivi.

La tua tabella di marcia potrebbe essere simile a questa:

Esempio di roadmap di test

Dovrebbe includere:

  • L'elenco delle idee che intendi testare, per pagina.
  • Quanto tempo prevedi che ogni fase di test (progettazione, sviluppo, QA, ecc.) richiederà.
  • Per quanto tempo intendi eseguire ciascun test, in base ai requisiti di dimensione del campione precalcolati. Puoi calcolare i requisiti di durata del test utilizzando un calcolatore di durata del test come questo.

Mappando le tue idee di test, sarai in grado di determinare con maggiore precisione la cadenza e la capacità dei test.

Man mano che compili la roadmap dei test, può diventare molto chiaro che il numero di test che puoi eseguire si basa sulle risorse che hai a disposizione.

Dovresti eseguire più test alla volta?

Ma solo perché puoi fare qualcosa, non sempre significa che dovresti.

Quando si tratta di eseguire più test alla volta, c'è un grande dibattito sull'approccio migliore.

Articoli, come questo, del leader di Experiment Nation, Rommil Santiago, sollevano una domanda controversa: va bene eseguire più test A/B contemporaneamente?

Alcuni sperimentatori diranno, assolutamente no!

Sosterranno che dovresti eseguire un solo test, una pagina alla volta. Altrimenti, non sarai in grado di isolare correttamente alcun effetto.

Ero in questo campo perché è così che mi è stato insegnato quasi un decennio fa.

Mi è stato rigorosamente impartito che dovresti eseguire un solo test, con una modifica, su una pagina, alla volta. Ho operato con questa mentalità per molti anni, con grande sgomento dei clienti ansiosi che volevano più risultati più velocemente.

Tuttavia, questo articolo di Timothy Chan, ex data scientist di Facebook e ora lead data scientist di Statsig, mi ha fatto cambiare completamente idea.

Nel suo articolo, sostiene Chan, gli effetti dell'interazione sono decisamente sopravvalutati.

Infatti, l'esecuzione simultanea di più test non solo non è un problema; è davvero l'unico modo per testare!

Questa posizione è supportata dai dati del suo periodo su Facebook, dove Chan ha visto il gigante dei social media eseguire con successo centinaia di esperimenti contemporaneamente, molti dei quali anche sulla stessa pagina.

Esperti di dati come Ronny Kohavi e Hazjier Pourkhalkhali concordano: gli effetti dell'interazione sono altamente improbabili. E, infatti, il modo migliore per testare il successo è eseguire più test in più volte, su base continuativa.

Quindi, quando si considera la cadenza dei test, non preoccuparsi dell'effetto di interazione dei test sovrapposti. Prova liberamente.

Riepilogo

Nei test A/B, non esiste un numero ottimale di test A/B da eseguire.

Il numero ideale è quello giusto per la tua situazione unica.

Questo numero si basa su diversi fattori, tra cui i limiti delle dimensioni del campione del tuo sito, la complessità delle idee di test e il supporto e le risorse disponibili.

Alla fine, non si tratta tanto del numero di test che esegui, ma piuttosto della qualità dei test e dei risultati che ottieni. Un singolo test che porta un grande sollevamento è molto più prezioso di diversi test inconcludenti che non muovono l'ago.

I test riguardano davvero la qualità piuttosto che la quantità!

Per ulteriori informazioni su come ottenere il massimo dal tuo programma di test A/B, dai un'occhiata a questo articolo di Convert.