La guida passo passo senza gergo per comprendere (completamente) le metriche dei test A/B
Pubblicato: 2022-08-02I grandi contenuti non sono creati da un individuo. Saluta gli esperti che hanno reso possibile questa guida. Oltre 80 anni di sperimentazione ed esperienza di test A/B – in aminuto letto.
Cercare di capire le metriche dei test A/B è come andare in una tana di definizioni complicate, gergo tecnico e "opinioni" di esperti senza fine.
Non ti biasimiamo se hai emesso più di un sospiro esasperato cercando di trovare qualcosa di valore online.
Anche se sei convinto di voler eseguire esperimenti, potrebbe sembrare che quelli a conoscenza siano informazioni di gatekeeping.
Ma siamo determinati a cambiarlo. La sperimentazione è per tutti e alla fine ci crederai anche tu.
- Una dura verità su come iniziare con la sperimentazione
- Diversi modi per visualizzare le metriche dei test A/B
- Il caso per passare a una strategia Insights First (con le giuste metriche)
- Metriche di input, output e risultati: decostruire i programmi di sperimentazione con Ben Labay e Alex Birkett
- La struttura di Ben
- Il quadro di riferimento di Alex
- Obiettivi, driver e guardrail: metriche per ambito
- Metriche dell'obiettivo o della stella polare
- Metriche del conducente
- Metriche del guardrail
- Una visione filosofica delle metriche: le 5 Ws
- Scegliere le metriche che fanno la differenza con un albero dei driver
- Segui questi 3 passaggi per avviare il tuo programma di sperimentazione
- Modelli mentali: come i professionisti scelgono le loro metriche negli esperimenti nel mondo reale
- Ben Labay e la mappatura degli obiettivi
- Come Deborah O'Malley ha contribuito ad aumentare il CTR
- Perché Justin Christianson aggiunge punti dati secondari
- CXO: l'apice dell'apprendimento Prima sperimentazione?
Una dura verità su come iniziare con la sperimentazione
Analizzeremo il modo in cui le metriche vengono visualizzate attraverso obiettivi diversi ma, prima, dobbiamo essere chiari.
Probabilmente hai già sentito questa affermazione: "Non ci sono perdite nei test A/B, solo apprendimento".
Questo è parzialmente vero.
Test inconcludenti (piatti) e persino perdite possono aiutarti a farti un'idea chiara di ciò che non funziona per il tuo pubblico di destinazione. Ma se stai costruendo il programma di sperimentazione e non hai ancora il buy-in C-suite, preparati a navigare in acque difficili. Comprendi che quelli che tengono i cordoni della borsa non saranno particolarmente contenti di avere discussioni esoteriche sugli “apprendimenti” senza un'istruzione considerevole.
Per ottenere la loro approvazione, dovrai prima mostrare vincite rapide e tangibili . I risultati dei test A/B che i tuoi manager possono riferire alla leadership in modo che mostrino una certa fiducia nel fatto che il metodo scientifico di sperimentazione in gran parte accademico può davvero spingere qualcosa di pratico come un business in avanti.
E il modo più semplice per farlo?
Cerca il frutto più basso: migliora il tasso di conversione su un'esperienza utente che è ragionevolmente vicina a influenzare le offerte o gli acquisti. Supponiamo che un aumento diretto di 1000 unità negli ordini effettuati (come indicato dal risultato del test) sia facile da convertire in dollari e profitti.
Porta quel rapporto in una riunione del consiglio e avrai la stanza piena di eccitazione, del tipo che deriva dalla scoperta di un altro "canale di acquisizione" noto anche come CRO.
Ma il quarto andrà e verrà senza che tu veda mai il picco promesso. I dirigenti che ti hanno salutato come il futuro del business saranno molto delusi. Seguiranno tagli al budget. E qualcuno in alto (*tosse* l'incorreggibile HiPPO *tosse*) sputerà qualche mumbo-jumbo su come la sperimentazione non potrà mai battere i canali tradizionali come pubblicità ed eventi che hanno resistito alla prova del tempo.
[HiPPO = Persona più pagata con un'opinione]
Vedi cos'è appena successo? Attivando la tua visione a tunnel, hai relegato la sperimentazione a essere solo CRO, qualcosa che è visto (quasi) come un nuovo canale di acquisizione per recuperare i soldi rimasti sul tavolo. E insieme a quello? Tutte le grandi affermazioni, truffe e insidie che tendono ad accompagnarlo.
Segnalibro: test A/B: una guida completa che vorrai mettere nei preferiti
Diversi modi per visualizzare le metriche dei test A/B
La sperimentazione è una macchina. Ma la maggior parte delle persone ha una comprensione imperfetta di come funziona.
Pensano che l' input sia problemi di business e l' output sia soluzioni aziendali valide statisticamente significative . E questo potrebbe essere il quadro più ampio ideale.
Ingrandita, la macchina di sperimentazione accetta l'apprendimento e gli sforzi compiuti sul processo scientifico come input e fornisce le metriche del programma come output.
Ma qui c'è un grande SE: affinché l'output alla fine produca i risultati previsti e desiderati, la qualità del programma di sperimentazione è fondamentale.
TL; DR: migliore è l'input (dati raccolti, istruzione, certificazioni, alfabetizzazione dei dati e processi), migliore è l'output (velocità dell'esperimento, percentuale di vincita, vincita media per esperimento) e maggiori sono le possibilità di raggiungere l'obiettivo (s) con cui hai allineato il tuo programma di sperimentazione.
Solo quando sei ossessionato dalla qualità della sperimentazione avrai maggiori possibilità di vedere un risultato che possa muovere l'ago su grandi problemi di crescita ed efficienza che tutte le aziende vogliono risolvere.
Il modo per arrivarci è avere una strategia di metrica che non metta i risultati su un piedistallo.
Invece, aiuta il team a misurare e tenere traccia dell'input e dell'output (l'input è l'unico fattore che ha il pieno controllo dell'ottimizzatore) e li usa come indicatore del progresso. Il viaggio verso il risultato non è uno sprint, è una maratona che si corre in background come sottoprodotto di una buona sperimentazione.
Non fraintenderci. Questo è più facile a dirsi che a farsi.
Spesso gli esperimenti dimostreranno che alcune modifiche non dovrebbero essere apportate. Particolari caratteristiche non dovrebbero essere spedite! E la sperimentazione in sé e per sé è deliberata... spostando l'attenzione da una strategia di spedizione prioritaria a una strategia di insight e learning first (supportata dalle giuste metriche).
L'esitazione nella sperimentazione è incredibilmente comune tra i dirigenti. La maggior parte dei fondatori ha anni di costruzione dell'azienda senza esperimenti e può sembrare che la sperimentazione sia una forza conservatrice che ostacola la velocità dell'azienda, il marketing del prodotto e l'innovazione moonshot.
Erik Bernhardsson, fondatore di Modal Labs
Il caso per passare a una strategia Insights First (con le giuste metriche)
Per fare progressi concreti, dobbiamo passare dalla ricerca di una strategia di spedizione a una strategia metrica. Questo decentralizza la strategia del prodotto, cioè spinge l'ideazione verso il basso, il che è l'ideale. E adottare una strategia metrica significa intrinsecamente sperimentazione. Non puoi evitare di testare in che modo le modifiche ai nuovi prodotti influiscono sulla tua attività.
Buona lettura: la guida completa ai test multivariati nel 2022
Il "perché" del tuo programma di sperimentazione è codificato nella tua strategia delle metriche.
- Tutti i tuoi sforzi sono concentrati su vincite e entrate rapide?
- La sperimentazione è il modo per comprendere i tuoi clienti e offrire loro valore durante tutto il loro ciclo di vita?
- O la sperimentazione è l'obiettivo in sé e per sé, dove meglio si testa, più intuizioni affidabili si genera e la tua responsabilità è mantenere questa ruota in movimento, senza influire negativamente sulle esperienze esistenti?
Ne parleremo più avanti con Ben Labay di Speero.
Da esperimento a esperimento, le metriche rafforzano il tuo (reale) focus. Puoi avere un manifesto di 10 pagine che parla dell'incorporamento della sperimentazione nel DNA della tua azienda per accelerare l'innovazione, ma se il tuo obiettivo principale è sempre orientato alla conversione, allora il tuo programma di test è essenzialmente un programma CRO. Questo potrebbe essere ciò che vuoi ottenere, ma tieni presente i vincoli che si manifesteranno lungo la linea, incluso il pensare ai test A/B come servi di acquisizione/ricavi: francamente, non lo sono.
Diverse classi di metriche consentono di tenere traccia degli indicatori importanti per la C-suite, ottimizzando il programma per test di qualità superiore, approfondimenti causali e passando attraverso diverse iterazioni per migliorare il funzionamento interno della macchina in modo che i risultati possano iniziare a guidare i risultati a lungo termine.
Questo video con Tim Mehta è una sbirciatina schietta sul perché una narrativa di sperimentazione che ruota esclusivamente attorno all'apprendimento non è una posizione pratica da assumere.
Penso che sia davvero bello ottenere tutti quegli insegnamenti sul lato del coinvolgimento, ma per il tuo imprenditore essere in grado di farti sapere di continuare a creare risorse per il programma e ottenere un budget per esso essenzialmente sai che devi assicurarti di essere in grado di dimostrare almeno che dal punto di vista aziendale il valore in dollari che sperimenta il programma ti sta portando.
Quindi penso che per molte sperimentazioni sia più così intorno al metodo scientifico generale di tutto ciò che stai cercando di fare è imparare che c'è questo è lo sai che non è tanto vincita/perdita quanto è ipotesi provata uh sai provata o rifiutata um mentre con quello che stiamo facendo bene, la maggior parte di noi si occupa di marketing e quindi, naturalmente, per poter continuare, dobbiamo essere in grado di comunicare un qualche tipo di vincita o valore di ricavo.
Tim Mehta, Direttore del marketing di crescita presso Lucid Software
A un livello più pratico, le metriche tengono l'apprendimento. Eseguire test piatti schiena contro schiena? Questo potrebbe essere un problema con il modo in cui raccogli i dati (problema incentrato sullo strumento) o con il modo in cui progetti gli esperimenti. Le metriche ti aiutano a trovare l'ago nel pagliaio e a fare di meglio.
TL&DR; Le metriche aiutano i tester a cogliere i vari aspetti della sperimentazione e a distribuirne l'impatto sulle parti interessate in un linguaggio che comprendono, apprezzano e apprezzano. La strategia delle metriche va ben oltre gli "obiettivi" e la posta in gioco rispetto al quale vengono valutate le variazioni vincenti e le sconfitte.
Attraverso le metriche, i programmi di sperimentazione vivono, maturano, si evolvono e hanno successo (o falliscono).
Metriche di input, output e risultati: decostruire i programmi di sperimentazione con Ben Labay e Alex Birkett
Ci sono molte definizioni sulle metriche primarie, secondarie e guardrail. Ma chiunque abbia condotto un programma di sperimentazione sa che deve esserci un quadro per definire i diversi livelli di obiettivi.
Quindi abbiamo posto a Ben Labay, amministratore delegato di Speero, e ad Alex Birkett, co-fondatore di Omniscient, questa domanda:
Qual è il tuo framework di metriche di riferimento per mappare le variabili misurate sull'impatto della sperimentazione a più livelli?
La struttura di Ben
1. Categorie di metriche del programma
Questo "per gradi" è da prendere alla leggera. Vuoi monitorare tutti questi in ogni momento, ma il FOCUS è leggermente diverso a seconda della fase del programma.
2. Inizia con una tassonomia metrica di primo livello, ecco la mia:
Poi, per ciascuno,
3. Esempi di metriche obiettivo:
Quindi
4. Esempi di metriche del driver
Quindi
5. Metriche del programma di guardrail
Così…. ALLORA hai gli ingredienti per una strategia metrica:
Nota: la sperimentazione nella fase iniziale dovrebbe concentrarsi sulle metriche di input, ma devi affrontare la pressione di produrre risultati che non si concretizzeranno se non hai l'istruzione, le persone e i processi giusti.
Erik Bernhardsson
È un ciclo autolesionista. Inoltre, le metriche dei risultati non dovrebbero essere celebrate subito, specialmente se stai proiettando "ricavi".
Il modo migliore per capirlo è guardare come Airbnb è passato a una strategia metrica:
"Gli ospiti dovevano prima chiedere il permesso agli host di rimanere nel loro Airbnb e gli host potevano decidere se gradire la richiesta di prenotazione. Ciò ha creato un sacco di attriti, è stata un'esperienza terribile per gli ospiti e ha aperto la porta a pregiudizi impropri per entrare nel processo.
Una strategia di spedizione del prodotto avrebbe dettato un sacco di funzionalità da spedire. Ma Airbnb ha creato un team forte con una strategia metrica: fare in modo che Airbnb raggiunga il 100% di prenotazioni istantanee.
Il risultato è stata una strategia pesante di esperimenti che ha spostato cumulativamente il mercato. Le modifiche al prodotto hanno riguardato il ranking di ricerca, l'onboarding dell'host e le funzionalità principali dell'host (ad es. controlli degli ospiti, regole della casa, impostazioni dei tempi di consegna, ecc.) che hanno consentito agli host di avere successo in un mondo in cui gli ospiti prenotano la loro casa all'istante.
Il quadro di riferimento di Alex
Il mio framework di riferimento per la mappatura delle metriche di sperimentazione è semplice: metriche di input e output .
Gli stakeholder si preoccupano delle metriche di output. Questi vengono utilizzati nei calcoli del ROI e dimostrano il valore del programma: cose come il tasso di conversione del sito Web, il tasso di conversione della canalizzazione, i lead di alta qualità, ecc.
Personalmente, penso che questi siano sopravvalutati a livello di programmazione e sottovalutati a livello di esperimento. Con ciò, intendo dire che se stai monitorando il tasso di conversione delle tue pagine web da un trimestre all'altro, la sperimentazione non sarà l'unica cosa che accadrà durante quel periodo di tempo. Raccolta fondi, tendenze macroeconomiche, spostamento dei canali di acquisizione: tutti questi possono essere enormi fattori di confusione. Puoi aggirare alcuni di questi avendo set di holdback o testando nuovamente la versione di base della tua esperienza digitale.
Sono sottovalutati in base all'esperimento perché le persone tendono a non pensare al loro KPI principale dell'esperimento, optando invece per includere una varietà di obiettivi e scegliere quello che si adatta alla loro narrativa. È davvero difficile trovare un obiettivo composito, un criterio di valutazione generale, per definire il tuo esperimento. Le metriche di input sono un modo migliore per avere un indicatore del nostro programma. I tre principali che guardo sono
a) velocità dell'esperimento
b) sperimentare il tasso di vincita e
c) vittoria media per esperimento.
Se sposto l'ago su uno di questi, è probabile che sposti l'ago sulle mie metriche di output
Obiettivi, driver e guardrail: metriche per ambito
Ben Labay usa l'analogia di un'auto per spiegare queste metriche:
Il punto cruciale è che hai metriche a lungo termine come le metriche degli obiettivi e questo è il tuo GPS o sistema di navigazione, ad esempio le metriche della stella polare (NSM).
Ciò è in contrasto con le metriche del conducente che sono le metriche a breve termine, note anche come tachimetro. Ad esempio, l'ottimizzazione del tasso di conversione per il valore medio dell'ordine (AOV).
Metti questo in ulteriore contrasto con le tue metriche di avviso e allineamento, come il tuo contagiri o il tuo misuratore di calore; queste sono le tue metriche di guard rail.
PS Guarda questo video di Ben per capire meglio queste categorie:
Metriche dell'obiettivo o della stella polare
Una metrica della stella polare o una metrica in ritardo o ad ampio raggio come definita da Ben è di natura più strategica che tattica.
Ad esempio, i test A/B di Netflix non sono progettati per migliorare il coinvolgimento, sono progettati per aumentare la fidelizzazione. Se stanno fidelizzando i clienti, significa che gli abbonati interagiscono e trovano valore nel prodotto. Quindi, la fidelizzazione racchiude diverse metriche tattiche come la percentuale di utenti che pagano o guardano più di 3 contenuti.
Leggi Avanti: La guida definitiva all'utilizzo degli obiettivi nei test A/B (e come convertire gli obiettivi degli assi)
Metriche del conducente
Questi indicatori anticipatori sono ciò su cui ti concentri a breve termine, ovvero la frequenza di rimbalzo e il tasso di conversione. A volte, avere una singola metrica non è sufficiente per valutare un risultato. È qui che entra in gioco il Criterio di valutazione globale o OEC .
Conosciuto anche come risposta o variabile dipendente, variabile di risultato o metrica di performance, l'OEC è essenzialmente una combinazione di KPI ponderati in modo diverso come un unico KPI primario.
Una singola metrica obbliga a fare compromessi una volta per più esperimenti e allinea l'organizzazione dietro un obiettivo chiaro. Un buon OEC non dovrebbe essere focalizzato sul breve termine (es. clic); al contrario, dovrebbe includere fattori che predicono obiettivi a lungo termine, come il lifetime value previsto e le visite ripetute.
Ronny Kohavi
Metriche del guardrail
Secondo Ronny Kohavi,
Le metriche Guardrail sono metriche critiche progettate per avvisare gli sperimentatori di un'ipotesi violata. Le metriche del guardrail forniscono ciò che Spitzer (2007) chiama la "capacità di istigare un'azione informata". Quando un effetto Trattamento sposta inaspettatamente una metrica guardrail, potresti voler ridurre la fiducia nei risultati o interrompere un esperimento nei casi in cui potrebbero essere arrecati danni agli utenti o all'organizzazione.
Esistono due tipi di metriche del guardrail: metriche del guardrail relative alla fiducia e metriche del guardrail dell'organizzazione. Iniziamo con quella che riteniamo sia la metrica del guardrail più importante che ogni esperimento dovrebbe avere: il rapporto di campionamento, quindi il follow-up con altre metriche del guardrail e metriche del guardrail organizzativo.
Rapporto di campionamento = In un esperimento controllato, il rapporto di campionamento è uguale al rapporto di allocazione della dimensione del campione tra i diversi gruppi di test: controllo e varianti
Una visione filosofica delle metriche: le 5 Ws
Sumantha Shankaranarayana, Fondatrice di EndlessROI vede le metriche in modo diverso.
Il valore delle metriche risiede nella loro capacità di prevedere il comportamento degli utenti. Nell'interpretazione delle metriche, l'obiettivo non è chiedere "Quanti?" ma piuttosto per chiedere “Perché così?”. Le metriche sono una traccia lasciata dalla mente dell'utente.
Filosoficamente, le metriche possono essere suddivise in quattro categorie essenziali:
Gruppo 1 – Importo (Dove e Quando)
- Visualizzazioni di pagina (uniche e non uniche)
- Visitatori del sito web (nuovi e di ritorno)
- Visite
- Entrate totali
- Valore a vita
- Entrate cumulative del carrello per una coorte di esperimenti
Gruppo 2 – Natura (il Perché)
- Tracciamento degli eventi
- Browser/Piattaforma
- Tempo a pagina
- Dettagli di Transazione
- Errori di caricamento della pagina
- Risoluzione dello schermo
- Esci dalla pagina
Gruppo 3 – Fonte (l'Oms)
- Referenti
- Termini di ricerca
- Paese/lingue
- Organizzazioni
- Principali pagine di destinazione
- Pagine precedenti
Gruppo 4 – Risultati (il Cosa)
- Iscrizioni
- Numero di visualizzazioni di pagina
- Ordini
- Clic
- Prove
- Prossime pagine
- Fidelizzazione degli utenti
Mentre confrontiamo i dati e iniziamo a vedere come si comporta l'ipotesi, dobbiamo considerare tutte le minacce alla validità come
- effetti storici (eventi mediatici, iniziative di marketing della concorrenza, iniziative di marketing interno, cambiamenti stagionali, cambiamenti economici),
- effetto strumentazione (test setup, tramite doppio controllo),
- effetto di selezione (diversi intervalli di confidenza e di confidenza per il controllo e le varianti), e
- effetto di distorsione del campionamento (varianza elevata, nessuna certezza statistica).
Sulla base delle categorie precedenti, una delle metriche potrebbe essere una metrica principale, ad esempio gli ordini (tasso di conversione).
Le tue stime dovrebbero essere basate su:
- Tasso di successo : tendenze recenti del tasso di conversione
- Campioni ricevuti – Livello di traffico recente e numero di trattamenti pianificato
- La quantità di differenza nell'entità della metrica principale tra il controllo e la variante e come ciò influisca sugli obiettivi aziendali.
Tuttavia, la raccolta dei dati dalle metriche secondarie aiuterà nell'interpretazione del risultato di un test.
L'interpretazione può basarsi su:
- Il ROI del test
- Le informazioni chiave raccolte di solito rispondono a domande come
- Cosa dice questo test sui miei clienti?
- Cosa motiva i miei clienti?
- Come rispondono a elementi specifici?
- Cosa apprezzano i miei clienti?
- Cosa causa loro più ansia?
- Perché cadono a un certo punto?
- Dove sono nella conversazione?
- Test successivi: dove altro può essere utile questo apprendimento?
Su una nota importante, testare gli elementi all'inizio del processo di conversione consente più traffico e testare gli elementi ulteriormente nel processo di conversione ha un maggiore impatto potenziale sulle entrate. Pertanto, in base alle fasi della canalizzazione, le nostre metriche dovrebbero riflettere anche l'obiettivo che ci si prefigge di raggiungere.
Continua a leggere: 7 passaggi chiave per imparare e migliorare dai risultati del test A/B
Un'altra interpretazione delle metriche viene da Avinash Kaushik, Digital Marketing Evangelist di Google.
In un recente numero della sua newsletter, The Marketing <> Analytics Intersect, consiglia di ignorare le metriche vanity come Mi piace e follower e falsi dèi come visualizzazioni di pagina e "coinvolgimento".
Invece, concentrati sui micro-risultati come le iscrizioni alla newsletter e i tassi di completamento delle attività, i macro-risultati digitali come le entrate e le entrate di conversione e le metriche che incidono sui profitti come il profitto e il valore della vita.
Ancora un'altra interpretazione delle metriche viene da Simon Girardin di Conversion Advocates:
Man mano che lavori con le metriche, inizierai a vedere come si relazionano tra loro. La maggior parte delle metriche dei driver sono metriche dei risultati. I guardrail sono spesso associati alle metriche di output. Potresti voler eseguire i tuoi driver attraverso le 5 W mentre scendi ai dadi e ai bulloni della scelta delle metriche per i tuoi test. Comprendere le basi ti consente di diventare creativo con le tue interpretazioni.
Scegliere le metriche che fanno la differenza con un albero dei driver
La creazione di una solida strategia di metriche si riduce a capire cos'è un albero dei driver.
Un albero dei driver è una mappa di come le diverse metriche e leve in un'organizzazione si integrano. All'estrema sinistra, hai una metrica generale che vuoi guidare. Questo è l'obiettivo finale a cui vuoi che tutti i team lavorino.
Man mano che ti sposti a destra, diventi più granulare in termini di come vuoi raggiungere quell'obiettivo. Ogni ramo ti dà un indicatore delle parti componenti che compongono il "cosa" sopra di loro.
Curtis Stanier, Direttore del Prodotto presso Delivery Hero
Il Driver Tree, se combinato con le metriche, può aiutare a identificare potenziali aree di opportunità e guidarti verso la soluzione.
Curtis lo spiega con un esempio. Ad esempio, se il tuo obiettivo è aumentare il numero di iscrizioni via email. Diciamo che solo la metà dei clienti fa clic con successo sul link di conferma dell'e-mail che hai inviato loro. Ci sono due possibili scenari qui: i clienti non ricevono l'e-mail o non fanno clic su di essa. Questi driver possono avere diversi fattori di influenza.
Quando si mappa il flusso del processo sull'albero dei driver, è possibile arrivare alla causa principale. Forse il provider di posta elettronica che utilizzi ha un tasso di errore del 10%, il che significa che l'e-mail non è mai stata inviata. Questo problema specifico diventa un'opportunità da risolvere per il tuo team.
Ecco un esempio specifico per gentile concessione di Bhavik Patel, Head of Product Analytics di Hopin, per illustrare come mappare un obiettivo come la velocità di test, ovvero il numero di test eseguiti, alle metriche del conducente e del guardrail.
Segui questi 3 passaggi per avviare il tuo programma di sperimentazione
1. Scegli l'obiettivo del tuo programma di sperimentazione
Coinvolgi l'HiPPO alias la tua C-suite in modo da non inseguire una metrica della stella polare a cui la leadership è disinteressata. Altrimenti, il tuo programma di sperimentazione non vedrà mai la luce. Coinvolgi le persone che capiscono che i grandi problemi hanno bisogno di soluzioni innovative, non di giocare sul sicuro.
Come regola generale, Ben Labay afferma che l'obiettivo a lungo termine in ritardo del tuo programma di sperimentazione può essere una di tre cose: entrate, cliente o processo di sperimentazione .
Ad esempio, Booking.com ha la qualità degli esperimenti come metrica della stella polare. Ecco perché:
Ciò che conta davvero per noi non è quante decisioni sui prodotti vengono prese, né quanto velocemente vengono prese le decisioni, ma quanto siano buone tali decisioni.
Christophe Perrin, Group Product Manager di Booking.com
Sebbene l'utilizzo della sperimentazione come parte dello sviluppo del prodotto e del processo decisionale sia una pratica comune al giorno d'oggi, di per sé non garantisce che vengano prese buone decisioni. Eseguire correttamente gli esperimenti può essere difficile e i dati ottenuti da un esperimento sono affidabili solo quanto l'esecuzione dell'esperimento stesso. L'esecuzione di cattivi esperimenti è solo un modo molto costoso e contorto per prendere decisioni inaffidabili.
Leggi il prossimo: La guida definitiva all'uso degli obiettivi nei test A/B (e come convertire gli obiettivi degli assi)
2. Stabilire un registro delle metriche Guardrail accettabili
Tim Mehta consiglia di avere la velocità del test come metrica di guardrail con un avvertimento, ad esempio solo se l'integrità del test è buona o soddisfa lo standard. Se non stai eseguendo test di qualità, qualsiasi metrica che scegli finisce per essere una metrica di vanità.
Come Tim, anche Ben Labay suggerisce di avere la velocità di prova insieme a queste altre metriche come set di lavoro delle metriche del guardrail:
3. Scegli le metriche del driver caso per caso
Non tutte le metriche sono buone metriche. Dopo aver eseguito migliaia di test A/B, Microsoft ha identificato sei proprietà chiave di una buona metrica A/B:
- Sensibilità
- Affidabilità
- Efficienza
- Debugging
- Interpretabilità e perseguibilità
- Inclusività ed equità
Puoi utilizzare STEDII per perfezionare quali metriche monitorare e misurare le modifiche.
Max Bradley, Senior Web Optimization Manager di Zendesk, ritiene che dovresti essere flessibile riguardo alle metriche dei driver in modo da poter pensare dentro o fuori dagli schemi:
Abbiamo notato che il campo di creazione del sottodominio (mostrato di seguito) era di gran lunga il campo modulo più impegnativo nel nostro flusso di registrazione di prova per i visitatori. Il tasso di abbandono in questo campo è stato considerevolmente superiore a qualsiasi altro campo.
Fondamentalmente, avevamo il monitoraggio in atto che ci ha permesso di esaminare in dettaglio le prestazioni del modulo in primo luogo. Se stai iniziando, è improbabile che questo livello di monitoraggio sia raggiungibile a breve termine, ma con il passare del tempo consiglierei di "entrare nelle erbacce" con il tuo monitoraggio.
Quando il problema è stato identificato, abbiamo intrapreso una serie di passaggi per determinare l'approccio che desideravamo testare. Abbiamo esaminato ciò che altre società hanno fatto in cui era coinvolto un sottodominio, suggerirei di guardare oltre i tuoi concorrenti qui. Credevamo che l'utente non dovesse preoccuparsi di creare un sottodominio, ma introduce un'altra area in cui l'utente può fermarsi e pensare, aumentando il proprio carico cognitivo. Possiamo creare il loro sottodominio dal nome della loro azienda che hanno già fornito e nascondere il campo del sottodominio agli utenti.
Naturalmente ci aspettavamo che questa modifica aumentasse il numero di utenti che si iscrivono con successo a una prova, siamo stati in grado di stimare l'aumento previsto a causa del tracciamento menzionato.
Tuttavia, ciò che non sapevamo a questo punto era l'impatto complessivo che ciò avrebbe avuto sull'azienda. Ci aspettavamo di vedere un aumento delle conversioni di prova, ma questo si tradurrebbe fino in fondo nella canalizzazione fino a Win?
Inoltre, nascondendo il campo del sottodominio e generando automaticamente il sottodominio per l'utente, volevamo assicurarci di non trasferire semplicemente questo problema a un'altra area dell'azienda. Ciò ha comportato il coinvolgimento della difesa dei clienti e dell'assistenza clienti sin dall'inizio.
Le aree primarie che ritenevamo importanti nel determinare l'impatto di questo esperimento erano le seguenti:
- Tasso di registrazione di prova per i visitatori del modulo
- Lead, MQL, opportunità e vittorie
- Modifiche apportate dagli utenti al nome del sottodominio nella registrazione del prodotto
- Numero di ticket ricevuti dall'advocacy del cliente per le modifiche al nome del sottodominio".
In base all'obiettivo che scegli e al modo in cui ti avvicini costantemente ai tuoi piloti, la tua persona di sperimentazione e la traiettoria del programma possono andare in diversi modi. Dai un'occhiata a questo grafico di Ben Labay:
Modelli mentali: come i professionisti scelgono le loro metriche negli esperimenti nel mondo reale
Abbiamo chiesto agli esperti di guidarci attraverso un esempio in cui hanno visto il problema, progettato l'ipotesi e quindi scelto le metriche per misurare il successo e consolidare l'apprendimento.
Ecco cosa hanno detto:
Ben Labay e la mappatura degli obiettivi
Chiarisci dove sta andando l'azienda e perché.
Qual è la strategia di crescita del business? Cresceranno del 20% il prossimo anno acquisendo più utenti? Si concentreranno su nuovi prodotti o sulla monetizzazione della base di utenti esistente? Con queste informazioni sai dove orientare il programma di ottimizzazione, dovresti sapere dove nella canalizzazione o su quali canali primari concentrarti.
Per molte società di eCommerce nel 2021 si trattava di acquisire e convertire nuovi utenti. Alla fine del 2022, è incentrato sull'AOV, che si concentra sulla redditività e sull'efficienza di acquisizione.
- Con SaaS negli ultimi anni c'è stato un modello di concentrarsi sulla crescita guidata dal prodotto, quindi un focus sulle prove e sull'onboarding soprattutto per i segmenti di mercato in calo.
Ottieni una chiara comprensione del comportamento del cliente (abbandoni, modelli di navigazione, ecc.) e delle percezioni (motivazioni vs FUD, paure, incertezze e dubbi).
Abbiamo un ottimo modello di dati su questo, ResearchXL, che non solo raccoglie dati su comportamenti e percezioni, ma trasmette i dati attraverso le informazioni in approfondimenti che costruiscono una tabella di marcia prioritaria.Combina i passaggi 2 e 3 e collega i temi di problemi/opportunità che crei dalla ricerca dei clienti agli obiettivi di business nella mappa ad albero degli obiettivi.
Ecco un primo piano di quella mappa dell'albero degli obiettivi in cui puoi vedere gli esperimenti associati a una metrica di progressione della pagina di pagamento, che era un punto focale per questo client di eCommerce:
Leggi Avanti: Come lavorare con gli strumenti di test A/B per il successo dell'ottimizzazione? Spiegazione dei 6 principali fattori
Quando ero in Workato, volevamo imparare il più possibile sulla creazione di un tour interattivo del prodotto. Dato che non avevamo una versione freemium, molti potenziali clienti volevano dare un'occhiata a come funzionava effettivamente il prodotto.
Quello che speravamo di imparare ha determinato il KPI per ogni esperimento qui.
In un esperimento, volevamo solo vedere se, a differenza di altri pulsanti CTA di base del sito Web come "richiedi demo", le persone fossero persino interessate al concetto di tour del prodotto. Questa è stata una sorta di test della "porta dipinta", anche se in realtà avevamo già costruito un tour minimo di prodotto praticabile. In questo esperimento, abbiamo semplicemente monitorato la proporzione di clic rispetto al tour del prodotto e utilizzato un esperimento di non inferiorità sui lead (semplicemente non volevamo che cadessero).
Quindi, per ottimizzare il tour stesso, abbiamo utilizzato il principale KPI macro del tasso di conversione del sito Web (lead) e segmentato coloro che hanno fatto clic nel tour del prodotto per vedere se c'era anche un'elevata correlazione e un miglioramento macro nel nostro KPI principale .”
Come Deborah O'Malley ha contribuito ad aumentare il CTR
Le metriche sono spesso guidate dal cliente. Di solito, sono legati alle entrate. A volte, tuttavia, i clienti vogliono solo aumentare il coinvolgimento.
In questo esempio, un cliente nel settore dell'istruzione voleva aumentare le percentuali di clic (CTR) da una pagina che spiegava un programma educativo a una pagina in cui i potenziali studenti potessero saperne di più sul programma e candidarsi ad esso.
Sulla base di un'analisi basata sui dati, l'ipotesi era che ci fossero così tante informazioni concorrenti sulla pagina, che gli utenti non fossero chiari su come procedere o dove fare clic per saperne di più.
Nell'applicare il framework in 5 fasi sopra descritto, è stato deciso che un pop-up o una notifica slide-in formattata in modo ottimale e temporizzata avrebbe funzionato meglio per informare i visitatori su dove fare clic per saperne di più.
Sono stati quindi effettuati una serie di esperimenti per determinare il formato e la tempistica ottimali di un pop-up di notifica. Sono state misurate le percentuali di clic.
Come mostrano i risultati di questi casi di studio (test 1, test 2), l'ottimizzazione del posizionamento e dei tempi del pop-up ha avuto un impatto estremamente positivo sulle conversioni CTR.
Tuttavia, mentre i risultati si sono rivelati positivi, alla fine, le domande presentate è stata la metrica che ha davvero mosso l'ago della scuola. Pertanto, è necessario eseguire ulteriori test per determinare il modo ottimale per aumentare la presentazione delle domande.
L'apprendimento chiave da questo esempio è che i clienti spesso hanno un'idea di cosa vogliono migliorare. Come sperimentatore, il tuo compito è soddisfare le loro aspettative, ma spingerti oltre. I CTR aumentati sono utili. Ma mira ad aumentare le conversioni più in profondità nella canalizzazione. Spingi il più in basso possibile nelle metriche di guadagno finale della canalizzazione, come le domande completate o i completamenti del checkout. Misura i completamenti e quantifica il tuo successo.
Perché Justin Christianson aggiunge punti dati secondari
Basiamo i nostri obiettivi su obiettivi. Non puoi pensare solo alle vendite e alle entrate. Generalmente la nostra metrica principale sarà sia le conversioni di vendita che l'RPV, ma ciò non sempre dipinge il quadro più ampio di come interagiscono i visitatori.
Per questo ci piace impostare punti dati secondari come aggiungi al carrello, clic sugli elementi, visite su determinate pagine come il carrello o il checkout. Gli obiettivi secondari cambiano leggermente a seconda della pagina o del tipo di test. A volte le vendite e le entrate non sono ciò a cui stai cercando di puntare in termini di risultato.
Utilizziamo la nostra sperimentazione per aiutare davvero a capire cosa interessa ai visitatori, quali elementi hanno peso nell'UX generale, quindi costruiamo la strategia sulla base di quei risultati. La nostra ipotesi generalmente è sempre porre la domanda, perché o cosa nella situazione. Potrebbe essere qualcosa di semplice come spostare una sezione su una home page, quindi i nostri obiettivi sarebbero clic su quella sezione, vendite, entrate, visite alle pagine dei prodotti. Quindi, come interpretare i dati sarebbe che se i visitatori hanno mostrato un maggiore coinvolgimento spostando la sezione, allora quella sezione ha un peso, quindi i visitatori preferiscono quel percorso generale. Un esempio potrebbe essere quello di presentare una ripartizione delle raccolte rispetto alla visualizzazione dei blocchi di prodotti effettivi su una pagina per un negozio di e-commerce.
Leggi Avanti: Hai bisogno di un repository di apprendimento per test A/B per eseguire esperimenti basati sull'esperienza (dicono gli esperti)
CXO: l'apice dell'apprendimento Prima sperimentazione?
Il tasso di conversione non è una metrica di vanità. Tuttavia, è diventato un termine ristretto.
Annika Thompson, Direttore del Servizio Clienti di Speero
Il problema, spiega Annika, non è che il CRO non è importante ma che viene fornito con un sacco di bagagli. Non è che un'istantanea nel tempo e senza contesto, può essere irrilevante e addirittura pericoloso.
D'altra parte, CXO o ottimizzazione dell'esperienza del cliente si concentra sull'estrazione di informazioni sulla qualità sulle preferenze e sui comportamenti dei clienti, alimentando tutto, dagli esperimenti di distruzione dei blocchi di conversione a una solida strategia aziendale. È solo un vantaggio in più per i tuoi soldi per i test.