Meta-analiză în experimente controlate online: o privire imparțială asupra puterii și limitărilor acestei metode științifice
Publicat: 2022-09-28Cât de utilă este metaanaliza în testarea A/B și în alte experimente online?
Este util pentru valorificarea învățării anterioare pentru a vă îmbunătăți generarea de ipoteze? Sau metaanaliza este doar o scuză leneșă pentru a te baza pur și simplu pe „modele dovedite” în loc să te bazezi pe date specifice situației pentru a inova în cadrul afacerii tale prin experiență?
Acesta este un subiect de dezbatere fierbinte. Unii sunt pentru, iar alții sunt puternic împotriva. Dar cum poți beneficia din ambele puncte de vedere și să aduci valoare tangibilă programului tău de experimentare?
Despre asta este aceasta postare. În ea, vei
- Înțelegeți ce este de fapt meta-analiză
- Vezi exemple de meta-analiză în acțiune
- Descoperiți de ce meta-analiza ca concept trebuie tratată cu prudență (și respect) și
- Aflați cum echipele de experimentare pot face meta-analiză în mod corect
Și cu un bonus: veți vedea, de asemenea, doi experți cunoscuți în optimizarea ratei de conversie discutând acest lucru din capete opuse.
Să intrăm în asta.
- Ce este meta-analiză?
- Exemple de meta-analiză în experimente controlate online
- Sunteți interesat să vă efectuați propria metaanaliză de testare A/B?
- Meta-analiză - Da sau Nu
- Meta-analiză — Mergeți cu prudență?
- Nu compromiteți rigurozitatea testului și căutarea inovației
- Meta-analiză — Ungerea volantului de experimentare?
- Meta-analiză — Mergeți cu prudență?
- Dacă alegeți să efectuați (și să utilizați) metaanaliza – țineți cont de următoarele
- Calitatea slabă a experimentelor incluse în analiză
- Eterogenitate
- Prejudiciu de publicare
Ce este meta-analiză?
Metaanaliza utilizează statistici pentru a lua o decizie din analiza rezultatelor mai multor experimente. Ea provine din lumea științifică, unde cercetătorii reunesc rezultatele din studiile medicale care abordează aceeași problemă și folosesc analiza statistică pentru a aprecia dacă un efect este într-adevăr prezent și cât de semnificativ este.
În experimentele controlate online, în care avem testare A/B, testare multivariată și testare divizată pentru luarea deciziilor și găsirea modalităților cele mai performante de a atinge obiectivele de afaceri, am împrumutat metaanaliză pentru a valorifica ceea ce am învățat deja din anterioare. teste pentru a informa testele viitoare.
Să vedem diferite exemple în sălbăticie.
Exemple de meta-analiză în experimente controlate online
Iată 3 exemple de meta-analiză în testarea A/B, cum a fost utilizată și ce a fost găsit în fiecare efort:
- O meta-analiză empirică a strategiilor de testare A/B a comerțului electronic de Alex P. Miller și Kartik Hosanagar
Această meta-analiză de testare A/B a fost publicată în martie 2020. Analiștii au studiat teste în mod specific din industria comerțului electronic, cu date pe care le-au colectat de pe o platformă de testare SaaS A/B. Acesta a constat din 2.732 de teste A/B efectuate de 252 de companii de comerț electronic din SUA din 7 industrii într-un interval de 3 ani.
Ei au analizat aceste teste pentru a oferi o analiză solidă a modului în care testele sunt poziționate în diferite etape ale pâlniei de conversie a comerțului electronic.
Ceea ce au găsit a fost:
- În comparație cu alte tipuri de experimente, testele privind promoțiile de preț și cele poziționate pe paginile de categorii sunt asociate cu cele mai mari dimensiuni ale efectului.
- Dovada că răspunsul consumatorilor la diferite promoții depinde de locul în care respectivele promoții sunt poziționate pe site-ul de comerț electronic.
- În timp ce promoțiile privind prețurile produselor sunt cele mai eficiente la începutul canalului de conversie, promoțiile legate de expediere sunt cele mai eficiente mai târziu în canalul de conversie (pe paginile de produse și pe plăți).
Să ne uităm la un alt exemplu și la ceea ce au descoperit cercetătorii...
- Ce funcționează în comerțul electronic – O meta-analiză a 6.700 de experimente de Will Browne și Mike Swarbrick Jones
Cu date din 6.700 de experimente mari de comerț electronic, mai ales în sectoarele de retail și de călătorii, Browne și Jones au cercetat efectul a 29 de tipuri diferite de modificări și au estimat impactul lor cumulat asupra veniturilor. A fost publicat în iunie 2017.
Așa cum sugerează titlul lucrării, scopul a fost să exploreze ceea ce funcționează în comerțul electronic prin desfășurarea unei meta-analize ample. Așa au putut ajunge la acest rezumat puternic: că modificările la aspectul site-ului au avut un impact mult mai neglijabil asupra veniturilor decât schimbările bazate pe psihologia comportamentală.
Valoarea venitului per vizitator (RPV) este utilizată pentru a măsura acest impact. Deci, în rezultatele lor, o creștere de +10% dintr-un experiment înseamnă că RPV a crescut cu 10% în acel experiment.
Iată câteva alte constatări din analiză:
- Cei mai buni performanți (pe categorie) au fost:
- Lipsă (indicatori de stoc, de exemplu, „Au mai rămas doar 3”): +2,9%
- Dovada socială (informarea utilizatorilor despre comportamentul altora): +2,3%
- Urgență (cronometre cu numărătoare inversă): +1,5%
- Recuperare abandon (trimite mesaje utilizatorilor pentru a-i păstra pe site): +1,1%
- Recomandări de produse (upsells, cross-sells etc.): +0,4%
- Dar modificările cosmetice ale interfeței de utilizare, cum ar fi cele de mai jos, nu au fost eficiente:
- Culoare (schimbarea culorii elementelor paginii web): +0,0%
- Butoane (modificarea butoanelor site-ului web): -0,2%
- Îndemnuri (modificarea textului): -0,3%
- 90% dintre experimente au avut un efect mai mic de 1,2% asupra veniturilor, pozitiv sau negativ
- Puține dovezi că testele A/B duc la creșteri de două cifre ale veniturilor prezentate în mod obișnuit în studiile de caz.
Acum așteptați. Înainte de a considera aceste rezultate ale meta-analizei drept Evanghelie, trebuie să știți că meta-analiza experimentelor online are limitări. Vom intra în asta mai târziu.
- Metaanaliza a 115 teste A/B pe GoodUI.org de Georgi Georgiev
În iunie 2018, expert în experimentare online și autor al cărții „Metode statistice în testarea A/B online”, Georgi Georgiev, a analizat 115 teste A/B disponibile public pe GoodUI.org.
GoodUI.org publică o colecție de rezultate ale experimentelor, inclusiv modele de interfață de utilizare recent descoperite și ceea ce companii bazate pe experimentare, cum ar fi Amazon, Netflix și Google, învață din testele lor.
Scopul lui Georgi a fost să colecteze și să analizeze aceste date pentru a dezvălui rezultatele medii ale testelor și pentru a contribui cu idei despre practici statistice mai bune atunci când proiectează și efectuează o meta-analiză a testelor A/B.
A început prin tăierea setului de date inițial și prin a face unele ajustări statistice. Acestea au inclus eliminarea:
- Teste cu dezechilibre între numărul de utilizatori trimiși pentru a experimenta controlul față de cei trimiși pentru a experimenta provocatorul și
- Teste compromise (descoperite prin puterea lor statistică nerealist de scăzută).
El a analizat restul de 85 de teste și a constatat că ridicarea medie procentuală a fost de 3,77%, iar ridicarea medie a fost de 3,92%. Privind distribuția de mai jos, veți vedea că 58% dintre teste (aceasta este majoritatea) au avut un efect observat (lift %) între -3% și +10%.
Este important de reținut că acesta reprezintă acest set de date și nu toate testele A/B care au fost făcute vreodată. În plus, trebuie să ținem cont de părtinirea publicării (unul dintre dezavantajele meta-analizei îl vom discuta mai târziu).
Cu toate acestea, această meta-analiză este utilă optimizatorilor ratei de conversie și altor părți interesate de optimizare pentru a avea o idee despre care sunt reperele externe în testarea A/B.
Sunteți interesat să vă efectuați propria metaanaliză de testare A/B?
Aveți acces la același set de date folosit de Georgi. Este disponibil public pe GoodUI.org — un depozit de rezultate distilate din testele A/B efectuate pe platforme, industrii și pentru diferite probleme de bază.
Există și alte colecții de rezultate de testare A/B ca aceasta (puți chiar să le creați pe ale dvs. extragând date din numeroase exemple de testare A/B și studii de caz), dar GoodUI este unic. Obțineți informații statistice suplimentare despre test, care altfel sunt imposibil sau dificil de obținut dacă navigați și colectați studii de caz.
Încă câteva lucruri fac GoodUI unic:
- Nu discriminează pe baza rezultatelor experimentului. Include teste câștigătoare, neconcludente, plate și negative pentru a combate părtinirea publicării în meta-analiză, care este o problemă reală, așa cum se arată în „Meta-analiză, diagrame funnel și analiză de sensibilitate” de John Copas și Jian Qing Shi.
Prejudecata de publicare este o preferință pentru publicarea unor studii mici dacă rezultatele acestora sunt „semnificative” față de studiile cu rezultate negative sau neconcludente. Nu puteți corecta acest lucru fără a face presupuneri netestabile.
- GoodUI face un pas mai departe. Adesea, rezultatele meta-analizei se află îngropate în lucrări de cercetare. Ei nu își fac aproape niciodată drum spre aplicarea practică, în special pentru echipele de experimentare care nu sunt extrem de mature.
Cu modelele GoodUI, este posibil ca optimizatorii curioși să sape în modificarea procentuală observată, calculele de semnificație statistică și intervalele de încredere. Ei pot folosi, de asemenea, evaluarea GoodUI cu privire la cât de puternic este rezultatul, cu posibile valori „Nesemnificativ”, „Posibil”, „Semnificativ” și „Puternic”, mergând în ambele direcții pentru fiecare model de conversie. Ați putea spune că „democratizează” informațiile din metaanalizele testelor A/B.
- Cu toate acestea, există o problemă aici. Experimentatorii care s-ar putea să nu fie conștienți de problemele care afectează meta-analiză – eterogenitatea și părtinirea publicării – plus faptul că rezultatele meta-analizei depind de calitatea meta-analizei în sine, pot vira în teritoriul copierii orbește a tiparelor.
Mai degrabă, ar trebui să-și desfășoare propriile cercetări și să își execute testele A/B. Nerespectarea acestui lucru a fost (pe bună dreptate) în ultimul timp un motiv de îngrijorare în spațiul CRO.
O altă resursă de studiu de caz de testare A/B pe care o puteți explora pentru o profunzime similară a detaliilor despre unele teste precum GoodUI este GuessTheTest.
RENUNȚAREA RESPONSABILITĂȚII : Nu scriem acest blog cu intenția de a analiza sau a lăuda meta-analiză și modele de conversie. Vom prezenta doar argumentele pro și contra, așa cum au discutat experții în domeniul CRO. Ideea este să prezinți metaanaliza ca un instrument, astfel încât să o poți folosi la discreția ta.
Meta-analiză - Da sau Nu
O minte inteligentă caută modele. Așa scurtați calea de la problemă la soluție data viitoare când vi se va prezenta o problemă similară.
Aceste tipare te conduc la un răspuns în timp record. De aceea, suntem înclinați să credem că putem lua ceea ce am învățat din experimente, le putem agrega și deduce un model.
Dar este recomandabil să facă acest lucru echipele de experimentare?
Care sunt argumentele pro și contra meta-analizei în experimentele controlate online? Poți găsi o cale de mijloc care să obțină tot ce este mai bun din ambele lumi?
Am întrebat două dintre cele mai vocale voci din domeniul experimentării cu (respectuos) diverse puncte de vedere despre interpretarea lor asupra meta-analizei.
Jonny Longden și Jakub Linowski sunt voci în care poți avea încredere.
Meta-analiză — Mergeți cu prudență?
În discuția de mai sus, Jonny a subliniat două probleme potențiale legate de utilizarea datelor de meta-analiză în testarea online, care cer ca practicienii CRO să fie tratați cu prudență.
- Problema #1: Utilizarea unui rezultat fără a-l testa
„Dacă a funcționat pentru acea companie, ar trebui să funcționeze și pentru noi”. Aceasta s-ar putea dovedi a fi o gândire eronată, deoarece există nuanțe în jurul testării care nu ajung la fragmentul de rezultate pe care le examinați.
Mai multe teste ar putea demonstra o soluție simplă, dar aceasta este doar o probabilitate că ar putea funcționa puțin mai bine decât alte soluții și nu un răspuns definitiv că va funcționa pe site-ul tău.
- Problema #2: Nu poți clasifica testele atât de ușor
După cum s-a menționat în #1, acele rezultate nu arată povestea completă și nuanțată din spatele testelor. Nu vezi de ce au fost efectuate testele, de unde au venit, ce probleme anterioare au existat pe site etc.
Vezi doar că a fost un test la îndemnul de pe pagina produsului, de exemplu. Dar bazele de date de meta-analiză le vor sorta în modele specifice, chiar dacă nu se încadrează clar în acele modele.
Ce înseamnă acest lucru pentru tine, un utilizator al bazei de date de meta-analiză de testare A/B sau un cercetător CRO care îți creează propria bază de date de meta-analiză pentru a extrage învățăminte?
Nu înseamnă că metaanaliza este interzisă, dar ar trebui să fii atent când o folosești. Ce fel de precauție ar trebui să iei?
Nu compromiteți rigurozitatea testului și căutarea inovației
Amintiți-vă că meta-analiză este o idee statistică din comunitatea medicală în care experimentele sunt puternic controlate pentru a asigura repetabilitatea descoperirii.
Mediul și alți factori din jurul observației se repetă în mai multe experimente, dar nu este același lucru cu experimentele online. Meta-analiza experimentelor online reunește datele lor, indiferent de aceste diferențe.
Un site web este radical și complet diferit de un alt site, deoarece are un public foarte diferit și se întâmplă lucruri foarte diferite. Chiar dacă pare relativ similar, chiar dacă este același produs, atunci este totuși complet și complet diferit în milioane și milioane de moduri, așa că pur și simplu nu poți controla pentru el.
Jonny Longden
Printre alte limitări, acest lucru afectează calitatea a ceea ce ni se permite să numim meta-analiză adevărată.
Deci, acolo unde nu sunteți sigur de nivelul de vigoare statistică care a intrat în teste și meta-analiză a testelor, puteți utiliza doar cu precauție extremă, așa cum ne sfătuiește Shiva Manjunath.
Scopul meta-analizei nu ar trebui să fie copierea concurenților. Trecerea de la valorificarea meta-analizei la copierea directă împinge limitele credibilității. Există nuanțe ale intenției din spatele „copierii”, așa că nu este o situație alb-negru.
Comentariile la postarea Deborei de mai sus au fost variate. Este în regulă să copiați într-o anumită măsură, dar să exagerați este periculos:
După cum Jakub este de acord, trebuie să fim precauți în ceea ce privește copierea, mai ales când vine vorba de validarea tiparelor pe care le-am observat în experimente.
Cu toate acestea, la ce ar trebui să ne ferim este experimentarea de marfă . Adică, folosirea tiparelor și perspectivelor din meta-analiză ca cele mai bune practici pentru a înlocui cercetarea în experimentare, în loc să complimenteze ceea ce au de spus datele specifice unei situații.
Așadar, începeți cu înțelegerea problemei pe care doriți să o rezolvați și identificați tipul de intervenție care este cel mai probabil să reușească. Acolo este locul în care meta-analiza datelor de experimentare vechi susține cel mai bine o strategie unică de optimizare.
Meta-analiză — Ungerea volantului de experimentare?
Volanul de experimentare are o modalitate de a recicla impuls. Când experimentezi pentru prima dată, ai nevoie de multă inerție pentru a pune lucrurile în mișcare.
Ideea cu volantul de experimentare este de a valorifica acel impuls pentru a rula mai multe teste și a merge din nou, din ce în ce mai bine, rulând din ce în ce mai multe teste.
Și aici poate ajuta meta-analiza. În volantă:
- Efectuați teste pentru a vă valida ipotezele (și poate respinge unele în acest proces).
- Măsurați valoarea pe care au adăugat-o luării deciziilor.
- Încurajați mai mult interes și acceptare pentru testarea A/B.
- Investește în infrastructura de testare A/B și în îmbunătățirea calității datelor tale.
- Reduceți costul uman al testării A/B, astfel încât următorul pas să înceapă cu mai puțin efort decât runda anterioară.
Dar, ca organizație bazată pe date, nu vă opriți aici, deoarece recunoașteți puterea testării A/B. În schimb, doriți să vă bazați pe investiția inițială în experimentare pentru a valida sau a respinge mai multe ipoteze.
Dacă această perspectivă sau cunoștințele inițiale nu sunt acolo pentru a începe, inerția de a pune volantul în mișcare va fi prea mare. Partajarea acestor cunoștințe (democratizarea datelor de testare A/B) inspiră și le permite altora să adopte o abordare de experimentare prin scăderea barierei cunoștințelor.
Acest lucru ne duce la punctul 1 despre modul în care meta-analiza unge volantul de experimentare:
- Meta-analiză ar putea reduce timpul pentru formularea de idei.
Puteți prelua ceea ce ați învățat, perspective și toate, de la testele anterioare pentru a genera cu ușurință noi ipoteze. Acest lucru mărește numărul de teste pe care le rulați și este o modalitate excelentă de a accelera volantul de testare A/B.
Petrecem mai puțin timp refăcând ceea ce a stabilit deja tipare și mai mult timp creând noi căi pe baza a ceea ce am învățat în experimentele anterioare.
- Meta-analiza poate duce la rate de predicție mai bune cu datele anterioare.
Un alt mod în care învățarea bazată pe experimente din trecut poate face ca volantul de experimentare să se rotească mai repede este atunci când este combinat cu datele prezente pentru a informa noi ipoteze.
Acest lucru poate îmbunătăți modul în care impactul observat într-un test A/B se revarsă în viitor.
Implementarea unui test A/B nu este o garanție de a vedea rezultatul dorit, deoarece rata de descoperire falsă (FDR) pentru teste la o semnificație de 95% este între 18% și 25%. Și doar 70% dintre testele examinate care au condus la această concluzie au avut o putere adecvată.
Rata de descoperire falsă este fracțiunea rezultatelor semnificative ale testării A/B care sunt de fapt efecte nule. A nu fi confundat cu fals pozitiv sau eroare de tip I.
- În cele din urmă, meta-analiza ar putea fi o modalitate de a construi încrederea în rezultatele testelor care sunt în esență neconcludente.
Nivelurile de încredere vă ajută să aveți încredere că rezultatele testelor nu se datorează unei simple șanse. Dacă nu aveți suficientă, ați putea fi înclinat să etichetați acel test „neconcludent”, dar nu vă grăbiți atât de mult.
De ce? Statistic, puteți acumula valori p nesemnificative pentru a obține un rezultat semnificativ. Vezi postarea de mai jos:
Meta-analiza are două beneficii majore: 1) îmbunătățește acuratețea estimărilor efectului și 2) mărește generalizarea constatărilor.
Sursa: Bunul, răul și urâtul: metaanalize de Madelon van Wely
Având în vedere că o meta-analiza ajustează și corectează atât dimensiunea efectului, cât și nivelurile de semnificație, s-ar putea folosi astfel de rezultate standard mai înalte în același mod în care se folosește orice alt experiment(e), inclusiv:
1) să facă calcule de putere/estimări ale dimensiunii eșantionului pentru propriile experimente (folosind date reale în loc de presupuneri subiective)
2) să ia decizia de exploatare-experiment. În cazurile în care cineva consideră că este nevoie de încredere suplimentară, poate decide să efectueze experimente suplimentare. În cazurile în care cineva găsește dovezile din meta-analiză suficient de puternice, ar putea pur și simplu să ia măsuri mai devreme fără a efectua experimente suplimentare.
Jakub Linowski
Având în vedere toate modalitățile prin care metaanaliza poate ajuta programul dvs. de experimentare să câștige mai mult impuls, este important să rețineți că acesta suferă de unele limitări bine-cunoscute.
Dacă alegeți să efectuați (și să utilizați) metaanaliza – țineți cont de următoarele
Da, combinarea rezultatelor experimentelor prin metode meta-analitice poate îmbunătăți precizia statistică, dar asta nu înlătură problemele fundamentale cu setul de date inițial, cum ar fi...
Calitatea slabă a experimentelor incluse în analiză
Dacă experimentele care sunt incluse în metaanaliză au fost configurate prost și conțin erori statistice, indiferent cât de precis este metaanalistul, vor obține rezultate nevalide.
Poate că a existat o alocare inegală a dimensiunii eșantionului în testele A/B, puterea sau dimensiunea eșantionului au fost insuficiente sau au existat dovezi de peeking - indiferent de caz, acele rezultate sunt viciate.
Ceea ce puteți face pentru a ocoli această limitare este să alegeți cu atenție rezultatele testelor. Eliminați rezultatele îndoielnice din setul dvs. de date. De asemenea, puteți recalcula semnificația statistică și intervalele de încredere pentru testele pe care ați ales să le includeți și să utilizați noile valori în meta-analiză.
Eterogenitate
Aceasta combină rezultatele testelor care nu ar trebui puse în aceeași găleată în primul rând. De exemplu, atunci când metodologia utilizată pentru efectuarea testelor diferă (analiza statistică Bayesian vs Frequentistă, diferențe specifice platformei de testare A/B etc.).
Aceasta este o limitare comună a meta-analizei în care analistul, cu bună știință sau fără să știe, ignoră diferențele cheie dintre studii.
Puteți să vă uitați la datele cantitative brute pentru a combate eterogenitatea. Este mai bine decât să combinați doar rezumatul rezultatelor testului. Aceasta înseamnă recalcularea rezultatelor fiecărui test A/B, presupunând că aveți acces la date.
Prejudiciu de publicare
Cunoscută și sub numele de „problema sertarului de fișiere”, aceasta este cea mai infamă problemă a metaanalizei. Când desfășurați o meta-analiză a datelor disponibile publicului, sunteți limitat la a pune în comun acele rezultate care au ajuns la publicare.
Dar cei care nu au reușit? Publicațiile favorizează de obicei rezultatele care sunt semnificative statistic și unde există un efect semnificativ al tratamentului. Când aceste date nu sunt reprezentate în meta-analiză, rezultatele prezintă doar ceea ce a fost publicat.
Puteți identifica prejudecățile de publicare cu diagrame funnel și statisticile corespunzătoare.
Deci, unde te duci pentru a găsi teste A/B care nu au ajuns în studii de caz sau baze de date de meta-analiză de testare A/B? Platformele de testare A/B sunt în cea mai bună poziție pentru a furniza date despre teste, indiferent de rezultate. Acolo sunt norocoase exemplele 1 și 2 din acest articol.