Sample Ratio Mismatch (SRM): un ghid complet cu soluții pentru cazurile clienților

Publicat: 2022-04-07
Nepotrivirea raportului de eșantion în testarea A/B

Ce este mai rău decât un test eșuat?

Probleme de calitate a datelor de testare care fac rezultatele testelor nesigure.

Dar cum poți sta departe de datele proaste?

Verificarea nepotrivirii raportului de eșantion (SRM) este o modalitate simplă de a detecta problemele potențiale din timp. Dacă ceva este de pește, atunci cu cât afli mai devreme, cu atât mai bine.

Citiți mai departe pentru a afla mai multe despre Nepotrivirea raportului de eșantion, cum să o identificați, cum vă afectează testele și ce platforme de testare A/B sunt dotate cu verificări SRM încorporate (deci nu trebuie să păstrați o foaie de calcul pe partea laterală) .

ascunde
  • Ce este Sample Ratio Mismatch (SRM)?
  • Testul tău A/B are un SRM? Cum se calculează nepotrivirea raportului de eșantion?
    • Utilizarea foilor de calcul
    • Utilizarea calculatoarelor online de nepotrivire a raportului de eșantionare
  • Cum afectează SRM testele A/B?
  • Afectează SRM atât modelele Frecventist cât și Bayesian Statistics?
  • Când ar trebui să luați în considerare SRM?
  • Unde ar trebui să verificați dacă SRM există?
    • Sarcina de experiment
    • Executarea experimentului
    • Procesarea jurnalului de experiment
    • Analiza experimentului
    • Experimentați interferența
    • Motive non-experimentale
  • Platforme de testare A/B care acceptă alerte SRM
    • Convertiți experiențe
    • Optimizează
    • Adobe Target prin MiaProva
    • Cartea Creșterii
    • Split.io
  • Raportul dimensiunii eșantionului Nepotrivire Demistificat

Ce este Sample Ratio Mismatch (SRM)?

Nepotrivirea raportului de eșantion, sau SRM, are loc în testarea A/B atunci când numărul real de eșantioane (sau vizitatori dintr-un grup de tratament) nu se potrivește cu ceea ce era așteptat.

Să ilustrăm acest lucru cu un exemplu.

Să presupunem că un site web primește în jur de 15.000 de vizitatori pe săptămână. Avem 3 variante, originalul (care este pagina neschimbată) și 2 variante. Cât trafic vă așteptați să primească fiecare dacă traficul este alocat în mod egal? Într-o lume ideală, răspunsul ar fi că fiecare variație ar trebui să primească 15.000 / 3 = 5000 de vizitatori.

Acum, este foarte puțin probabil ca fiecare variație să primească de fapt 5000 de vizitatori, dar un număr foarte apropiat de acesta, cum ar fi 4982 sau 5021. Acea variație ușoară este normală și se datorează simplei întâmplări! Dar dacă una dintre variante ar primi 3500 de vizitatori, iar celelalte în jur de 5000, atunci ar putea fi ceva în neregulă cu aceea!

În loc să ne bazăm pe propria intuiție pentru a identifica aceste probleme, putem merge la testul SRM. Folosește testul de bunătate a potrivirii Chi-pătrat pentru a ne spune, de exemplu, dacă 4850 sau 4750 de vizitatori, în comparație cu celălalt număr de vizitatori primiți, sunt „normali” sau nu!

În termeni statistici, testul de bunătate a potrivirii Chi-pătrat compară numărul observat de eșantioane cu cele așteptate. Și dacă există o diferență reală, valoarea p va fi inferioară nivelului de semnificație setat de 0,01, ceea ce corespunde cu o încredere de 99%.

Urmărește acest videoclip cu Lukas Vermeer în timp ce se scufundă în specificul SRM și mai multe întrebări frecvente pe acest subiect.

Testul tău A/B are un SRM? Cum se calculează nepotrivirea raportului de eșantion?

În testarea A/B, SRM poate fi un adevărat om de ciucuri, provocând rezultate inexacte și concluzii greșite. Vestea bună este că există instrumente care vă pot ajuta să evitați durerile de cap.

Utilizarea foilor de calcul

Foile de calcul sunt cea mai simplă metodă de calculare a SRM datorită disponibilității largi a Microsoft Excel și/sau Produsele Google.

Să vă arătăm un alt exemplu.

Vom calcula SRM pentru un test A/B cu o împărțire a traficului 50/50 și un număr observat de vizitatori de 214.598 și, respectiv, 241.156 pentru Original și, respectiv, Variation.

Vom folosi testul Chi-pătrat pentru a vedea dacă împărțirea traficului observată se potrivește cu împărțirea traficului așteptată. În caz contrar, veți dori să știți dacă valorile observate diferă suficient de valorile așteptate pentru a provoca îngrijorare și a justifica eliminarea rezultatelor.

Va trebui să utilizați funcția CHISQ.TEST din foaia de calcul pentru a calcula valoarea p, așa cum este ilustrat în foaia de calcul de mai jos.

Foaie de calcul pentru calculul nepotrivirii raportului de eșantion

În exemplul nostru, valoarea p este 0. Cu o valoare p sub 0,05, aveți un SRM la îndemână și suficiente dovezi pentru a respinge rezultatele testului în majoritatea cazurilor.

Utilizarea calculatoarelor online de nepotrivire a raportului de eșantionare

  1. Calculatorul Convert vă poate ajuta la diagnosticarea nepotrivirii raportului de eșantion și vă spune, de asemenea, cât timp aveți nevoie să așteptați pentru finalizarea experimentului!
    Calculator de nepotrivire a raportului de eșantion Conversie
  2. Un alt calculator online specific SRM este cel conceput de Lukas Vermeer. Această metodă calculează SRM în același mod ca tehnica anterioară, așa că dacă ați urmat și ați înțeles procesul, ar trebui să puteți utiliza acest calculator SRM online. Doar completați numerele pentru mostrele dvs. și rezultatul se va afișa astfel
    Verificatorul SRM de nepotrivire a raportului de eșantion

Cum afectează SRM testele A/B?

Este posibil să fi analizat traficul împărțit între variante în timpul unui experiment și să fi pus la îndoială cât de precis a fost.

Poate unul care seamănă cu raportul de mai jos. S-ar putea să vă uitați la el și să vă întrebați dacă este normal ca Originalul să aibă 1330 de vizitatori, dar Variation 1713.

Raportul de eșantion nu se potrivește SRM în raportul de testare A/B

Un scurt calcul statistic al raportului SRM (folosind oricare dintre cele două metode de mai sus) vă va spune dacă raportul de variație este acceptabil sau nu.

Împărțirea reală între cele două variații (Original și Varianta 1) corespunde valorilor așteptate? Dacă nu este cazul, ar trebui să respingeți datele și să relansați testul după ce ați rezolvat problema.

Afectează SRM atât modelele Frecventist cât și Bayesian Statistics?

Da.

Cauzele SRM au un impact identic asupra validității rezultatelor unui experiment, indiferent dacă datele sunt analizate cu abordări Bayesian (Google Optimize, Optimizely, VWO, A/B Tasty) sau Frequentist (Convert Experiences, Dynamic Yield).

Deci, calculatoarele SRM de mai sus pot fi folosite și pentru a verifica SRM pe platformele care utilizează statistici bayesiene.

Când ar trebui să luați în considerare SRM?

Găsirea unei nepotriviri a raportului de eșantion în testele dvs. nu înseamnă neapărat că trebuie să renunțați la rezultate.

Deci, când este cu adevărat necesar să luăm în serios calculul SRM?

Să aflăm cu câteva exemple.

Exemplul #1

Desfășurați un experiment în care originalul și varianta sunt fiecare alocați 50% dintre utilizatori. Prin urmare, vă așteptați să vedeți aproximativ un număr egal de utilizatori în fiecare.

Rezultatele revin ca

  • Control: 21.588 utilizatori
  • Tratament: 15.482 utilizatori

Să le trecem prin Verificatorul SRM:

Exemplu de verificare SRM de nepotrivire a raportului de eșantion

Este acesta un motiv de îngrijorare?

Valoarea p pentru raportul eșantionului de mai sus este <0,0001, deci probabilitatea de a vedea acest raport sau unul mai extrem, într-un proiect care a cerut proporții egale, este <0,0001!

Ar trebui să vă faceți griji că ceva nu este în regulă , deoarece tocmai ați observat un eveniment extrem de puțin probabil. Prin urmare, este mai probabil să existe o eroare în implementarea experimentului și să nu aveți încredere în niciunul dintre rezultate.

Exemplul #2

Desfășurați un alt experiment, în care originalului și variantei li se atribuie un procent egal de utilizatori. Calculați valoarea p și este <0,002, deci un eveniment foarte puțin probabil.

Cât de off ar putea fi valorile? Chiar trebuie să renunți la rezultate?

Folosind o platformă de experimentare precum Convert Experiences, puteți aplica o segmentare post-test la rezultate și puteți afla că dacă excludeți utilizatorii Internet Explorer, SRM-ul a dispărut.

În acest caz, utilizatorii excluși folosesc cel mai probabil un vechi browser IE, care a fost cauza SRM-ului; un bot nu a fost clasificat corespunzător din cauza unor modificări ale Variației, provocând nepotrivirea raportului.

Fără segment, procentul rămas de utilizatori este echilibrat corespunzător, iar valorile par normale.

Sample Ratio Nepotrivire SRM A/B browser raport de testare

Dacă nu ar fi fost descoperit SRM, întregul experiment ar fi fost considerat un eșec major.

Dar odată ce SRM-ul a fost depistat, un segment mic ar putea fi îndepărtat, iar experimentul ar putea fi folosit pentru o analiză adecvată.

Într-un scenariu similar, puteți ignora în siguranță utilizatorii excluși și experimentul poate fi utilizat .

Exemplul #3

Rulați un experiment și aflați că există eticheta SRM pe testul dvs.

Cu toate acestea, dacă acordați atenție graficelor, veți observa că curbele ratei de conversie rămân paralele, iar încrederea calculată este de 99,99%. Acest model ar trebui să vă ofere suficientă certitudine că testele sunt valide.

Diagnosticarea nepotrivirii raportului de probă în raportul de testare A/B

În acest caz, puteți ignora în siguranță SRM-ul și puteți continua să aveți încredere în datele dvs.

Unde ar trebui să verificați dacă SRM există?

Există câteva zone în care poate apărea SRM. Să aruncăm o privire la taxonomia cauzelor a lui Lukas Vermeer:

  1. Atribuirea experimentului – Este posibil să existe un caz de grupare incorectă (utilizatorii sunt plasați în clustere incorecte), o funcție de randomizare defectuoasă sau ID-uri de utilizator corupte.
  2. Execuția experimentului – Variațiile pot să fi început în momente diferite (care provoacă discrepanțe) sau pot exista întârzieri de execuție a filtrului (determinând ce grupuri sunt supuse experimentului).
  3. Procesarea jurnalelor experimentale – Boții automati care elimină utilizatorii reali, o întârziere în sosirea informațiilor în jurnale.
  4. Analiza experimentului – Declanșarea greșită a variației sau pornirea ei incorect.
  5. Interferența experimentului – Experimentul poate fi supus unor atacuri și hack-uri, sau impactul altui experiment în desfășurare poate interfera cu experimentul curent.
Unde puteți observa nepotrivirea raportului de eșantion
Sursă

Dacă aveți un SRM și nu sunteți sigur unde să căutați un răspuns, taxonomia de mai sus este un loc valoros de început.

Și pentru a clarifica lucrurile, acum vă vom oferi un exemplu real pentru fiecare dintre aceste cazuri.

Sarcina de experiment

Iată unde unul dintre cele mai interesante lucruri pe care să le urmăriți este funcția de randomizare pe care o folosește platforma dvs. de testare A/B.

În exemplul de mai jos, oamenii de știință de date de la Wish au descoperit probleme SRM la un test A/A și, după o investigație lungă, au ajuns la concluzia că SRM-ul a apărut deoarece randomizarea lor nu a fost complet aleatorie.

Sample Ratio Mismatch algoritm de randomizare
Sursă

Pentru a obține rezultate valide ale experimentului, procedura de randomizare este crucială.

O ipoteză crucială a testelor statistice utilizate în testarea A/B este utilizarea eșantioanelor randomizate. Între grupele de experiment, randomizarea echilibrează atât atributele de utilizator observate, cât și cele neobservate, stabilind o relație cauzală între caracteristica produsului testat și orice diferențe de rezultat în concluziile studiului.

SFAT PRO : Convert are propriul algoritm de randomizare care asigură o distribuție uniformă între variații, astfel încât SRM nu poate fi cauzat de acest lucru. Cu toate acestea, dacă ați implementat randomizarea cu un alt instrument, puteți urma acești pași pentru a grupa vizitatorii în variații.

Executarea experimentului

Când vine vorba de execuția experimentului, există două motive principale care pot cauza SRM în experiențele dvs.

1. Scriptul nu este instalat corect pe una dintre variante

Verificați întotdeauna dacă scriptul platformei dvs. de testare A/B este instalat corect pe Original și Variations.

Echipa noastră de asistență pentru clienți a rezolvat recent un caz în care scriptul Convert nu a fost adăugat la una dintre variante, provocând un SRM la test.

Asigurați-vă că adăugați scriptul pe toate paginile în care doriți să ruleze experiența, așa cum se arată mai jos:

Problemă de execuție a experimentului de nepotrivire a raportului de eșantion

2. Direcționarea paginii este configurată incorect

În acest caz, nepotrivirea SRM se datorează faptului că direcționarea testului a fost configurată incorect.

Cu o configurare greșită, unii vizitatori sunt selectați pentru a fi redirecționați către variantă, dar redirecționarea eșuează, cel mai probabil pentru că expresia URL originală nu se potrivește cu fiecare adresă URL a tuturor vizitatorilor grupați la test și redirecționați.

Pentru a evita acest lucru, reconfigurați expresiile URL ale variantei experimentului și reluați testul.

Iată încă două scenarii care vă arată cum să configurați direcționarea paginii dvs. cu Conversie experiențe pentru a evita SRM la testele de URL împărțit.

Scenariul 1: vizați numai pagina de pornire (https://www.convert.com) cu adresa URL Split și transmiteți toți parametrii de interogare pe care i-ar putea avea vizitatorii

Aici, în Zona Site-ului, adresa URL a paginii trebuie să se potrivească exact cu https://www.convert.com. În secțiunea de excludere, șirul de interogare ar trebui să conțină v1=true , astfel încât să evitați orice redirecționare (deoarece condițiile experimentului se vor potrivi în continuare dacă ajungeți pe https://www.convert.com ?v1=true și traficul distribuția ar putea ajunge neuniformă).

Apoi, când definiți variațiile, păstrați-le așa:

Soluție pentru problema de execuție a experimentului de nepotrivire a raportului de eșantion

Scenariul 2: vizați toate paginile, nu doar pagina de pornire (https://www.convert.com), cu URL-ul împărțit și treceți parametrii de interogare

Aici, trebuie să definiți zona site-ului dvs. cu o „URL de pagină” care conține https://www.convert.com . În secțiunea de excludere, interogarea ar trebui să conțină v1=true.

Când definiți variațiile, utilizați rețeta regex de mai jos pentru a prinde toată pagina:

Sample Ratio Nepotrivire soluție regex experiment

Procesarea jurnalului de experiment

Aici, ca principal motiv pentru SRM, identificăm roboții care vă pot viza experiența. Ne puteți contacta pentru a verifica jurnalele suplimentare pe care le păstrăm dacă putem găsi modele neobișnuite la agenții de utilizare.

De exemplu, echipa noastră de asistență a asistat un client al cărui test avea SRM.

În cazul lor, când am filtrat raportul după Browser=Altul , am văzut o împărțire neuniformă și SRM. Dar când am filtrat același raport prin Browser=Chrome+Safari , nu a fost detectat niciun SRM și nicio distribuție neuniformă.

Raportul de eșantion nu se potrivește cu SRM în raportul de experiment
Raportul de experiment de conversie Experiențe

Așadar, am verificat câteva evenimente care aveau Browserul setat la Altul și toate au arătat un User Agent de „site24x7”. Am știut imediat că acesta este un fel de software de monitorizare, ceea ce este norocos, deoarece face publicitate și folosește un agent utilizator distinct. Dacă acesta ar fi fost ascuns în spatele unui User Agent obișnuit, ar fi fost imposibil să-l găsești.

Pentru a rezolva problema, am continuat și am adăugat acest User-Agent la lista de roboți pe care îi excludem din trafic. Din păcate, această modificare poate avea un impact asupra datelor viitoare, după momentul în care adăugăm bot-ul în listă, dar cel puțin a fost găsit și remediat.

Analiza experimentului

Această categorie afectează în principal experiențele setate cu declanșarea manuală.

Acest lucru se întâmplă, de exemplu, în aplicațiile cu o singură pagină, unde trebuie să vă ocupați singur de declanșare.

Așadar, ori de câte ori trebuie să faceți acest lucru manual, utilizând un cod similar cu cel de mai jos, acordați o atenție deosebită potențialelor SRM-uri la test.

 fereastră._conv_q = _conv_q || [];
window._conv_q.push(["run","true"]);

Experimentați interferența

Aceasta se referă la o intervenție a utilizatorului în care una dintre variații este întreruptă în timpul experienței. Imaginați-vă că aveți un test de URL împărțit care rulează de câteva săptămâni și, fie din greșeală, fie intenționat, întrerupeți Variația și lăsați să ruleze doar versiunea originală.

Imediat după, și în funcție de traficul site-ului dvs., veți observa SRM calculat pentru test.

Raportul eșantionului Nepotrivirea interferenței experimentului SRM

În acest caz, puteți fie să excludeți intervalul de date în care varianta a fost întreruptă, fie să resetați datele despre experiență.

Motive non-experimentale

Dacă niciuna dintre categoriile de mai sus nu dezvăluie cauza principală a SRM-ului dvs., vă sugerăm să adăugați un software de urmărire a erorilor pe site-ul dvs. web (cum ar fi Sentry) pentru a identifica probleme mai profunde cu site-ul dvs.

Platforme de testare A/B care acceptă alerte SRM

S-ar putea să vă întrebați ce platforme de testare A/B acceptă această funcționalitate SRM și vă oferă alerte fără să fiți nevoit să o calculați singur.

Am terminat cercetările și am compilat o listă de instrumente.

Convertiți experiențe

Din decembrie 2021, am introdus propria noastră metodă SRM.

Dacă sunteți utilizator, puteți activa verificările SRM din Configurare proiect > Mai multe setări.

Verificarea SRM de nepotrivire a raportului de eșantion în aplicația Conversie experiențe

Apoi, veți putea vedea etichetele SRM în rapoarte:

Raportul Experiențe de conversie SRM de nepotrivire a raportului de eșantion

Optimizează

O soluție de testare secvențială a optimizat open source în septembrie 2021 pe care oricine o poate implementa pentru a detecta SRM.

Optimizely a transformat testul ssrm într-un microserviciu backend pregătit pentru producție, care poate rula pe toate experimentele care rulează în același timp.

Pe pagina de rezultate Optimizely, puteți configura alerte și puteți obține rezultate în timp real de la ssrm-test:

Rata de eșantionare nepotrivită SRM Optimizely
Sursă

Michael Lindon, statistician al personalului Optimizely, spune că SRM este o problemă tipică care apare atunci când testele sunt efectuate prost.

Pentru a rula un experiment de produs, este nevoie de o cantitate substanțială de infrastructură, astfel încât pot apărea erori. De exemplu, dacă vizitatorii site-ului web nu sunt grupați în mod constant într-o variantă de experiment și efectuează conversii atât în ​​condițiile originale, cât și în condiții de variație, datele obținute pentru acel utilizator nu sunt valide pentru evaluarea impactului experimentului.

Principala preocupare este atunci când SRM produce date inexacte care ar putea să vă afecteze valorile și să nu fie detectate.

Adobe Target prin MiaProva

În aprilie 2021, Adobe Target a colaborat cu MiaProva pentru a furniza alerte SRM privind activitățile A/B.

Aceste alerte notifică clienții MiaProva care folosesc Adobe Target atunci când este detectată o nepotrivire. Această abordare aplică automat un test Chi-pătrat fiecărui test A/B în direct.

Sample Ratio Mismatch SRM Adobe Target app
Raportul eșantionului Nepotrivire SRM Adobe Target alert
Sursa: alerte MiaProva pe Live Dashboard

Cartea Creșterii

GrowthBook este o platformă de testare A/B open-source cu un motor bayesian de statistici și verificări automate SRM pentru fiecare experiment.

Sample Ratio Mismatch SRM GrowthBook
Sursă

Fiecare experiment caută un SRM și avertizează utilizatorii dacă este identificat unul.

Când prezici o anumită împărțire a traficului (de ex. 50/50), dar în schimb vezi ceva drastic diferit (de ex. 40/60), primești un avertisment. Aceasta este afișată numai dacă valoarea p este mai mică de 0,001, ceea ce indică faptul că este extrem de puțin probabil să apară prin coincidență.

Alertă SRM GrowthBook de nepotrivire a raportului de eșantion

Rezultatele unui astfel de test nu trebuie să fie de încredere, deoarece sunt potențial înșelătoare, de unde avertismentul. În schimb, utilizatorii ar trebui să găsească și să corecteze sursa erorii înainte de a reporni experimentul.

Split.io

Split este o platformă de livrare a caracteristicilor care stimulează managementul caracteristicilor, experimentarea software-ului și livrarea continuă.

Cu fiecare actualizare de calcul, platforma Split verifică raportul de eșantionare pentru a vedea dacă există o diferență substanțială între rapoartele de eșantionare vizate și actuale. Acest eșantion de verificare a raportului poate fi găsit sub rezumatul valorilor cheie și ale organizației, împreună cu alte detalii importante, cum ar fi durata și ultima actualizare.

Split.io
Sursă

Raportul dimensiunii eșantionului Nepotrivire Demistificat

S-ar putea să vă întrebați, cât de des este „normal” să vedeți un SRM?

Lukas Vermeer a spus-o cel mai bine. Chiar și marile firme de tehnologie observă o frecvență naturală a SRM-urilor de 6% până la 10% în experimentele lor online controlate.

Acum, dacă SRM-ul se repetă mai des, asta justifică o investigație mai profundă asupra designului experimentului sau a site-ului web.

Echipa noastră este întotdeauna disponibilă să vă ajute dacă întâmpinați probleme precum cele de mai sus! Faceți clic aici pentru a contacta echipa noastră.