Sample Ratio Mismatch (SRM): Kompletny przewodnik z rozwiązaniami dla przypadków klientów

Opublikowany: 2022-04-07
Niezgodność współczynnika próbkowania w testach A/B

Co jest gorsze niż nieudany test?

Problemy z jakością danych testowych, które sprawiają, że wyniki testów są niewiarygodne.

Ale jak możesz trzymać się z dala od złych danych?

Sprawdzanie niedopasowania współczynnika próbek (SRM) to prosty sposób na wczesne wykrycie potencjalnych problemów. Jeśli coś jest podejrzane, to im szybciej się dowiesz, tym lepiej.

Czytaj dalej, aby dowiedzieć się więcej o niedopasowaniu współczynnika próbek, o tym, jak je wykryć, jak wpływa to na twoje testy i które platformy testowe A/B mają wbudowane kontrole SRM (więc nie musisz trzymać arkusza kalkulacyjnego z boku) .

ukryć
  • Co to jest niedopasowanie współczynnika próbkowania (SRM)?
  • Czy Twój test A/B ma SRM? Jak obliczyć niedopasowanie współczynnika próbki?
    • Korzystanie z arkuszy kalkulacyjnych
    • Korzystanie z internetowych kalkulatorów niedopasowania współczynnika próbkowania
  • Jak SRM wpływa na testy A/B?
  • Czy SRM wpływa zarówno na modele statystyk częstych, jak i bayesowskich?
  • Kiedy należy wziąć pod uwagę SRM?
  • Gdzie należy sprawdzić, czy istnieje SRM?
    • Przypisanie eksperymentu
    • Wykonanie eksperymentu
    • Przetwarzanie dziennika eksperymentów
    • Analiza eksperymentu
    • Zakłócenia eksperymentalne
    • Przyczyny braku eksperymentu
  • Platformy testowe A/B obsługujące alerty SRM
    • Konwertuj doświadczenia
    • Optymalizuj
    • Adobe Target przez MiaProva
    • Książka wzrostu
    • Split.io
  • Niezgodność współczynnika wielkości próbki, zdemistyfikowana

Co to jest niedopasowanie współczynnika próbkowania (SRM)?

Sample Ratio Mismatch (SRM) występuje w testach A/B, gdy rzeczywista liczba próbek (lub odwiedzających w grupie terapeutycznej) nie jest zgodna z oczekiwaną.

Zilustrujmy to przykładem.

Załóżmy, że witryna odwiedza około 15 tys. tygodniowo. Mamy 3 odmiany, oryginał (czyli niezmienioną stronę) i 2 odmiany. Jak dużego ruchu oczekujesz, że każdy z nich otrzyma, jeśli ruch zostanie równomiernie przydzielony? W idealnym świecie odpowiedź brzmiałaby, że każda odmiana powinna mieć 15 000/3 = 5000 odwiedzających.

Teraz jest bardzo mało prawdopodobne, aby każda odmiana faktycznie przyciągnęła 5000 odwiedzających, ale liczba bardzo zbliżona do tej, na przykład 4982 lub 5021. Ta niewielka różnica jest normalna i wynika z prostej przypadkowości! Ale jeśli jedna z odmian miałaby przyciągnąć 3500 gości, a pozostałe około 5000, to coś może być z nią nie tak!

Zamiast polegać na własnej intuicji, aby wykryć te problemy, możemy zamiast tego przejść do testu SRM. Wykorzystuje test dopasowania chi-kwadrat, aby powiedzieć nam, na przykład, czy 4850 lub 4750 odwiedzających, w porównaniu z inną liczbą odwiedzających, jest „normalnych”, czy nie!

W kategoriach statystycznych test zgodności chi-kwadrat porównuje obserwowaną liczbę próbek z oczekiwanymi. A jeśli istnieje rzeczywista różnica, wartość p będzie niższa od ustawionego poziomu istotności 0,01, co odpowiada ufności 99%.

Obejrzyj ten film z Lukasem Vermeerem, który zagłębia się w specyfikę SRM i inne często zadawane pytania na ten temat.

Czy Twój test A/B ma SRM? Jak obliczyć niedopasowanie współczynnika próbki?

W testach A/B SRM może być prawdziwym boogeymanem, powodując niedokładne wyniki i błędne wnioski. Dobrą wiadomością jest to, że istnieją narzędzia, które pomogą Ci uniknąć bólów głowy.

Korzystanie z arkuszy kalkulacyjnych

Arkusze kalkulacyjne to najprostsza metoda obliczania SRM ze względu na szeroką dostępność programu Microsoft Excel i/lub produktów Google.

Pokażmy Ci inny przykład.

Obliczymy SRM dla testu A/B z podziałem ruchu 50/50 i zaobserwowanymi liczbami odwiedzających odpowiednio 214 598 i 241,156 dla oryginału i odmiany.

Użyjemy testu Chi-kwadrat, aby sprawdzić, czy obserwowany podział ruchu odpowiada oczekiwanemu podziałowi ruchu. Jeśli tak się nie stanie, będziesz chciał wiedzieć, czy zaobserwowane wartości różnią się wystarczająco od oczekiwanych, aby wzbudzić obawy i uzasadnić odrzucenie wyników.

Aby obliczyć wartość p, musisz użyć funkcji CHISQ.TEST w arkuszu kalkulacyjnym, jak pokazano w poniższym arkuszu kalkulacyjnym.

Arkusz kalkulacyjny obliczania niezgodności współczynnika próbki

W naszym przykładzie wartość p wynosi 0. Przy wartości p poniżej 0,05 masz SRM na rękach i wystarczającą ilość dowodów, aby w większości przypadków odrzucić wyniki testu.

Korzystanie z internetowych kalkulatorów niedopasowania współczynnika próbkowania

  1. Kalkulator Convert może pomóc w zdiagnozowaniu niedopasowania proporcji próbek, a także informuje, ile czasu trzeba czekać na zakończenie eksperymentu!
    Kalkulator niedopasowania proporcji próbki Konwertuj
  2. Innym kalkulatorem online specyficznym dla SRM jest ten zaprojektowany przez Lukasa Vermeera. Ta metoda oblicza SRM w taki sam sposób, jak poprzednia technika, więc jeśli śledziłeś i zrozumiałeś proces, powinieneś być w stanie użyć tego internetowego kalkulatora SRM. Po prostu wpisz liczby dla swoich próbek, a wynik będzie wyglądał tak
    Kontroler niedopasowania współczynnika próbkowania SRM

Jak SRM wpływa na testy A/B?

Prawdopodobnie podczas eksperymentu przyglądałeś się podziałowi ruchu na warianty i zastanawiałeś się, jaka była jego dokładność.

Być może taki, który wygląda jak poniższy raport. Możesz na nią spojrzeć i zastanowić się, czy to normalne, że oryginał miał 1330 odwiedzających, a Variation 1713.

Niezgodność współczynnika próbki SRM w raporcie z testu A/B

Krótkie obliczenie statystyczne wskaźnika SRM (przy użyciu jednej z dwóch powyższych metod) powie Ci, czy wskaźnik zmienności jest akceptowalny, czy nie.

Czy rzeczywisty podział między dwie odmiany (pierwotna i odmiana 1) odpowiada wartościom oczekiwanym? Jeśli tak nie jest, należy odrzucić dane i ponownie uruchomić test po rozwiązaniu problemu.

Czy SRM wpływa zarówno na modele statystyk częstych, jak i bayesowskich?

TAk.

Przyczyny SRM mają identyczny wpływ na wiarygodność wyników eksperymentu, niezależnie od tego, czy dane są analizowane metodami Bayesian (Google Optimize, Optimizely, VWO, A/B Tasty) czy Frequentist (Convert Experiences, Dynamic Yield).

Tak więc powyższe kalkulatory SRM mogą być również używane do sprawdzania SRM na platformach korzystających ze statystyk Bayesa.

Kiedy należy wziąć pod uwagę SRM?

Znalezienie niezgodności stosunku próbek w testach niekoniecznie oznacza, że ​​musisz odrzucić wyniki.

Kiedy więc naprawdę należy poważnie traktować obliczenia SRM?

Dowiedzmy się na kilku przykładach.

Przykład 1

Prowadzisz eksperyment, w którym oryginał i odmiana są przypisane po 50% użytkowników. Dlatego oczekujesz, że w każdym z nich zobaczysz mniej więcej taką samą liczbę użytkowników.

Wyniki wracają jako

  • Kontrola: 21 588 użytkowników
  • Leczenie: 15 482 użytkowników

Przełóżmy je przez SRM Checker:

Przykładowy przykład sprawdzania niezgodności współczynnika SRM

Czy to powód do niepokoju?

Wartość p dla powyższego stosunku próbek wynosi <0,0001, więc prawdopodobieństwo zaobserwowania tego stosunku lub bardziej ekstremalnego, zgodnie z projektem wymagającym równych proporcji, wynosi <0,0001!

Powinieneś się absolutnie martwić, że coś jest nie tak , ponieważ właśnie zaobserwowałeś bardzo mało prawdopodobne wydarzenie. Jest zatem bardziej prawdopodobne, że w realizacji eksperymentu jest jakiś błąd i nie należy ufać żadnemu z wyników.

Przykład #2

Przeprowadzasz inny eksperyment, w którym oryginał i odmiana mają równy odsetek użytkowników. Obliczasz wartość p i wynosi <0,002, a więc bardzo mało prawdopodobne zdarzenie.

Jak bardzo mogą być metryki? Czy naprawdę musisz odrzucić wyniki?

Korzystając z platformy eksperymentalnej, takiej jak Convert Experiences, możesz zastosować segmentację post-testową do wyników i dowiedzieć się, że jeśli wykluczysz użytkowników Internet Explorera, SRM zniknie.

W tym przypadku wykluczeni użytkownicy najprawdopodobniej korzystają ze starej przeglądarki IE, co było przyczyną SRM; bot nie został poprawnie sklasyfikowany z powodu pewnych zmian w Wariacji, powodując niezgodność współczynnika.

Bez segmentu pozostały odsetek użytkowników jest odpowiednio zbilansowany, a dane wydają się normalne.

Przeglądarka raportów z testu SRM A/B o niezgodności współczynnika próbki

Gdyby SRM nie został odkryty, cały eksperyment zostałby uznany za poważną porażkę.

Ale kiedy SRM został zauważony, mały segment można było usunąć, a eksperyment wykorzystać do właściwej analizy.

W podobnym scenariuszu możesz bezpiecznie zignorować wykluczonych użytkowników i użyć eksperymentu .

Przykład #3

Przeprowadzasz eksperyment i dowiadujesz się, że w twoim teście jest oznaczony SRM.

Jeśli jednak zwrócisz uwagę na swoje wykresy, zauważysz, że krzywe współczynnika konwersji pozostają równoległe, a obliczona pewność wynosi 99,99%. Ten wzorzec powinien dawać wystarczającą pewność, że testy są prawidłowe.

Diagnozowanie niezgodności współczynnika próbki w raporcie z testu A/B

W takim przypadku możesz bezpiecznie zignorować SRM i nadal ufać swoim danym .

Gdzie należy sprawdzić, czy istnieje SRM?

Istnieje kilka obszarów, w których może wystąpić SRM. Przyjrzyjmy się taksonomii przyczyn Lukasa Vermeera:

  1. Przypisanie eksperymentu — może wystąpić przypadek nieprawidłowego zasobnika (użytkownicy są umieszczani w nieprawidłowych klastrach), wadliwa funkcja randomizacji lub uszkodzone identyfikatory użytkowników.
  2. Wykonywanie eksperymentu — zmiany mogły rozpocząć się w różnym czasie (powodując rozbieżności) lub mogą wystąpić opóźnienia w wykonaniu filtru (określające grupy poddane eksperymentowi).
  3. Przetwarzanie logów eksperymentów – automatyczne boty usuwające prawdziwych użytkowników, opóźnienie w dotarciu informacji do logów.
  4. Analiza eksperymentu – Nieprawidłowe uruchamianie wariacji lub jej nieprawidłowe uruchamianie.
  5. Zakłócenia eksperymentu — eksperyment może być przedmiotem ataków i hacków lub wpływ innego trwającego eksperymentu może zakłócać bieżący eksperyment.
Gdzie można zauważyć niedopasowanie współczynnika próbek?
Źródło

Jeśli masz SRM i nie wiesz, gdzie szukać odpowiedzi, powyższa taksonomia jest cennym punktem wyjścia.

Aby było jaśniej, teraz przedstawimy Wam przykład z życia wzięty dla każdego z tych przypadków.

Przypisanie eksperymentu

Oto, gdzie jedną z najciekawszych rzeczy, na które należy zwrócić uwagę, jest funkcja randomizacji, z której korzysta Twoja platforma do testów A/B.

W poniższym przykładzie naukowcy zajmujący się danymi z Wish odkryli problemy z SRM w teście A/A i po długim badaniu doszli do wniosku, że SRM powstał, ponieważ ich randomizacja nie była całkowicie losowa.

Algorytm randomizacji niezgodności współczynnika próbkowania
Źródło

Aby uzyskać prawidłowe wyniki eksperymentu, kluczowa jest procedura randomizacji.

Kluczowym założeniem testów statystycznych wykorzystywanych w testach A/B jest wykorzystanie próbek losowych. Pomiędzy grupami eksperymentów randomizacja równoważy zarówno zaobserwowane, jak i nieobserwowane atrybuty użytkowników, ustalając związek przyczynowy między testowaną cechą produktu a wszelkimi różnicami wyników w wynikach badań.

PRO RADA : Convert ma własny algorytm randomizacji, który zapewnia równomierny rozkład między odmianami, więc SRM nie może być przez to spowodowane. Jeśli jednak zaimplementowałeś randomizację za pomocą innego narzędzia, możesz wykonać te kroki, aby podzielić odwiedzających na odmiany.

Wykonanie eksperymentu

Jeśli chodzi o wykonywanie eksperymentów, istnieją dwa główne powody, które mogą powodować SRM w twoich doświadczeniach.

1. Skrypt nie został poprawnie zainstalowany na jednej z Wariacji

Zawsze sprawdzaj, czy skrypt Twojej platformy testów A/B jest poprawnie zainstalowany na oryginale i odmianach.

Nasz zespół obsługi klienta niedawno rozwiązał przypadek, w którym skrypt Convert nie został dodany do jednej z odmian, powodując SRM w teście.

Upewnij się, że dodajesz skrypt na wszystkich stronach, na których chcesz uruchomić środowisko, jak pokazano poniżej:

Problem z wykonaniem eksperymentu z niezgodnością współczynnika próbkowania

2. Kierowanie na stronę jest nieprawidłowo skonfigurowane

W tym przypadku niezgodność SRM wynika z nieprawidłowego ustawienia kierowania testu.

W przypadku nieprawidłowej konfiguracji niektórzy użytkownicy są wybierani do przekierowania do odmiany, ale przekierowanie kończy się niepowodzeniem, najprawdopodobniej dlatego, że oryginalne wyrażenie adresu URL nie pasuje do wszystkich adresów URL wszystkich użytkowników zebranych w teście i przekierowanych.

Aby tego uniknąć, zmień konfigurację wyrażeń adresów URL odmian eksperymentu i ponownie uruchom test.

Oto dwa kolejne scenariusze pokazujące, jak skonfigurować kierowanie na stronę za pomocą funkcji Convert Experiences, aby uniknąć SRM w testach Split URL.

Scenariusz 1: Kieruj tylko na stronę główną (https://www.convert.com) za pomocą podzielonego adresu URL i przekaż wszystkie parametry zapytania, które mogą mieć odwiedzający

Tutaj, w obszarze witryny, adres URL strony musi dokładnie odpowiadać https://www.convert.com. W sekcji wykluczenia ciąg zapytania powinien zawierać v1=true , aby uniknąć przekierowań (ponieważ warunki eksperymentu będą nadal zgodne, jeśli trafisz na https://www.convert.com ?v1=true i ruch dystrybucja może być nierówna).

Następnie, gdy definiujesz swoje odmiany, zachowaj to w ten sposób:

Rozwiązanie problemu z wykonaniem eksperymentu z niedopasowaniem próbki

Scenariusz 2: Kieruj reklamy na wszystkie strony, nie tylko na stronę główną (https://www.convert.com), za pomocą podzielonego adresu URL i przekaż parametry zapytania

Tutaj musisz zdefiniować swój obszar witryny za pomocą „URL strony”, który zawiera https://www.convert.com . W sekcji wykluczenia zapytanie powinno zawierać v1=true.

Podczas definiowania odmian użyj poniższego przepisu na wyrażenie regularne, aby złapać wszystkie strony:

Przykładowe rozwiązanie z eksperymentem dotyczącym niedopasowania do wyrażenia regularnego

Przetwarzanie dziennika eksperymentów

Tutaj, jako główny powód SRM, identyfikujemy boty, które mogą atakować Twoje wrażenia. Możesz skontaktować się z nami, aby sprawdzić dodatkowe logi, które przechowujemy, czy możemy znaleźć jakieś nietypowe wzorce na klientach użytkownika.

Na przykład nasz zespół wsparcia pomagał klientowi, którego test miał SRM.

W ich przypadku, gdy przefiltrowaliśmy raport według Browser=Other , zauważyliśmy nierówny podział i SRM. Ale kiedy przefiltrowaliśmy ten sam raport według Browser=Chrome+Safari , nie wykryto SRM ani nierównej dystrybucji.

Sample Ratio Mismatch SRM w raporcie z eksperymentu
Konwertuj raport z eksperymentu Doświadczenia

Sprawdziliśmy więc kilka zdarzeń, w których przeglądarka była ustawiona na Inne i wszystkie z nich pokazywały agenta użytkownika „site24x7”. Od razu wiedzieliśmy, że jest to jakiś rodzaj oprogramowania monitorującego, co jest szczęśliwe, ponieważ reklamuje się i używa odrębnego agenta użytkownika. Gdyby było to ukryte za zwykłym agentem użytkownika, nie można by go znaleźć.

Aby rozwiązać ten problem, dodaliśmy tego klienta użytkownika do listy botów, które wykluczamy z ruchu. Niestety ta zmiana może mieć wpływ na przyszłe dane, po tym jak dodamy bota do listy, ale przynajmniej został odnaleziony i naprawiony.

Analiza eksperymentu

Ta kategoria dotyczy głównie doświadczeń ustawionych z wyzwalaniem ręcznym.

Dzieje się tak na przykład w aplikacjach jednostronicowych, w których musisz sam zadbać o wyzwalanie.

Tak więc, ilekroć musisz to zrobić ręcznie, używając kodu podobnego do poniższego, zwróć szczególną uwagę na potencjalne SRM w swoim teście.

 okno._konw_q = _konw_q || [];
window._conv_q.push(["uruchom","prawda"]);

Zakłócenia eksperymentalne

Odnosi się to do interwencji użytkownika, w której jedna z odmian zostaje wstrzymana podczas doświadczenia. Wyobraź sobie, że masz test podzielonego adresu URL, który działa od kilku tygodni i albo przez pomyłkę, albo celowo wstrzymujesz odmianę i pozostawiasz tylko oryginał uruchomiony.

Zaraz po tym, w zależności od ruchu na Twojej stronie, zauważysz SRM obliczony dla Twojego testu.

Zakłócenia w eksperymencie SRM Sample Ratio Mismatch

W takim przypadku możesz wykluczyć zakres dat, w którym odmiana została wstrzymana, lub zresetować dane doświadczenia.

Przyczyny braku eksperymentu

Jeśli żadna z powyższych kategorii nie ujawnia głównej przyczyny Twojego SRM, sugerujemy dodanie oprogramowania do śledzenia błędów w Twojej witrynie (takiego jak Sentry), aby zidentyfikować głębsze problemy z Twoją witryną.

Platformy testowe A/B obsługujące alerty SRM

Być może zastanawiasz się, które platformy testowe A/B obsługują tę funkcjonalność SRM i wyświetlają alerty bez konieczności samodzielnego obliczania.

Skończyliśmy badania i przygotowaliśmy listę narzędzi.

Konwertuj doświadczenia

Od grudnia 2021 roku wprowadziliśmy własną metodę SRM.

Jeśli jesteś użytkownikiem, możesz włączyć kontrole SRM z Konfiguracja projektu > Więcej ustawień.

Sprawdzenie Sample Ratio Mismatch SRM w aplikacji Convert Experiences

Wtedy będziesz mógł zobaczyć tagi SRM w raportach:

Przykładowy raport dotyczący niezgodności współczynnika SRM z konwersją

Optymalizuj

Optimizely udostępniła rozwiązanie do testowania sekwencyjnego we wrześniu 2021 r., które każdy może wdrożyć w celu wykrywania SRM.

Optimizely przekształciło ssrm-test w gotową do produkcji mikrousługę zaplecza, która może działać jednocześnie we wszystkich uruchomionych eksperymentach.

Na stronie wyników Optimizely możesz ustawić alerty i uzyskać wyniki w czasie rzeczywistym z testu ssrm:

Niezgodność współczynnika próbkowania SRM Optimizely
Źródło

Michael Lindon, Optimizely Staff Statystyk, mówi, że SRM to typowy problem, który pojawia się, gdy testy są przeprowadzane słabo.

Do przeprowadzenia eksperymentu produktowego potrzebna jest znaczna ilość infrastruktury, więc mogą wystąpić błędy. Jeśli na przykład użytkownicy witryny nie są konsekwentnie przypisywani do odmiany eksperymentu i dokonują konwersji zarówno w warunkach oryginału, jak i odmiany, dane uzyskane dla tego użytkownika nie są odpowiednie do oceny wpływu eksperymentu.

Głównym problemem jest sytuacja, gdy SRM generuje niedokładne dane, które mogą wpłynąć na twoje metryki i pozostać niewykryte.

Adobe Target przez MiaProva

W kwietniu 2021 r. Adobe Target nawiązał współpracę z MiaProva w celu dostarczania alertów SRM dotyczących działań A/B.

Alerty te powiadamiają klientów MiaProva korzystających z Adobe Target o wykryciu niezgodności. To podejście automatycznie stosuje test chi-kwadrat do każdego testu A/B na żywo.

Przykładowa niezgodność współczynnika SRM Aplikacja Adobe Target
Przykładowy alert niedopasowania współczynnika SRM Adobe Target
Źródło: alerty MiaProva na pulpicie nawigacyjnym na żywo

Książka wzrostu

GrowthBook to platforma testowa A/B typu open source z silnikiem statystyk Bayesa i automatycznymi kontrolami SRM dla każdego eksperymentu.

Sample Ratio Mismatch SRM GrowthBook
Źródło

Każdy eksperyment szuka SRM i ostrzega użytkowników, jeśli taki zostanie zidentyfikowany.

Gdy przewidujesz pewien podział ruchu (np. 50/50), ale zamiast tego widzisz coś drastycznie innego (np. 40/60), otrzymujesz ostrzeżenie. Jest to wyświetlane tylko wtedy, gdy wartość p jest mniejsza niż 0,001, co wskazuje, że jest bardzo mało prawdopodobne, aby wystąpiła przypadkowo.

Alert Sample Ratio Mismatch SRM GrowthBook

Wynikom takiego testu nie należy ufać, ponieważ są potencjalnie zwodnicze, stąd ostrzeżenie. Zamiast tego użytkownicy powinni zlokalizować i poprawić źródło błędu przed ponownym uruchomieniem eksperymentu.

Split.io

Split to platforma dostarczania funkcji, która umożliwia zarządzanie flagami funkcji, eksperymentowanie z oprogramowaniem i ciągłe dostarczanie.

Przy każdej aktualizacji obliczeń platforma Split sprawdza współczynnik próbkowania, aby sprawdzić, czy istnieje znaczna różnica między docelowymi i bieżącymi współczynnikami próbkowania. Ten przykładowy wskaźnik sprawdzania można znaleźć pod podsumowaniem kluczowych i organizacji metryk, wraz z innymi ważnymi szczegółami, takimi jak czas trwania i ostatnia aktualizacja.

Split.io
Źródło

Niezgodność współczynnika wielkości próbki, zdemistyfikowana

Możesz zapytać, jak często „normalne” jest oglądanie SRM?

Najlepiej ujął to Lukas Vermeer. Nawet duże firmy technologiczne obserwują naturalną częstotliwość SRM od 6% do 10% w swoich kontrolowanych eksperymentach online.

Teraz, jeśli SRM powtarza się częściej, gwarantuje to dokładniejsze zbadanie projektu eksperymentu lub witryny internetowej.

Nasz zespół jest zawsze dostępny, aby pomóc, jeśli masz problemy takie jak te powyżej! Kliknij tutaj, aby skontaktować się z naszym zespołem.