Sample Ratio Mismatch (SRM): una guía completa con soluciones para casos de clientes

Publicado: 2022-04-07
Desajuste de proporción de muestra en las pruebas A/B

¿Qué es peor que una prueba fallida?

Probar problemas de calidad de datos que hacen que los resultados de las pruebas no sean confiables.

Pero, ¿cómo puede mantenerse alejado de los datos incorrectos?

La comprobación de la discrepancia de la proporción de muestras (SRM) es una forma sencilla de detectar problemas potenciales a tiempo. Si algo es sospechoso, cuanto antes lo descubras, mejor.

Continúe leyendo para obtener más información sobre el desajuste de la proporción de muestras, cómo detectarlo, cómo afecta sus pruebas y qué plataformas de pruebas A/B vienen con comprobaciones SRM integradas (para que no tenga que mantener una hoja de cálculo a un lado) .

ocultar
  • ¿Qué es el desajuste de proporción de muestra (SRM)?
  • ¿Tu prueba A/B tiene un SRM? ¿Cómo calcular el desajuste de la relación de muestra?
    • Uso de hojas de cálculo
    • Uso de calculadoras en línea de desajuste de proporción de muestra
  • ¿Cómo afecta SRM a las pruebas A/B?
  • ¿SRM afecta tanto a los modelos de estadísticas frecuentistas como bayesianos?
  • ¿Cuándo debe tener en cuenta SRM?
  • ¿Dónde debe comprobar si existe SRM?
    • Asignación de experimento
    • Ejecución del Experimento
    • Procesamiento de registros de experimentos
    • Análisis de experimentos
    • Interferencia del experimento
    • Razones para no experimentar
  • Plataformas de pruebas A/B que admiten alertas SRM
    • Convertir Experiencias
    • de forma optimizada
    • Adobe Target a través de MiaProva
    • CrecimientoLibro
    • dividir.io
  • Desmitificación de la relación del tamaño de la muestra Desmitificado

¿Qué es el desajuste de proporción de muestra (SRM)?

Sample Ratio Mismatch, o SRM, ocurre en las pruebas A/B cuando el número real de muestras (o visitantes en un grupo de tratamiento) no coincide con lo esperado.

Ilustremos esto con un ejemplo.

Digamos que un sitio web recibe alrededor de 15 mil visitantes por semana. Tenemos 3 variaciones, el original (que es la página sin cambios) y 2 variaciones. ¿Cuánto tráfico espera que reciba cada uno si el tráfico se asigna por igual? En un mundo ideal, la respuesta sería que cada variación debería recibir 15.000 / 3 = 5000 visitantes.

Ahora bien, es muy poco probable que cada variación reciba realmente 5000 visitantes, sino un número muy cercano a eso, como 4982 o 5021. ¡Esa ligera variación es normal y se debe a la simple aleatoriedad! Pero si una de las variaciones recibiera 3500 visitantes y las otras alrededor de 5000, ¡algo podría estar mal con esa!

En lugar de confiar en nuestra propia intuición para detectar estos problemas, podemos optar por la prueba SRM. Utiliza la prueba de bondad de ajuste Chi-cuadrado para decirnos, por ejemplo, si 4850 o 4750 visitantes, en comparación con el otro número de visitantes recibidos, ¡son "normales" o no!

En términos estadísticos, la prueba de bondad de ajuste Chi-cuadrado compara el número observado de muestras con las esperadas. Y si hay una diferencia real, el valor p será inferior al nivel de significación establecido de 0,01, que corresponde a una confianza del 99 %.

Mire este video con Lukas Vermeer mientras profundiza en los detalles de SRM y más preguntas frecuentes sobre el tema.

¿Tu prueba A/B tiene un SRM? ¿Cómo calcular el desajuste de la relación de muestra?

En las pruebas A/B, SRM puede ser un verdadero coco, lo que provoca resultados inexactos y conclusiones equivocadas. La buena noticia es que existen herramientas que pueden ayudarlo a evitar dolores de cabeza.

Uso de hojas de cálculo

Las hojas de cálculo son el método más simple para calcular SRM debido a la amplia disponibilidad de Microsoft Excel y/o productos de Google.

Vamos a mostrarte otro ejemplo.

Calcularemos SRM para una prueba A/B con una división de tráfico de 50/50 y números observados de visitantes de 214 598 y 241 156 para el original y la variación, respectivamente.

Usaremos la prueba de chi-cuadrado para ver si la división de tráfico observada coincide con la división de tráfico esperada. En caso de que no sea así, querrá saber si los valores observados difieren lo suficiente de los valores esperados como para causar preocupación y garantizar el descarte de los resultados.

Deberá usar la función CHISQ.TEST en su hoja de cálculo para calcular el valor p, como se ilustra en la siguiente hoja de cálculo.

Hoja de cálculo de cálculo de desajuste de proporción de muestra

En nuestro ejemplo, el valor p es 0. Con un valor p inferior a 0,05, tiene un SRM en sus manos y suficiente evidencia para descartar los hallazgos de la prueba en la mayoría de los casos.

Uso de calculadoras en línea de desajuste de proporción de muestra

  1. La calculadora de Convert puede ayudar a diagnosticar el desajuste de la relación de muestra y también le indica cuánto tiempo debe esperar para que se complete su experimento.
    Calculadora de desajuste de relación de muestra Convertir
  2. Otra calculadora en línea específica de SRM es la diseñada por Lukas Vermeer. Este método calcula SRM de la misma manera que la técnica anterior, por lo que si siguió y entendió el proceso, debería poder usar esta calculadora SRM en línea. Simplemente complete los números para sus muestras y el resultado se mostrará así
    Comprobador SRM de desajuste de relación de muestra

¿Cómo afecta SRM a las pruebas A/B?

Es probable que haya observado la división del tráfico entre las variantes durante un experimento y se haya preguntado qué tan preciso era.

Tal vez uno que se parece al informe a continuación. Puede mirarlo y preguntarse si es normal que el Original tuviera 1330 visitantes pero la Variación 1713.

Relación de muestra Mismatch SRM en informe de prueba A/B

Un breve cálculo estadístico de la relación SRM (usando cualquiera de los dos métodos anteriores) le dirá si la relación de variación es aceptable o no.

¿La división real entre las dos variaciones (Original y Variación 1) corresponde a los valores esperados? Si ese no es el caso, debe rechazar los datos y reiniciar la prueba cuando haya resuelto el problema.

¿SRM afecta tanto a los modelos de estadísticas frecuentistas como bayesianos?

Sí.

Las causas de SRM tienen un impacto idéntico en la validez de los resultados de un experimento, ya sea que los datos se analicen con enfoques bayesianos (Google Optimize, Optimizely, VWO, A/B Tasty) o frecuentistas (Convert Experiences, Dynamic Yield).

Por lo tanto, las calculadoras SRM anteriores también se pueden usar para verificar SRM en plataformas que usan estadísticas bayesianas.

¿Cuándo debe tener en cuenta SRM?

Encontrar una discrepancia de relación de muestra en sus pruebas no significa necesariamente que deba descartar los resultados.

Entonces, ¿cuándo es realmente necesario tomar en serio el cálculo de SRM?

Vamos a averiguarlo con algunos ejemplos.

Ejemplo 1

Ejecuta un experimento en el que el Original y la Variación tienen asignado el 50 % de los usuarios. Por lo tanto, espera ver un número igual de usuarios en cada uno.

Los resultados regresan como

  • Control: 21.588 usuarios
  • Tratamiento: 15.482 usuarios

Pasémoslos por el SRM Checker:

Ejemplo de verificador SRM de incompatibilidad de relación de muestra

¿Es esto motivo de preocupación?

El valor p para la relación de muestra anterior es <0,0001, por lo que la probabilidad de ver esta relación o una más extrema, bajo un diseño que requería proporciones iguales, es <0,0001.

Debería estar absolutamente preocupado de que algo esté mal , ya que acaba de observar un evento extremadamente improbable. Por lo tanto, es más probable que haya algún error en la implementación del experimento y no debe confiar en ninguno de los resultados.

Ejemplo #2

Ejecuta otro experimento, donde el Original y la Variación tienen asignado un porcentaje igual de usuarios. Calcula el valor p y es <0.002, por lo que es un evento muy poco probable.

¿Qué tan mal podrían estar las métricas? ¿Realmente tienes que descartar los resultados?

Con una plataforma de experimentación como Convert Experiences, puede aplicar una segmentación posterior a la prueba a los resultados y descubrir que si excluye a los usuarios de Internet Explorer, el SRM desaparece.

En este caso, lo más probable es que los usuarios excluidos usen un navegador IE antiguo, que fue la causa del SRM; un bot no se clasificó correctamente debido a algunos cambios en la Variación, lo que provocó el desajuste de la proporción.

Sin el segmento, el porcentaje restante de usuarios está debidamente equilibrado y las métricas parecen normales.

Explorador de informes de prueba SRM A/B de incompatibilidad de relación de muestra

Si no se hubiera descubierto el SRM, todo el experimento se habría considerado un gran fracaso.

Pero una vez que se detectó el SRM, se pudo eliminar un pequeño segmento y se utilizó el experimento para un análisis adecuado.

En un escenario similar, puede ignorar con seguridad a los usuarios excluidos y se puede usar el experimento .

Ejemplo #3

Ejecuta un experimento y descubre que hay SRM etiquetado en su prueba.

Sin embargo, si presta atención a sus gráficos, notará que las curvas de tasa de conversión se mantienen paralelas y la confianza calculada es del 99,99 %. Ese patrón debería proporcionarle suficiente certeza de que las pruebas son válidas.

Diagnóstico de discrepancia de proporción de muestra en el informe de prueba A/B

En este caso, puede ignorar el SRM de forma segura y seguir confiando en sus datos .

¿Dónde debe comprobar si existe SRM?

Hay algunas áreas donde SRM puede ocurrir. Echemos un vistazo a la taxonomía de causas de Lukas Vermeer:

  1. Asignación de experimentos : puede haber un caso de agrupamiento incorrecto (los usuarios se colocan en grupos incorrectos), una función de aleatorización defectuosa o ID de usuario corruptas.
  2. Ejecución del experimento : las variaciones pueden haber comenzado en diferentes momentos (causando discrepancias) o puede haber retrasos en la ejecución del filtro (determinando qué grupos están sujetos al experimento).
  3. Procesamiento de registros de experimentos : bots automáticos que eliminan usuarios reales, un retraso en la llegada de información a los registros.
  4. Análisis del experimento : activación incorrecta de la variación o inicio incorrecto.
  5. Interferencia del experimento : el experimento puede estar sujeto a ataques y hackeos, o los impactos de otro experimento en curso pueden estar interfiriendo con el experimento actual.
¿Dónde se puede detectar el desajuste de la relación de muestra?
Fuente

Si tiene un SRM y no está seguro de dónde buscar una respuesta, la taxonomía anterior es un lugar valioso para comenzar.

Y para dejar las cosas más claras, ahora le daremos un ejemplo de la vida real para cada uno de estos casos.

Asignación de experimento

Aquí es donde una de las cosas más interesantes a tener en cuenta es la función de aleatorización que utiliza su plataforma de pruebas A/B.

En el siguiente ejemplo, los científicos de datos de Wish descubrieron problemas de SRM en una prueba A/A y, después de una larga investigación, concluyeron que el SRM surgió porque su aleatorización no fue completamente aleatoria.

Algoritmo de aleatorización de desajuste de proporción de muestra
Fuente

Para lograr hallazgos experimentales válidos, el procedimiento de aleatorización es crucial.

Una suposición crucial de las pruebas estadísticas utilizadas en las pruebas A/B es el uso de muestras aleatorias. Entre grupos de experimentos, la aleatorización equilibra los atributos de usuario observados y no observados, estableciendo una relación causal entre la característica del producto bajo prueba y cualquier diferencia de resultado en los hallazgos de la prueba.

SUGERENCIA PRO : Convert tiene su propio algoritmo de aleatorización que garantiza una distribución uniforme entre las variaciones, por lo que SRM no puede ser causado por esto. Sin embargo, si ha implementado la aleatorización con otra herramienta, puede seguir estos pasos para dividir a los visitantes en variaciones.

Ejecución del Experimento

Cuando se trata de la ejecución de experimentos, hay dos razones principales que pueden causar SRM en sus experiencias.

1. El script no está instalado correctamente en una de las variaciones.

Compruebe siempre si el script de su plataforma de pruebas A/B está instalado correctamente en el original y las variaciones.

Nuestro equipo de atención al cliente resolvió recientemente un caso en el que el script Convert no se agregó en una de las variaciones, lo que provocó un SRM en la prueba.

Asegúrese de agregar el script en todas las páginas donde desea que se ejecute la experiencia, como se muestra a continuación:

Problema de ejecución del experimento de desajuste de proporción de muestra

2. La orientación de la página está configurada incorrectamente

En este caso, la discrepancia de SRM se debe a que la orientación de la prueba se configuró incorrectamente.

Con una configuración incorrecta, se seleccionan algunos visitantes para ser redirigidos a la variación, pero la redirección falla, muy probablemente porque la expresión de URL original no coincide con todas las URL de todos los visitantes clasificados en la prueba y redirigidos.

Para evitar esto, vuelva a configurar las expresiones de URL de variación del experimento y vuelva a ejecutar la prueba.

Aquí hay dos escenarios más que le muestran cómo configurar la orientación de su página con Convert Experiences para evitar SRM en las pruebas de URL divididas.

Escenario 1: oriente solo la página de inicio (https://www.convert.com) con la URL dividida y pase todos los parámetros de consulta que los visitantes puedan tener

Aquí, en el Área del sitio, la URL de la página debe coincidir exactamente con https://www.convert.com. En la sección de exclusión, la cadena de consulta debe contener v1=true para evitar cualquier redirección (porque las condiciones del experimento seguirán coincidiendo si termina en https://www.convert.com ?v1=true y el tráfico la distribución podría terminar siendo desigual).

Luego, cuando defina sus variaciones, manténgalo así:

Solución del problema de ejecución del experimento de desajuste de proporción de muestra

Escenario 2: Apunte a todas las páginas, no solo a la página de inicio (https://www.convert.com), con la URL dividida y pase los parámetros de consulta

Aquí, debe definir su Área de sitio con una "URL de página" que contenga https://www.convert.com . En la sección de exclusión, la consulta debe contener v1=true.

Al definir las variaciones, use la receta de expresiones regulares a continuación para capturar todas las páginas:

Solución de expresión regular del experimento de desajuste de proporción de muestra

Procesamiento de registros de experimentos

Aquí, como motivo principal de los SRM, identificamos los bots que pueden orientar su experiencia. Puede comunicarse con nosotros para verificar los registros adicionales que mantenemos si podemos encontrar patrones inusuales en los agentes de usuario.

Por ejemplo, nuestro equipo de soporte ayudó a un cliente cuya prueba tenía SRM.

En su caso, cuando filtramos el informe por Browser=Other , vimos una división desigual y SRM. Pero cuando filtramos el mismo informe por Browser=Chrome+Safari , no se detectó SRM ni una distribución desigual.

Relación de muestra que no coincide SRM en el informe del experimento
Informe del experimento Convertir experiencias

Entonces, verificamos un par de eventos que tenían el navegador configurado en Otro, y todos mostraban un Agente de usuario de "site24x7". Inmediatamente supimos que se trataba de algún tipo de software de monitoreo, lo cual es una suerte ya que es publicidad y utiliza un agente de usuario distinto. Si esto hubiera estado oculto detrás de un agente de usuario habitual, habría sido imposible encontrarlo.

Para resolver el problema, seguimos adelante y agregamos este User-Agent a la lista de bots que excluimos del tráfico. Desafortunadamente, este cambio puede tener un impacto en los datos futuros, después del momento en que agreguemos el bot a la lista, pero al menos se encontró y se solucionó.

Análisis de experimentos

Esta categoría afecta principalmente a las experiencias configuradas con activación manual.

Esto sucede, por ejemplo, en las aplicaciones de una sola página en las que debe encargarse de la activación usted mismo.

Por lo tanto, cada vez que tenga que hacerlo manualmente utilizando un código similar al que se muestra a continuación, preste mucha atención a los SRM potenciales en su prueba.

 ventana._conv_q = _conv_q || [];
ventana._conv_q.push(["ejecutar","verdadero"]);

Interferencia del experimento

Esto se refiere a una intervención del usuario donde una de las variaciones se detiene durante la experiencia. Imagine que tiene una prueba de URL dividida que se está ejecutando durante algunas semanas y, por error o a propósito, detiene la variación y solo deja la original en ejecución.

Inmediatamente después, y dependiendo del tráfico de su sitio web, notará que se calculó el SRM para su prueba.

Interferencia del experimento SRM de desajuste de relación de muestra

En este caso, puede excluir el intervalo de fechas en el que se detuvo la variación o restablecer los datos de la experiencia.

Razones para no experimentar

Si ninguna de las categorías anteriores revela la causa raíz de su SRM, le sugerimos que agregue un software de seguimiento de errores en su sitio web (como Sentry) para identificar problemas más profundos en su sitio.

Plataformas de pruebas A/B que admiten alertas SRM

Quizás se esté preguntando qué plataformas de pruebas A/B admiten esta funcionalidad de SRM y le brindan alertas sin que tenga que calcularlas usted mismo.

Hicimos la investigación y compilamos una lista de herramientas.

Convertir Experiencias

A partir de diciembre de 2021, presentamos nuestro propio método SRM.

Si es un usuario, puede habilitar las comprobaciones de SRM desde Configuración del proyecto > Más configuraciones.

Verificación de SRM de discrepancia de proporción de muestra en la aplicación Convert Experiences

Luego podrá ver las etiquetas SRM en los informes:

Ejemplo de informe de experiencias de conversión de SRM de discrepancia de proporción

de forma optimizada

Optimizely abrió una solución de prueba secuencial en septiembre de 2021 que cualquiera puede implementar para detectar SRM.

Optimizely ha convertido ssrm-test en un microservicio de back-end listo para la producción que puede ejecutarse en todos los experimentos en ejecución al mismo tiempo.

En la página de resultados de Optimizely, puede configurar alertas y obtener resultados en tiempo real de la prueba ssrm:

Relación de muestra Desajuste SRM Optimizely
Fuente

Michael Lindon, estadístico del personal de Optimizely, dice que SRM es un problema típico que ocurre cuando las pruebas se realizan de manera deficiente.

Para ejecutar un experimento de producto, se necesita una gran cantidad de infraestructura, por lo que puede haber errores. Por ejemplo, si los visitantes del sitio web no se agrupan constantemente en una variación del experimento y no se convierten en las condiciones original y de variación, los datos obtenidos para ese usuario no son válidos para evaluar el impacto del experimento.

La principal preocupación es cuando SRM produce datos inexactos que pueden afectar sus métricas y pasar desapercibidos.

Adobe Target a través de MiaProva

En abril de 2021, Adobe Target se asoció con MiaProva para proporcionar alertas SRM sobre actividades A/B.

Estas alertas notifican a los clientes de MiaProva que usan Adobe Target cuando se detecta una discrepancia. Este enfoque aplica automáticamente una prueba de chi-cuadrado a cada prueba A/B en vivo.

Relación de muestra Desajuste SRM Aplicación de Adobe Target
Alerta de relación de muestra no coincidente SRM Adobe Target
Fuente: Alertas de MiaProva en Live Dashboard

CrecimientoLibro

GrowthBook es una plataforma de pruebas A/B de código abierto con un motor de estadísticas bayesiano y comprobaciones SRM automáticas para cada experimento.

Relación de muestra Desajuste SRM GrowthBook
Fuente

Cada experimento busca un SRM y advierte a los usuarios si se identifica uno.

Cuando predices una cierta división del tráfico (p. ej., 50/50), pero en cambio ves algo drásticamente diferente (p. ej., 40/60), recibes una advertencia. Esto solo se muestra si el valor p es inferior a 0,001, lo que indica que es muy poco probable que ocurra por coincidencia.

Alerta del libro de crecimiento de SRM de discrepancia de proporción de muestra

No se debe confiar en los resultados de una prueba de este tipo, ya que son potencialmente engañosos, de ahí la advertencia. En su lugar, los usuarios deben localizar y corregir el origen del error antes de reiniciar el experimento.

dividir.io

Split es una plataforma de entrega de funciones que impulsa la gestión de indicadores de funciones, la experimentación de software y la entrega continua.

Con cada actualización de cálculo, la plataforma Split verifica la proporción de muestra para ver si existe una diferencia sustancial entre las proporciones de muestra objetivo y actual. Esta verificación de proporción de muestra se puede encontrar debajo del resumen de las métricas clave y de la organización, junto con otros detalles importantes, como la duración y la última actualización.

dividir.io
Fuente

Desmitificación de la relación del tamaño de la muestra Desmitificado

Podría preguntar, ¿con qué frecuencia es "normal" ver un SRM?

Lukas Vermeer lo dijo mejor. Incluso las grandes empresas tecnológicas observan una frecuencia natural de SRM del 6 % al 10 % en sus experimentos controlados en línea.

Ahora, si el SRM se repite con más frecuencia, eso justifica una investigación más profunda sobre el diseño del experimento o el sitio web.

¡Nuestro equipo siempre está disponible para ayudarlo si tiene problemas como los anteriores! Haga clic aquí para comunicarse con nuestro equipo.