Metanálisis en experimentos controlados en línea: una mirada imparcial al poder y las limitaciones de este método científico

Publicado: 2022-09-28
Metanálisis en experimentos controlados en línea

¿Qué tan útil es el metanálisis en las pruebas A/B y otros experimentos en línea?

¿Es útil para aprovechar el aprendizaje pasado para mejorar la generación de hipótesis? ¿O es el metanálisis solo una excusa perezosa para simplemente confiar en "patrones probados" en lugar de basarse en datos específicos de la situación para innovar dentro de su negocio a través de la experiencia?

Este es un tema candente de debate. Algunos están a favor y otros están fuertemente en contra. Pero, ¿cómo puede beneficiarse de ambos puntos de vista y aportar un valor tangible a su programa de experimentación?

De eso se trata esta publicación. En él, podrás

  • Comprender qué es realmente el metanálisis
  • Vea ejemplos de metanálisis en acción
  • Descubra por qué el metanálisis como concepto debe tratarse con cautela (y respeto) y
  • Aprenda cómo los equipos de experimentación pueden realizar metanálisis de la manera correcta

Y con una bonificación: también verá a dos conocidos expertos en optimización de la tasa de conversión discutir esto desde extremos opuestos.

Entremos en ello.

ocultar
  • ¿Qué es el Meta-Análisis?
    • Ejemplos de metanálisis en experimentos controlados en línea
    • ¿Está interesado en realizar su propio metanálisis de pruebas A/B?
  • Metanálisis: sí o no
    • Metanálisis: ¿caminar con precaución?
      • No comprometa el rigor de las pruebas y la búsqueda de la innovación
    • Metanálisis: ¿engrasando el volante de la experimentación?
  • Si elige realizar (y utilizar) un metanálisis, tenga en cuenta lo siguiente
    • Mala calidad de los experimentos incluidos en el análisis
    • Heterogeneidad
    • El sesgo de publicación

¿Qué es el Meta-Análisis?

El metanálisis utiliza estadísticas para tomar una decisión a partir del análisis de múltiples resultados de experimentos. Proviene del mundo científico, donde los investigadores reúnen los resultados de estudios médicos que abordan el mismo tema y usan análisis estadísticos para juzgar si un efecto está realmente presente y qué tan significativo es.

En los experimentos controlados en línea, donde tenemos pruebas A/B, pruebas multivariadas y pruebas divididas para la toma de decisiones y la búsqueda de formas de alto rendimiento para impulsar los objetivos comerciales, tomamos prestado el metanálisis para aprovechar lo que ya hemos aprendido de anteriores pruebas para informar futuras pruebas.

Veamos diferentes ejemplos en la naturaleza.

Ejemplos de metanálisis en experimentos controlados en línea

Aquí hay 3 ejemplos de metanálisis en pruebas A/B, cómo se usó y qué se encontró en cada esfuerzo:

  1. Un metanálisis empírico de estrategias de prueba A/B de comercio electrónico por Alex P. Miller y Kartik Hosanagar

Este metanálisis de pruebas A/B se publicó en marzo de 2020. Los analistas estudiaron pruebas específicamente de la industria del comercio electrónico, con datos que recopilaron de una plataforma de pruebas A/B SaaS. Consistió en 2732 pruebas A/B realizadas por 252 empresas de comercio electrónico con sede en EE. UU. en 7 industrias en un lapso de 3 años.

Analizaron estas pruebas para proporcionar un análisis sólido de cómo se posicionan las pruebas en varias etapas del embudo de conversión de comercio electrónico.

Lo que encontraron fue:

  • En comparación con otros tipos de experimentos, las pruebas sobre promociones de precios y aquellas posicionadas en páginas de categorías se asocian con los tamaños de efecto más grandes.
  • Evidencia de que la respuesta de los consumidores a diferentes promociones depende de dónde se ubiquen esas promociones dentro del sitio de comercio electrónico.
  • Si bien las promociones relacionadas con los precios de los productos son más efectivas al principio del embudo de conversión, las promociones relacionadas con el envío son más efectivas al final del embudo de conversión (en las páginas de productos y pagos).

Veamos otro ejemplo y lo que encontraron los investigadores...

  1. Lo que funciona en el comercio electrónico: un metanálisis de 6700 experimentos de Will Browne y Mike Swarbrick Jones

Con datos de 6700 grandes experimentos de comercio electrónico, principalmente en los sectores minorista y de viajes, Browne y Jones investigaron el efecto de 29 tipos diferentes de cambios y calcularon su impacto acumulativo en los ingresos. Fue publicado en junio de 2017.

Como sugiere el título del artículo, el objetivo era explorar lo que funciona en el comercio electrónico mediante la ejecución de un gran metanálisis. Así es como pudieron llegar a este poderoso resumen: que los cambios en la apariencia del sitio tuvieron un impacto mucho más insignificante en los ingresos que los cambios basados ​​en la psicología del comportamiento.

La métrica de ingresos por visitante (RPV) se utiliza para medir este impacto. Entonces, en sus resultados, un aumento de +10 % de un experimento significa que el RPV aumentó un 10 % en ese experimento.

Aquí hay algunos otros hallazgos del análisis:

  • Los mejores artistas (por categoría) fueron:

    • Escasez (indicadores de acciones, por ejemplo, "Solo quedan 3"): +2.9%
    • Prueba social (informar a los usuarios del comportamiento de los demás): +2,3 %
    • Urgencia (temporizadores de cuenta regresiva): +1.5%
    • Recuperación de abandono (mensajes a los usuarios para mantenerlos en el sitio): +1.1%
    • Recomendaciones de productos (upsells, cross-sells, etc): +0,4%
  • Pero los cambios cosméticos en la interfaz de usuario, como los que se muestran a continuación, no fueron efectivos:

    • Color (cambiar el color de los elementos de la página web): +0.0%
    • Botones (modificación de botones del sitio web): -0.2%
    • Llamadas a la acción (cambiando el texto): -0.3%
  • El 90 % de los experimentos tuvo menos del 1,2 % de efecto en los ingresos, ya sea positivo o negativo
  • Hay poca evidencia de que las pruebas A/B conduzcan a aumentos de dos dígitos en los ingresos que se presentan comúnmente en los estudios de casos.

Ahora espera. Antes de tomar estos resultados de metanálisis como un evangelio, debe saber que el metanálisis de experimentos en línea tiene limitaciones. Entraremos en esto más tarde.

  1. Metanálisis de 115 pruebas A/B en GoodUI.org por Georgi Georgiev

En junio de 2018, el experto en experimentación en línea y autor de "Métodos estadísticos en pruebas A/B en línea", Georgi Georgiev, analizó 115 pruebas A/B disponibles públicamente en GoodUI.org.

GoodUI.org publica una colección de resultados de experimentación, incluidos patrones de interfaz de usuario recientemente descubiertos y lo que las empresas impulsadas por la experimentación como Amazon, Netflix y Google están aprendiendo de sus pruebas.

El objetivo de Georgi era recopilar y analizar estos datos para revelar los resultados promedio de las pruebas y aportar ideas sobre mejores prácticas estadísticas al diseñar y realizar un metanálisis de pruebas A/B.

Empezó por podar el conjunto de datos inicial y hacer algunos ajustes estadísticos. Estos incluyeron la eliminación de:

  • Pruebas con desequilibrios entre el número de usuarios enviados para experimentar el control vs los enviados para experimentar el retador, y
  • Pruebas comprometidas (detectadas por su potencia estadística irrealmente baja).

Analizó las 85 pruebas restantes y encontró que el porcentaje de elevación promedio fue de 3,77 % y la mediana de elevación fue de 3,92 %. Si observa la distribución a continuación, verá que el 58 % de las pruebas (esa es la mayoría) tuvo un efecto observado (% de elevación) entre -3 % y +10 %.

Metaanálisis de 115 pruebas A/B en GoodUI.org por Georgi Georgiev Efecto porcentual observado
Fuente

Es importante tener en cuenta que esto representa este conjunto de datos y no todas las pruebas A/B que se han realizado. Además, tenemos que tener en cuenta el sesgo de publicación (uno de los inconvenientes del metanálisis que discutiremos más adelante).

Sin embargo, este metanálisis es útil para los optimizadores de la tasa de conversión y otras partes interesadas en la optimización para tener una idea de cuáles son los puntos de referencia externos en las pruebas A/B.

¿Está interesado en realizar su propio metanálisis de pruebas A/B?

Obtienes acceso al mismo conjunto de datos que usó Georgi. Está disponible públicamente en GoodUI.org, un repositorio de resultados destilados de pruebas A/B realizadas en plataformas, industrias y para diferentes problemas centrales.

Hay otras colecciones de resultados de pruebas A/B como esta (incluso puede crear la suya extrayendo datos de numerosos ejemplos de pruebas A/B y estudios de casos), pero GoodUI es único. Obtiene información estadística adicional sobre la prueba que de otro modo es imposible o difícil de obtener si está navegando y recopilando estudios de casos.

Metaanálisis de la prueba A/B en GoodUI.org
Fuente

Algunas cosas más hacen que GoodUI sea único:

  • No discrimina sobre la base de los resultados del experimento. Incluye pruebas ganadoras, no concluyentes, planas y negativas para combatir el sesgo de publicación en el metanálisis, que es un problema real, como se indica en "Metaanálisis, gráficos de embudo y análisis de sensibilidad" de John Copas y Jian Qing Shi.

    El sesgo de publicación es una preferencia por publicar estudios pequeños si sus resultados son "significativos" sobre estudios con resultados negativos o no concluyentes. No puede corregir esto sin hacer suposiciones no comprobables.
  • GoodUI va un paso más allá. A menudo, los resultados de los metanálisis se encuentran enterrados en trabajos de investigación. Casi nunca llegan a la aplicación práctica, especialmente para los equipos de experimentación que no son extremadamente maduros.

    Con los patrones GoodUI, es posible que los optimizadores curiosos profundicen en el cambio porcentual observado, los cálculos de significación estadística y los intervalos de confianza. También pueden usar la evaluación de GoodUI de qué tan fuerte es el resultado, con valores posibles de "Insignificante", "Posible", "Significativo" y "Fuerte", yendo en ambas direcciones para cada patrón de conversión. Se podría decir que “democratiza” los insights de meta-análisis de tests A/B.
  • Sin embargo, hay un problema aquí. Los experimentadores que podrían no ser conscientes de los problemas que afectan al metanálisis (heterogeneidad y sesgo de publicación), además del hecho de que los resultados del metanálisis dependen de la calidad del metanálisis en sí, pueden desviarse hacia el territorio de copiar ciegamente los patrones.

    Más bien, deberían realizar su propia investigación y ejecutar sus pruebas A/B. El hecho de no hacerlo últimamente (con razón) ha sido motivo de preocupación en el espacio de CRO.

Otro recurso de estudio de caso de prueba A/B en el que puede profundizar para obtener detalles similares en algunas pruebas como GoodUI es GuessTheTest.

Meta análisis de prueba A/B en GuessTheTest
Fuente

DESCARGO DE RESPONSABILIDAD : No estamos escribiendo este blog con la intención de analizar o elogiar los patrones de metanálisis y conversión. Simplemente vamos a presentar los pros y los contras, tal como lo comentan los expertos en el campo de CRO. La idea es presentar el metanálisis como una herramienta para que pueda usarlo a su propia discreción.

Metanálisis: sí o no

Una mente inteligente busca patrones. Así es como acorta el camino del problema a la solución la próxima vez que se le presente un problema similar.

Estos patrones te llevan a una respuesta en un tiempo récord. Por eso nos inclinamos a creer que podemos tomar lo que hemos aprendido de los experimentos, agregarlo y deducir un patrón.

Pero, ¿es aconsejable que lo hagan los equipos de experimentación?

¿Cuáles son los argumentos a favor y en contra del metanálisis en experimentos controlados en línea? ¿Puedes encontrar un término medio que obtenga lo mejor de ambos mundos?

Le preguntamos a dos de las voces más vocales en el ámbito de la experimentación con (respetuosamente) diversos puntos de vista sobre su opinión sobre el metanálisis.

Jonny Longden y Jakub Linowski son voces en las que puedes confiar.

Jakub Linowski
Jakub Linowski
jonny longen
jonny longen

Metanálisis: ¿caminar con precaución?

En la discusión anterior, Jonny señaló dos posibles problemas con el uso de datos de metanálisis en las pruebas en línea que exigen que los profesionales de CRO actúen con precaución.

  • Problema n.º 1: Usar un resultado sin probarlo
    “Si funcionó para esa empresa, también debería funcionar para nosotros”. Esto podría resultar ser un pensamiento erróneo porque hay matices en torno a las pruebas que no llegan al fragmento de los resultados que está revisando.

    Varias pruebas pueden demostrar una solución obvia, pero eso es solo una probabilidad de que funcione un poco mejor que otras soluciones y no una respuesta definitiva de que funcionará en su sitio web.
  • Problema n.º 2: no se pueden clasificar las pruebas tan fácilmente
    Como se mencionó en el n. ° 1, esos resultados no muestran la historia completa y matizada detrás de las pruebas. No ve por qué se realizaron las pruebas, de dónde provienen, qué problemas anteriores existían en el sitio web, etc.

    Solo ves que era una prueba en la llamada a la acción en la página del producto, por ejemplo. Pero las bases de datos de metanálisis los clasificarán en patrones específicos, aunque no encajen claramente en esos patrones.

¿Qué significa esto para usted, un usuario de la base de datos de metanálisis de pruebas A/B, o un investigador de CRO que crea su propia base de datos de metanálisis para extraer aprendizajes?

No significa que el metanálisis esté fuera de los límites, pero debe tener cuidado al usarlo. ¿Qué tipo de precaución debe tomar?

No comprometa el rigor de las pruebas y la búsqueda de la innovación

Recuerde que el metanálisis es una idea estadística de la comunidad médica donde los experimentos están muy controlados para garantizar la repetibilidad de los hallazgos.

El entorno y otros factores que rodean la observación se repiten en varios experimentos, pero eso no es lo mismo con los experimentos en línea. El metanálisis de los experimentos en línea reúne sus datos independientemente de estas diferencias.

Un sitio web es radical y completamente diferente de otro sitio web porque tiene una audiencia muy diferente y cosas muy diferentes. Incluso si parece relativamente similar, incluso si es el mismo producto, sigue siendo completa y absolutamente diferente en millones y millones de formas, por lo que simplemente no puede controlarlo.

jonny longen

Entre otras limitaciones, esto afecta la calidad de lo que podemos llamar metanálisis verdadero.

Por lo tanto, cuando no esté seguro del nivel de vigor estadístico que se utilizó en las pruebas y el metanálisis de las pruebas, solo puede usarlo con extrema precaución, como aconseja Shiva Manjunath.

Shiva Manjunath aconseja

El objetivo del metanálisis no debe ser copiar a los competidores. El salto de aprovechar el metanálisis a la copia directa traspasa los límites de la credibilidad. Hay matices en la intención detrás de "copiar", por lo que no es una situación en blanco y negro.

Los comentarios sobre la publicación de Deborah arriba fueron variados. Está bien copiar hasta cierto punto, pero exagerar es peligroso:

Comentario de Abdul Rahman Elshafei

Como está de acuerdo Jakub, debemos tener cuidado con la copia, especialmente cuando se trata de validar los patrones que hemos observado con los experimentos.

Como está de acuerdo Jakub, debemos tener cuidado con la copia, especialmente cuando se trata de validar los patrones que hemos observado con los experimentos.

Sin embargo, contra lo que debemos estar en guardia es la mercantilización de la experimentación . Es decir, usar los patrones y los conocimientos del metanálisis como mejores prácticas para reemplazar la investigación en la experimentación, en lugar de complementar lo que tienen que decir los datos específicos de la situación.

Por lo tanto, comience por comprender el problema que desea resolver e identifique el tipo de intervención que tiene más probabilidades de éxito. Ahí es donde el metanálisis de los datos de experimentación heredados respalda mejor una estrategia de optimización única.

Metanálisis: ¿engrasando el volante de la experimentación?

El volante de experimentación tiene una forma de reciclar el impulso. Cuando estás experimentando por primera vez, necesitas mucha inercia para poner las cosas en marcha.

La idea con el volante de experimentación es aprovechar ese impulso para realizar más pruebas y volver a dar vueltas, mejorando cada vez más, realizando más y más pruebas.

Volante de pruebas A/B de Microsoft
Fuente

Y ahí es donde el metanálisis puede ayudar. En el volante:

  1. Ejecutas pruebas para validar tus hipótesis (y tal vez rechazar algunas en el proceso).
  2. Medir el valor que agregaron a la toma de decisiones.
  3. Fomente un mayor interés y aceptación para las pruebas A/B.
  4. Invierta en infraestructura de pruebas A/B y en mejorar la calidad de sus datos.
  5. Reduzca el costo humano de las pruebas A/B para que el siguiente paso despegue con menos esfuerzo que la ronda anterior.

Pero como una organización basada en datos, no se detiene allí ya que reconoce el poder de las pruebas A/B. En cambio, desea aprovechar su inversión inicial en experimentación para validar o rechazar más hipótesis.

Si esa perspicacia o conocimiento inicial no está ahí para empezar, la inercia para poner el volante en movimiento será demasiado grande. Compartir este conocimiento (democratizar los datos de las pruebas A/B) inspira y permite a otros adoptar un enfoque de experimentación al reducir la barrera del conocimiento.

Esto nos lleva al punto #1 de cómo el metanálisis engrasa el volante de la experimentación:

  1. El metanálisis podría reducir el tiempo para formular hipótesis.
    Puede tomar lo que ha aprendido, conocimientos y todo, de pruebas anteriores para generar nuevas hipótesis fácilmente. Esto aumenta la cantidad de pruebas que ejecuta y es una excelente manera de acelerar el volante de pruebas A/B.

    Pasamos menos tiempo rehaciendo lo que ya tiene patrones establecidos y más tiempo forjando nuevos caminos basados ​​en lo que hemos aprendido en experimentos anteriores.
  1. El metanálisis puede conducir a mejores tasas de predicción con datos anteriores.
    Otra forma en que el aprendizaje basado en la experimentación pasada puede hacer que el volante de la experimentación gire más rápido es cuando se combina con los datos actuales para informar nuevas hipótesis.

    Esto mejora potencialmente la forma en que el impacto observado en una prueba A/B se extiende hacia el futuro.

    Implementar una prueba A/B no es garantía de ver el resultado que desea, ya que la tasa de descubrimiento falso (FDR) para las pruebas con una significancia del 95 % está entre el 18 % y el 25 %. Y solo el 70% de las pruebas examinadas que llevaron a esta conclusión tenían el poder adecuado.

    La tasa de descubrimiento falso es la fracción de resultados significativos de pruebas A/B que en realidad son efectos nulos. No debe confundirse con falso positivo o error tipo I.
  1. Finalmente, el metanálisis podría ser una forma de generar confianza en los resultados de las pruebas que son esencialmente no concluyentes.
    Los niveles de confianza lo ayudan a confiar en que los resultados de su prueba no se deben a la pura casualidad. Si no tiene suficiente, es posible que se incline a etiquetar esa prueba como "no concluyente", pero no se apresure.

    ¿Por qué? Estadísticamente, puede acumular valores p insignificantes para obtener un resultado significativo. Vea la publicación a continuación:

El metanálisis tiene dos beneficios principales: 1) mejora la precisión de las estimaciones del efecto y 2) aumenta la generalización de los hallazgos.

Fuente: Lo bueno, lo malo y lo feo: metanálisis de Madelon van Wely

Dado que un metanálisis ajusta y corrige tanto el tamaño del efecto como los niveles de significación, se podrían usar resultados estándar más altos de la misma manera que se usa cualquier otro experimento, incluidos:

1) para hacer cálculos de potencia/estimaciones de tamaño de muestra para sus propios experimentos (utilizando datos reales en lugar de conjeturas subjetivas)

2) para tomar la decisión de explotar-experimentar. En los casos en que alguien sienta que se necesita confianza adicional, puede decidir realizar experimentos adicionales por su cuenta. En los casos en que alguien encuentre la evidencia del metanálisis lo suficientemente sólida, simplemente podría tomar medidas antes sin realizar experimentos adicionales.

Jakub Linowski

Con todas las formas en que el metanálisis puede ayudar a que su programa de experimentación gane más impulso, es importante tener en cuenta que adolece de algunas limitaciones bien conocidas.

Si elige realizar (y utilizar) un metanálisis, tenga en cuenta lo siguiente

Sí, la combinación de los resultados de los experimentos a través de métodos metaanalíticos puede mejorar la precisión estadística, pero eso no elimina los problemas fundamentales con el conjunto de datos inicial, como...

Mala calidad de los experimentos incluidos en el análisis

Si los experimentos que se incluyen en el metanálisis no se configuraron correctamente y contienen errores estadísticos, sin importar qué tan preciso sea el metaanalista, obtendrá resultados no válidos.

Tal vez hubo una asignación desigual del tamaño de la muestra en las pruebas A/B, el poder o el tamaño de la muestra fue insuficiente, o hubo evidencia de mirar a escondidas; cualquiera que sea el caso, esos resultados son defectuosos.

Lo que puede hacer para eludir esta limitación es elegir cuidadosamente los resultados de su prueba. Elimine los resultados cuestionables de su conjunto de datos. También puede volver a calcular la significancia estadística y los intervalos de confianza para las pruebas que eligió incluir y usar los nuevos valores en su metanálisis.

Heterogeneidad

Se trata de combinar resultados de pruebas que, en primer lugar, no deberían ponerse en el mismo cubo. Por ejemplo, cuando la metodología utilizada para realizar las pruebas difiere (análisis estadístico bayesiano vs frecuentista, diferencias específicas de la plataforma de pruebas A/B, etc.).

Esta es una limitación común del metanálisis en el que el analista, a sabiendas o no, ignora las diferencias clave entre los estudios.

Puede mirar los datos cuantitativos sin procesar para combatir la heterogeneidad. Es mejor que combinar solo el resumen de los resultados de la prueba. Eso significa volver a calcular los resultados de cada prueba A/B, suponiendo que tenga acceso a los datos.

El sesgo de publicación

También conocido como el 'problema del cajón de archivos', este es el problema más infame con el metanálisis. Al realizar un metanálisis de datos disponibles públicamente, está limitado a agrupar los resultados que llegaron a la publicación.

¿Qué pasa con los que no lo lograron? Las publicaciones generalmente favorecen los resultados que son estadísticamente significativos y donde hay un efecto de tratamiento significativo. Cuando estos datos no están representados en el metanálisis, los resultados solo muestran lo que se publicó.

Puede detectar el sesgo de publicación con gráficos de embudo y las estadísticas correspondientes.

Entonces, ¿dónde vas para encontrar pruebas A/B que no llegaron a los estudios de casos o a las bases de datos de metanálisis de pruebas A/B? Las plataformas de pruebas A/B están en la mejor posición para proporcionar datos sobre las pruebas, independientemente de los resultados. Ahí es donde los ejemplos 1 y 2 de este artículo son afortunados.

Maestro CRO
Maestro CRO