La guía paso a paso sin tecnicismos para comprender (completamente) las métricas de las pruebas A/B

Publicado: 2022-08-02
La guía paso a paso sin jerga para comprender (completamente) las métricas de prueba A:B

El gran contenido no es creado por un individuo. Saluda a los expertos que han hecho posible esta guía. Más de 80 años de experiencia en experimentación y pruebas A/B, en unminuto de lectura.

Alex Birkett
Alex Birkett
ben labay
ben labay
Curtis Stanier
Curtis Stanier
Deborah O'Malley
Deborah O'Malley
erik bernhardson
erik bernhardson
justin cristianson
justin cristianson
max bradley
max bradley
Sumantha Shankaranarayana
Sumantha Shankaranarayana
Tim Mehta
Tim Mehta

Tratar de comprender las métricas de las pruebas A/B es como sumergirse en una madriguera de definiciones demasiado complicadas, jerga técnica e interminables "opiniones" de expertos.

No te culpamos si has dejado escapar más de un suspiro exasperado tratando de encontrar algo de valor en línea.

Búsqueda en Google de la frase "comprensión de las métricas de prueba A/B"

Incluso si está convencido de que desea realizar experimentos, puede parecer que los que saben son información de control.

Pero estamos decididos a cambiar eso. La experimentación es para todos y al final de esto, también lo creerás.

ocultar
  • Una dura verdad sobre cómo comenzar con la experimentación
    • Diferentes formas de ver las métricas de prueba A/B
    • El caso para cambiar a una estrategia de Insights First (con las métricas correctas)
    • Métricas de entrada, salida y resultados: deconstruyendo programas de experimentación con Ben Labay y Alex Birkett
      • Marco de Ben
      • El marco de referencia de Alex
    • Objetivos, impulsores y barandillas: métricas por alcance
      • Métricas de objetivo o estrella polar
      • Métricas del controlador
      • Métricas de guardarraíl
    • Una visión filosófica de las métricas: las 5 W
  • Elección de métricas que marcan la diferencia con un árbol de impulsores
    • Siga estos 3 pasos para poner en marcha su programa de experimentación
  • Modelos mentales: cómo los profesionales eligen sus métricas en experimentos del mundo real
    • Ben Labay y el mapeo de objetivos
    • Cómo ayudó Deborah O'Malley a aumentar el CTR
    • Por qué Justin Christianson agrega puntos de datos secundarios
  • CXO: ¿El pináculo del aprendizaje primero experimentación?

Una dura verdad sobre cómo comenzar con la experimentación

Vamos a sumergirnos en cómo se ven las métricas a través de diferentes lentes pero, primero, debemos aclararnos.

Probablemente haya escuchado esta afirmación antes: "No hay pérdidas en las pruebas A/B, solo aprendizaje".

Esto es parcialmente cierto.

Las pruebas no concluyentes (planas) e incluso las pérdidas pueden ayudarlo a tener una idea clara de lo que no funciona para su público objetivo. Pero si está desarrollando el programa de experimentación y aún no tiene la aceptación de C-suite, prepárese para navegar por aguas difíciles. Comprenda que los que manejan los hilos del dinero no estarán particularmente felices de tener discusiones esotéricas sobre "aprendizajes" sin una educación considerable.

Para obtener su aprobación, primero deberá mostrar ganancias rápidas y tangibles . Los resultados de las pruebas A/B que sus gerentes pueden informar a los líderes para que muestren cierta fe en el hecho de que el método de experimentación científico, en gran parte académico, puede impulsar algo tan práctico como un negocio.

¿Y la forma más fácil de hacerlo?

Vaya tras la fruta más baja: mejore la tasa de conversión en una experiencia de usuario que esté razonablemente cerca de influir en ofertas o compras. Digamos que un aumento directo de 1000 unidades en los pedidos realizados (como lo indica el resultado de su prueba) es fácil de convertir en dólares y ganancias.

Lleve ese informe a una reunión de la junta y tendrá la sala llena de entusiasmo, del tipo que surge al descubrir otro "canal de adquisición", también conocido como CRO.

Pero el trimestre vendrá y se irá sin que veas el pico prometido. Los ejecutivos que lo aclamaron como el futuro del negocio se sentirán muy decepcionados. Seguirán los recortes presupuestarios. Y alguien de alto rango (*tos* el incorregible HiPPO *tos*) dirá un poco de palabrería sobre cómo la experimentación nunca puede triunfar sobre los canales tradicionales como anuncios y eventos que han resistido la prueba del tiempo.

[HiPPO = Persona mejor pagada con una opinión]

¿Ves lo que acaba de pasar? Al activar su visión de túnel, relegó la experimentación a ser solo CRO, algo que se ve (casi) como un nuevo canal de adquisición para recuperar el dinero que queda sobre la mesa. ¿Y junto con eso? Todas las grandes afirmaciones, estafas y trampas que tienden a acompañarlo.

Marcador: Pruebas A/B: una guía completa que querrá marcar

Diferentes formas de ver las métricas de prueba A/B

La experimentación es una máquina. Pero la mayoría de la gente tiene una comprensión errónea de cómo funciona.

Piensan que la entrada son problemas comerciales y la salida son soluciones comerciales válidas estadísticamente significativas . Y este puede ser el panorama general ideal.

gráfico que muestra suposiciones de prueba ab donde los problemas comerciales son la entrada y las soluciones son la salida

Ampliada, la máquina de experimentación acepta el aprendizaje y el esfuerzo realizado en el proceso científico como entrada y produce métricas de programa como salida.

Pero aquí hay un gran SI: para que el resultado finalmente produzca los resultados esperados y deseados, la calidad del programa de experimentación es primordial.

TL; DR: cuanto mejor sea la entrada (datos recopilados, educación, certificaciones, alfabetización de datos y procesos), mejor será la salida (velocidad del experimento, tasa de ganancia, ganancia promedio por experimento) y mayores serán las posibilidades de lograr la meta. (s) con los que ha alineado su programa de experimentación.

Solo cuando se obsesione con la calidad de la experimentación tendrá una mayor probabilidad de ver un resultado que pueda mover la aguja en los grandes problemas de crecimiento y eficiencia que todas las empresas quieren resolver.

La forma de llegar allí es tener una estrategia de métricas que no ponga los resultados en un pedestal.

En cambio, ayuda al equipo a medir y rastrear la entrada y la salida (siendo la entrada el único factor que controla directamente al optimizador) y usarlos como un indicador de progreso. El viaje hacia el resultado no es un sprint, es un maratón que se corre en segundo plano como resultado de una buena experimentación.

No nos malinterpretes. Esto es más fácil dicho que hecho.

A menudo, los experimentos mostrarán que no se deben realizar ciertos cambios. ¡Las características particulares no deben enviarse! Y la experimentación en sí misma es deliberada... desviar el enfoque de una primera estrategia de envío a una primera estrategia de información y aprendizaje (respaldada por las métricas correctas).

La experimentación-vacilación es increíblemente común entre los ejecutivos. La mayoría de los fundadores llevan años construyendo la empresa sin experimentos, y puede parecer que la experimentación es una fuerza conservadora que se interpone en el camino de la velocidad de la empresa, el marketing de productos y la innovación.

Erik Bernhardsson, fundador de Modal Labs

El caso para cambiar a una estrategia de Insights First (con las métricas correctas)

Para lograr un progreso real, tenemos que cambiar de perseguir una estrategia de envío a una estrategia métrica. Esto descentraliza la estrategia del producto, es decir, empuja la ideación hasta el fondo, lo cual es ideal. Y adoptar una estrategia métrica implica intrínsecamente experimentar. No puede dejar de probar cómo los cambios de nuevos productos afectan a su negocio.

Buena lectura: la guía completa para las pruebas multivariantes en 2022

El “por qué” de su programa de experimentación está codificado en su estrategia de métricas.

  • ¿Todo su esfuerzo se centra en ganancias rápidas e ingresos?
  • ¿Es la experimentación la forma de entender a tus clientes y ofrecerles valor a lo largo de su ciclo de vida?
  • ¿O es la experimentación el objetivo en sí mismo, donde cuanto mejor pruebe, más información confiable generará y su responsabilidad es mantener esta rueda en movimiento, sin afectar negativamente las experiencias existentes?

Más sobre esto más adelante con Ben Labay de Speero.

Sobre una base de experimento a experimento, las métricas consolidan su enfoque (real). Puede tener un manifiesto de 10 páginas que hable sobre la incorporación de la experimentación en el ADN de su negocio para acelerar la innovación, pero si su objetivo principal siempre está orientado a la conversión, entonces su programa de prueba es esencialmente un programa CRO. Esto puede ser lo que desea lograr, pero tenga en cuenta las limitaciones que se manifestarán en el futuro, incluido el hecho de pensar en las pruebas A/B como secuaces de adquisición/ingresos; francamente, no lo son.

Diferentes clases de métricas hacen posible rastrear indicadores que son importantes para el C-suite, mientras optimizan el programa para pruebas de mayor calidad, conocimientos causales y pasan por diferentes iteraciones para mejorar el funcionamiento interno de la máquina para que los resultados puedan comenzar a generar resultados. a la larga.

Este video con Tim Mehta es un vistazo sincero de por qué una narrativa de experimentación que gira únicamente en torno al aprendizaje no es una postura práctica.

Creo que es realmente genial obtener todos esos aprendizajes en el lado del compromiso, pero para que el propietario de su negocio pueda saber cómo continuar creando recursos para el programa y obtener un presupuesto para él, esencialmente sabe que necesita asegurarse de que está capaz de mostrar al menos que, desde una perspectiva comercial, el valor en dólares que experimenta el programa le está brindando.

Así que creo que para una gran cantidad de experimentación es más en torno al método científico general de todo lo que estás tratando de hacer es aprender que hay esto es que sabes que no es tanto ganar/perder como es una hipótesis probada eh sabes probado o rechazado um mientras que con lo que estamos haciendo bien, la mayoría de nosotros estamos del lado del marketing y, naturalmente, necesitamos poder comunicar algún tipo de ganancia o valor de ingresos para poder continuar.

Tim Mehta, director de marketing de crecimiento en Lucid Software

En un nivel más práctico, las métricas sostienen el aprendizaje. ¿Ejecutando pruebas planas consecutivas? Esto podría ser un problema con la forma en que recopila datos (problema centrado en el instrumento) o con la forma en que diseña los experimentos. Las métricas te ayudan a encontrar la aguja en el pajar y hacerlo mejor.

TL&DR; Las métricas ayudan a los probadores a capturar varias facetas de la experimentación y distribuir su impacto a las partes interesadas en un idioma que entienden, valoran y aprecian. La estrategia de métricas va mucho más allá de los "objetivos" y la apuesta en el terreno frente a la cual se evalúan las variaciones ganadoras y las pérdidas.

A través de métricas, los programas de experimentación viven, maduran, evolucionan y tienen éxito (o fracasan).

Métricas de entrada, salida y resultados: deconstruyendo programas de experimentación con Ben Labay y Alex Birkett

Hay muchas definiciones en torno a las métricas primarias, secundarias y de protección. Pero cualquiera que haya llevado a cabo un programa de experimentación sabe que tiene que haber un marco para definir los diferentes niveles de objetivos.

Así que le hicimos esta pregunta a Ben Labay, director general de Speero, y a Alex Birkett, cofundador de Omniscient:

¿Cuál es su marco de referencia de métricas para asignar variables medidas al impacto de la experimentación de varias capas?

Marco de Ben

1. Categorías de métricas del programa

Ben Labay Speero Programa de Experimentación Medida Evolución

Este 'por etapas' debe tomarse a la ligera. Desea monitorear todo esto todo el tiempo, pero el ENFOQUE es un poco diferente dependiendo de la etapa del programa.

2. Comience con una taxonomía métrica de alto nivel, esta es la mía:

Tabla de taxonomía métrica métricas de objetivos métricas de conductores métricas de barandas por Ben Labay Speero

Entonces, para cada uno,

3. Ejemplos de métricas de objetivos:

Tabla de métricas de goles Ben Labay Speero por CXL

Después

4. Ejemplos de métricas de controladores

Gráfico de métricas del conductor Ben Labay Speero por CXL

Después

5. Métricas de guardarraíl del programa

Cuadro de métricas de guardarraíl Ben Labay Speero por CXL

Asi que…. ENTONCES tienes los ingredientes para una estrategia métrica:

Gráfico de estrategia de métricas Ben Labay Speero por CXL

Nota: la experimentación en etapa inicial debe centrarse en las métricas de entrada, pero debe lidiar con la presión de producir resultados que no se materializarán si no tiene la educación, las personas y los procesos adecuados.

Es un ciclo contraproducente. Además, las métricas de resultados no deben celebrarse desde el principio, especialmente si está proyectando "ingresos".

La mejor manera de entender esto es ver cómo Airbnb cambió a una estrategia métrica:

“Los invitados primero tenían que pedir permiso para que los anfitriones se quedaran en su Airbnb, y los anfitriones podían decidir si les gustaba la solicitud de reserva. Esto creó mucha fricción, fue una experiencia terrible para los invitados y abrió la puerta para que se introdujera un sesgo inapropiado en el proceso.

Una estrategia de envío de productos habría dictado un montón de características para enviar. Pero Airbnb creó un equipo fuerte con una estrategia métrica: hacer que Airbnb alcance el 100 % de reservas instantáneas.

El resultado fue una estrategia cargada de experimentos que cambió el mercado de forma acumulativa. Los cambios en el producto abarcaron la clasificación de búsqueda, la incorporación de anfitriones y la funcionalidad principal del anfitrión (por ejemplo, controles de invitados, reglas de la casa, configuración de tiempo de entrega, etc.) que permitieron a los anfitriones tener éxito en un mundo donde los invitados reservan su casa al instante.

erik bernhardson

El marco de referencia de Alex

Mi marco de referencia para mapear métricas de experimentación es simple: métricas de entrada y salida .

Las partes interesadas se preocupan por las métricas de salida. Estos se utilizan en los cálculos de ROI y demuestran el valor del programa, como la tasa de conversión del sitio web, la tasa de conversión del embudo, los clientes potenciales de alta calidad, etc.

Personalmente, creo que estos están sobrevalorados a nivel programático y subestimados a nivel de experimento. Con eso, quiero decir que si está rastreando la tasa de conversión de sus páginas web trimestre a trimestre, la experimentación no será lo único que suceda durante ese período de tiempo. Recaudación de fondos, tendencias macroeconómicas, cambio de canales de adquisición: todos estos pueden ser factores de confusión masivos. Puede evitar algunos de estos al tener conjuntos de retención o volver a probar la versión de referencia de su experiencia digital.

Están subestimados por experimento porque las personas tienden a no pensar en su KPI principal del experimento, sino que optan por incluir una variedad de objetivos y elegir el que se ajuste a su narrativa. Es muy difícil llegar a un objetivo compuesto, un criterio de evaluación general, para definir su experimento. Las métricas de entrada son una mejor manera para mí de obtener un indicador de nuestro programa. Los tres principales que miro son
a) velocidad del experimento
b) tasa de ganancias del experimento y
c) ganancia promedio por experimento.

Si muevo la aguja en cualquiera de estos, es probable que mueva la aguja en mis métricas de salida

Objetivos, impulsores y barandillas: métricas por alcance

Tabla de taxonomía métrica Speero por CXL

Ben Labay usa la analogía de un automóvil para explicar estas métricas:

El quid de esto es que tienes métricas a largo plazo como métricas de objetivos y este es tu GPS o sistema de navegación, es decir, las métricas de la estrella polar (NSM).

Esto contrasta con las métricas del conductor, que son las métricas a corto plazo, también conocidas como su velocímetro. Por ejemplo, la optimización de la tasa de conversión para el valor promedio de pedido (AOV).

Ponga esto en mayor contraste con sus métricas de alerta y alineación, como su tacómetro o su indicador de calor; estas son sus métricas de barandilla.

PD Mira este video de Ben para entender mejor estas categorías:

Métricas de objetivo o estrella polar

Una métrica de North Star o una métrica rezagada o de amplio alcance según la definición de Ben es más estratégica que táctica por naturaleza.

Por ejemplo, las pruebas A/B de Netflix no están diseñadas para mejorar el compromiso, están diseñadas para aumentar la retención. Si están reteniendo clientes, significa que los suscriptores interactúan y encuentran valor en el producto. Entonces, la retención encapsula varias métricas tácticas como el porcentaje de usuarios que pagan o ven más de 3 piezas de contenido.

Leer a continuación: La guía definitiva para usar objetivos en pruebas A/B (y cómo convertir objetivos de ases)

Métricas del controlador

Estos indicadores principales son en lo que te enfocas a corto plazo, es decir, tu tasa de rebote y tu tasa de conversión. A veces, tener una sola métrica no es suficiente para evaluar un resultado. Ahí es donde entra en juego el Criterio de Evaluación General o OEC .

También conocido como respuesta o variable dependiente, variable de resultado o métrica de rendimiento, OEC es esencialmente una combinación de KPI ponderados de manera diferente como un único KPI primario.

Una sola métrica obliga a realizar compensaciones una vez para múltiples experimentos y alinea a la organización detrás de un objetivo claro. Un buen OEC no debe centrarse en el corto plazo (p. ej., clics); por el contrario, debe incluir factores que predigan objetivos a largo plazo, como el valor de por vida previsto y las visitas repetidas.

Ronny Kohavi

Métricas de guardarraíl

Según Ronny Kohavi,

Las métricas de guardarraíl son métricas críticas que están diseñadas para alertar a los experimentadores sobre una suposición violada. Las métricas de guardarraíl brindan lo que Spitzer (2007) llama la "capacidad para instigar una acción informada". Cuando un efecto de tratamiento mueve inesperadamente una métrica de barrera, es posible que desee reducir la confianza en los resultados o detener un experimento en los casos en que se pueda dañar a los usuarios o la organización.

Hay dos tipos de métricas de guardarraíl: métricas de guardarraíl relacionadas con la confianza y métricas de guardarraíl organizacional. Comenzamos con lo que creemos que es la métrica de protección más importante que todo experimento debe tener: el índice de muestra, luego seguimos con otras métricas de protección y métricas de protección organizativas.

Relación de muestra = En un experimento controlado, la relación de muestra es igual a la relación de asignación del tamaño de muestra entre los diferentes grupos de prueba: control y variantes

Una visión filosófica de las métricas: las 5 W

Sumantha Shankaranarayana, fundadora de EndlessROI, ve las métricas de manera diferente.

El valor de las métricas radica en su capacidad para predecir el comportamiento del usuario. Al interpretar las métricas, el objetivo no es preguntar "¿cuántas?" sino más bien preguntar “¿Por qué así?”. Las métricas son un rastro que deja la mente del usuario.

Filosóficamente, las métricas se pueden dividir en cuatro categorías esenciales:

Grupo 1 – Monto (el Dónde y el Cuándo)

  • Páginas vistas (únicas y no únicas)
  • Visitantes del sitio web (nuevos y recurrentes)
  • Visitas
  • Los ingresos totales
  • Valor del tiempo de vida
  • Ingresos acumulativos del carrito para una cohorte de experimentos

Grupo 2 – Naturaleza (el por qué)

  • Seguimiento de eventos
  • Navegador/ Plataforma
  • tiempo en la pagina
  • Detalles de la transacción
  • Errores de carga de página
  • Resolución de la pantalla
  • página de salida

Grupo 3 – Fuente (el Quién)

  • Referentes
  • Términos de búsqueda
  • País/ idiomas
  • Organizaciones
  • Principales páginas de destino
  • Páginas anteriores

Grupo 4 – Resultados (el Qué)

  • registros
  • Número de páginas vistas
  • Pedidos
  • Clics
  • Ensayos
  • Próximas páginas
  • Retención de usuarios

Mientras comparamos los datos y comenzamos a ver cómo funciona la hipótesis, debemos considerar todas las amenazas de validez, como

  • efectos históricos (eventos en los medios, iniciativas de marketing de la competencia, iniciativas de marketing interno, cambios estacionales, cambios económicos),
  • efecto de instrumentación (montaje de prueba, utilizando un control doble),
  • efecto de selección (diferente confianza e intervalos de confianza para control y variantes), y
  • efecto de distorsión de muestreo (alta varianza, sin certeza estadística).

    Según las categorías anteriores, una de las métricas podría ser una métrica principal, por ejemplo, pedidos (tasa de conversión).

Sus estimaciones deben basarse en:

  1. Tasa de éxito : tendencias recientes de la tasa de conversión
  2. Muestras recibidas : nivel de tráfico reciente y número planificado de tratamientos
  3. La cantidad de diferencia en la magnitud de la métrica principal entre el Control y la Variante y cómo eso afecta los objetivos comerciales.

No obstante, la recopilación de datos de sus métricas secundarias ayudará en la interpretación del resultado de una prueba.

La interpretación puede basarse en:

  1. El ROI de la prueba
  2. Las ideas clave que se recopilan suelen responder a preguntas como

    • ¿Qué dice esta prueba sobre mis clientes?
    • ¿Qué motiva a mis clientes?
    • ¿Cómo responden a elementos específicos?
    • ¿Qué valoran mis clientes?
    • ¿Qué les causa más ansiedad?
    • ¿Por qué se caen en un punto determinado?
    • ¿Dónde están en la conversación?
  3. Pruebas posteriores: ¿Dónde más puede ser útil este aprendizaje?

En una nota importante, probar elementos al principio del proceso de conversión permite más tráfico, y probar elementos más adelante en el proceso de conversión tiene un mayor impacto potencial en los ingresos. Por lo tanto, en función de las etapas del embudo, nuestras métricas también deben reflejar el objetivo que uno se propone lograr.

Lea a continuación: 7 pasos clave para aprender y mejorar a partir de los resultados de su prueba A/B

Otra versión de las métricas proviene de Avinash Kaushik, evangelista de marketing digital en Google.

En una edición reciente de su boletín informativo, The Marketing <> Analytics Intersect, recomienda ignorar las métricas de vanidad como los me gusta y los seguidores y los dioses falsos como las visitas a la página y el "compromiso".

En su lugar, céntrese en los microresultados, como las suscripciones a boletines informativos y las tasas de finalización de tareas, los macroresultados digitales, como los ingresos y los ingresos por conversión, y las métricas de impacto final, como las ganancias y el valor de por vida.

Otra versión de las métricas proviene de Simon Girardin de Conversion Advocates:

A medida que trabaje con métricas, comenzará a ver cómo se relacionan entre sí. La mayoría de las métricas de impulsores son métricas de resultados. Las medidas de seguridad a menudo se asocian con métricas de salida. Es posible que desee ejecutar a sus controladores a través de las 5 W a medida que avanza en los aspectos prácticos de la elección de métricas para sus pruebas. Comprender los conceptos básicos le permite ser creativo con sus interpretaciones.

Elección de métricas que marcan la diferencia con un árbol de impulsores

La elaboración de una estrategia de métricas sólida se reduce a comprender qué es un árbol de impulsores.

Un árbol de impulsores es un mapa de cómo encajan las diferentes métricas y palancas en una organización. En el extremo izquierdo, tiene una métrica general que desea impulsar. Este es el objetivo final por el que desea que trabajen todos los equipos.

Un árbol de impulsores es un mapa de cómo encajan las diferentes métricas y palancas en una organización
Fuente

A medida que avanza hacia la derecha, se vuelve más granular en términos de cómo desea lograr ese objetivo. Cada rama le brinda un indicador de las partes componentes que conforman el "qué" sobre ellas.

Curtis Stanier, director de producto de Delivery Hero

El árbol de impulsores, cuando se combina con las métricas, puede ayudar a identificar posibles áreas de oportunidad y guiarlo hacia la solución.

Curtis explica esto con un ejemplo. Por ejemplo, si su objetivo es aumentar la cantidad de registros de correo electrónico. Digamos que solo la mitad de los clientes hacen clic con éxito en el enlace de confirmación del correo electrónico que les enviaste. Hay dos escenarios posibles aquí: los clientes no reciben el correo electrónico o no hacen clic en él. Estos impulsores pueden tener diferentes factores que influyen.

Cuando mapea el flujo del proceso en el árbol de controladores, puede llegar a la causa raíz. Tal vez el proveedor de correo electrónico que utiliza tenga una tasa de error del 10 %, lo que significa que el correo electrónico nunca se envió. Este problema específico se convierte en una oportunidad para que su equipo lo solucione.

Ejemplo de árbol de controladores métricos de Curtis Stanier Delivery Hero
Fuente

Aquí hay un ejemplo específico cortesía de Bhavik Patel, jefe de análisis de productos en Hopin, para ilustrar cómo puede asignar un objetivo como la velocidad de la prueba, es decir, la cantidad de pruebas ejecutadas para las métricas del conductor y la barandilla.

Árbol de controladores métricos por Bhavik Patel Hopin
Fuente

Siga estos 3 pasos para poner en marcha su programa de experimentación

1. Elige el objetivo de tu programa de experimentación

Involucre a HiPPO, también conocido como su C-suite, para que no persiga una métrica de estrella polar en la que el liderazgo no esté interesado. De lo contrario, su programa de experimentación nunca verá la luz del día. Involucre a las personas que entienden que los grandes problemas necesitan soluciones innovadoras, sin ir a lo seguro.

Como regla general, Ben Labay dice que el objetivo rezagado a largo plazo de su programa de experimentación puede ser una de tres cosas: ingresos, clientes o proceso de experimentación .

Métricas de objetivos Ingresos, Cliente o Proceso de experimentación por Ben Labay Speero

Por ejemplo, Booking.com tiene la calidad del experimento como su métrica de estrella polar. Este es el por qué:

Lo que realmente nos importa no es cuántas decisiones de producto se toman, ni qué tan rápido se toman las decisiones, sino qué tan buenas son esas decisiones.

Si bien el uso de la experimentación como parte del desarrollo de productos y la toma de decisiones es una práctica común hoy en día, por sí solo no garantiza que se tomen buenas decisiones. Ejecutar experimentos correctamente puede ser difícil, y los datos obtenidos de un experimento son tan confiables como la ejecución del experimento mismo. Ejecutar malos experimentos es solo una forma muy costosa y complicada de tomar decisiones poco confiables.

Christophe Perrin, Gerente de Producto del Grupo en Booking.com

Lea a continuación: La guía definitiva para usar objetivos en pruebas A/B (y cómo convertir objetivos de ases)

2. Establecer un registro de métricas de guardarraíl aceptables

Tim Mehta recomienda tener la velocidad de la prueba como una métrica de protección con una advertencia, es decir, solo si la integridad de su prueba es buena o cumple con el estándar. Si no está ejecutando pruebas de calidad, cualquier métrica que elija terminará siendo una métrica vanidosa.

Al igual que Tim, Ben Labay también sugiere tener la velocidad de prueba junto con estas otras métricas como un conjunto funcional de métricas de protección:

Experimentation Guardrail Metrics por Ben Labay Speero
Fuente

3. Elija sus métricas de controlador caso por caso

No todas las métricas son buenas métricas. Después de ejecutar miles de pruebas A/B, Microsoft identificó seis propiedades clave de una buena métrica A/B:

  1. Sensibilidad
  2. Integridad
  3. Eficiencia
  4. Depuración
  5. Interpretabilidad y accionabilidad
  6. Inclusividad y Equidad

Puede usar STEDII para refinar qué métricas rastrear y medir los cambios.

Lista de verificación STEDII de Microsoft para crear buenas métricas
Fuente

Max Bradley, gerente sénior de optimización web en Zendesk, cree que debe ser flexible con respecto a las métricas de los controladores para que pueda pensar dentro o fuera de la caja:

Nos dimos cuenta de que el campo de creación de subdominio (que se muestra a continuación) era, con mucho, el campo de formulario más desafiante en nuestro flujo de registro de prueba para los visitantes. La tasa de abandono en este campo fue considerablemente más alta que en cualquier otro campo.

campo de creación de subdominio

De manera crucial, teníamos un seguimiento que nos permitía observar el rendimiento del formulario en detalle en primer lugar. Si está comenzando, es poco probable que este nivel de seguimiento sea alcanzable a corto plazo, pero le recomendaría "meterse en la maleza" con su seguimiento a medida que pasa el tiempo.

Cuando se identificó el problema, tomamos una variedad de pasos para determinar el enfoque que deseábamos probar. Observamos lo que hicieron otras empresas cuando se trataba de un subdominio, sugeriría mirar más allá de sus competidores aquí. Creíamos que el usuario no necesitaba preocuparse por crear un subdominio, introduce otra área para que el usuario se detenga y piense, aumentando su carga cognitiva. Podemos crear su subdominio a partir del nombre de su empresa que ya han proporcionado y ocultar el campo de subdominio a los usuarios.

Naturalmente, esperábamos que este cambio aumentara la cantidad de usuarios que se registran con éxito para una prueba, pudimos estimar el aumento esperado debido al seguimiento mencionado.

Sin embargo, lo que no sabíamos en este momento era el impacto general que esto tendría en el negocio. Esperábamos ver un aumento en las conversiones de prueba, pero ¿se traduciría esto en todo el embudo hacia Win?

Además, al ocultar el campo de subdominio y generar automáticamente el subdominio para el usuario, queríamos asegurarnos de no pasar este problema a otra área del negocio. Esto implicó tener la defensa del cliente y la atención al cliente involucradas desde el principio.

Las áreas principales que creíamos que serían importantes para determinar el impacto de este experimento fueron las siguientes:

  • Tasa de registro de prueba para los visitantes del formulario
  • Clientes potenciales, MQL, oportunidades y victorias
  • Cambios realizados por los usuarios en el nombre del subdominio en el registro de la publicación del producto
  • Número de tickets recibidos por la defensa del cliente para cambios de nombre de subdominio".

Según el objetivo que elija y la forma en que se acerque constantemente a sus impulsores, su persona de experimentación y la trayectoria del programa pueden ir de diferentes maneras. Echa un vistazo a este gráfico de Ben Labay:

Estrategia métrica de Ben Labay Speero

Modelos mentales: cómo los profesionales eligen sus métricas en experimentos del mundo real

Pedimos a los expertos que nos guiaran a través de un ejemplo en el que vieron el problema, diseñaron la hipótesis y luego eligieron las métricas para medir el éxito y consolidar el aprendizaje.

Esto es lo que dijeron:

Ben Labay y el mapeo de objetivos

Tenga claro hacia dónde se dirige el negocio y por qué.

¿Cuál es la estrategia de crecimiento del negocio? ¿Están creciendo un 20% el próximo año adquiriendo más usuarios? ¿Se centrarán en nuevos productos o en la monetización de la base de usuarios existente? Con esta información, sabrá hacia dónde orientar el programa de optimización, debe saber en qué parte del embudo o en qué canales principales debe enfocarse.

Para muchas empresas de comercio electrónico en 2021, fue la adquisición y conversión de nuevos usuarios. A fines de 2022, está centrado en AOV, que se centra en la rentabilidad y la eficiencia de adquisición.

  • Con SaaS en los últimos años ha habido un patrón de centrarse en el crecimiento impulsado por el producto, por lo que se centra en las pruebas y la incorporación, especialmente para los segmentos de mercado más bajos.

Obtenga una comprensión clara del comportamiento del cliente (bajadas, patrones de navegación, etc.) y percepciones (motivaciones frente a FUD, miedos, incertidumbres y dudas).

Contamos con un gran modelo de datos en esto, ResearchXL, que no solo recopila datos sobre comportamientos y percepciones, sino que los lleva a través de la información en conocimientos que construyen una hoja de ruta priorizada.

Modelo de datos Research XL del comportamiento del cliente

Combine los pasos 2 y 3, y conecte los temas de problemas/oportunidades que cree a partir de la investigación de clientes con los objetivos comerciales en el mapa del árbol de objetivos.

Modelo de datos de oportunidad de problema de ResearchXL

Aquí hay un primer plano de ese mapa de árbol de objetivos donde puede ver los experimentos asociados con una métrica de progresión de la página de pago, que fue un punto focal para este cliente de comercio electrónico:

Ejemplo de mapa de árbol de objetivos de ResearchXL para cliente de comercio electrónico

Leer a continuación: ¿Cómo trabajar con herramientas de prueba A/B para el éxito de la optimización? Los 6 factores principales explicados

Cuando estaba en Workato, queríamos aprender tanto como fuera posible sobre cómo crear un recorrido interactivo por el producto. Dado que no teníamos una versión freemium, muchos prospectos querían ver cómo funcionaba realmente el producto.

Lo que esperábamos aprender determinó el KPI para cada experimento aquí.

En un experimento, solo queríamos ver si, a diferencia de otros botones de CTA del sitio web central como "solicitar demostración", las personas estaban interesadas en el concepto de un recorrido por el producto. Esta fue una especie de prueba de "puerta pintada", aunque en realidad ya habíamos construido un recorrido mínimo viable del producto. En este experimento, solo rastreamos la proporción de clics en el recorrido del producto y usamos un experimento de no inferioridad en los clientes potenciales (simplemente no queríamos que cayesen).

Luego, al optimizar el recorrido en sí, usamos el macro KPI principal de la tasa de conversión del sitio web (clientes potenciales) y segmentamos a aquellos que hicieron clic en el recorrido del producto para ver si también había una correlación alta y una mejora macro en nuestro KPI central. .”

Cómo ayudó Deborah O'Malley a aumentar el CTR

Las métricas a menudo son impulsadas por el cliente. Por lo general, están vinculados a los ingresos. A veces, sin embargo, los clientes solo quieren aumentar el compromiso.

En este ejemplo, un cliente del sector de la educación deseaba aumentar las tasas de clics (CTR) de una página que explicaba un programa educativo a una página en la que los futuros estudiantes pudieran obtener más información sobre el programa y postularse.

Según un análisis basado en datos, la hipótesis fue que había tanta información en competencia en la página que los usuarios no tenían claro cómo proceder o dónde hacer clic para obtener más información.

Al aplicar el marco de 5 pasos descrito anteriormente, se decidió que una ventana emergente o una notificación deslizante con el formato y el tiempo óptimos funcionaría mejor para informar a los visitantes dónde hacer clic para obtener más información.

Por lo tanto, se llevó a cabo una serie de experimentos para determinar el formato y el momento óptimos de una ventana emergente de notificación. Se midieron las tasas de clics.

Como muestran los resultados de este estudio de caso (prueba 1, prueba 2), la optimización de la ubicación y el momento de la ventana emergente tuvo un impacto enormemente positivo en las conversiones de CTR.

Sin embargo, aunque los resultados fueron positivos, en última instancia, las solicitudes enviadas fueron la métrica que realmente movió la aguja para la escuela. Por lo tanto, es necesario realizar pruebas adicionales para determinar la forma óptima de aumentar el envío de solicitudes.

El aprendizaje clave de este ejemplo es que los clientes a menudo tienen una idea de lo que quieren mejorar. Como experimentador, su trabajo es cumplir con sus expectativas, pero empujar más allá. Los CTR aumentados son buenos. Pero apunte a aumentar las conversiones más profundamente en el embudo. Empuje lo más abajo que pueda en las métricas de generación de dinero del embudo final, como aplicaciones completadas o finalizaciones de pago. Mida las terminaciones y cuantifique su éxito.

Por qué Justin Christianson agrega puntos de datos secundarios

Basamos nuestras metas en torno a objetivos. No se puede pensar sólo en las ventas y los ingresos. En general, nuestra métrica principal será tanto las conversiones de ventas como el RPV, pero eso no siempre muestra el panorama general de cómo interactúan los visitantes.

Para eso, nos gusta establecer puntos de datos secundarios, como agregar al carrito, clics en elementos, visitas en ciertas páginas, como el carrito o el pago. Los objetivos secundarios cambian ligeramente según la página o el tipo de prueba. A veces, las ventas y los ingresos no son lo que está tratando de obtener en términos de resultados.

Usamos nuestra experimentación para ayudar a comprender realmente qué es lo que les importa a los visitantes, qué elementos tienen peso en el UX general y luego construimos la estrategia basada en esos resultados. Nuestra hipótesis generalmente siempre hace la pregunta, por qué o qué en la situación. Podría ser algo tan simple como mover una sección en una página de inicio, entonces nuestros objetivos serían clics en esa sección, ventas, ingresos, visitas en páginas de productos. Entonces, cómo interpretar los datos sería que si los visitantes mostraron un mayor compromiso al mover la sección, entonces esa sección tiene peso, por lo tanto, los visitantes prefieren esa ruta general. Un ejemplo de esto sería presentar un desglose de colecciones frente a mostrar bloques de productos reales en una página para una tienda de comercio electrónico.

Lea a continuación: necesita un repositorio de aprendizaje de pruebas A/B para ejecutar experimentos basados ​​en la experiencia (dicen los expertos)

CXO: ¿El pináculo del aprendizaje primero experimentación?

La tasa de conversión no es una métrica de vanidad. Sin embargo, se ha convertido en un término limitado.

Annika Thompson, directora de servicios al cliente de Speero

El problema, explica Annika, no es que la CRO no sea importante, sino que viene con un montón de equipaje. No es más que una instantánea en el tiempo y sin contexto, puede ser irrelevante y francamente peligroso.

Por otro lado, CXO o la optimización de la experiencia del cliente se enfoca en extraer información de calidad sobre las preferencias y comportamientos de los clientes, alimentando todo, desde experimentos que rompen bloques de conversión hasta una estrategia comercial sólida. Es solo más valor por su inversión en pruebas.

Maestro CRO
Maestro CRO