O guia passo a passo sem jargão para entender (completamente) as métricas de teste A/B

Publicados: 2022-08-02

Um ótimo conteúdo não é criado por um indivíduo. Diga “olá” aos especialistas que tornaram este guia possível. Mais de 80 anos de experimentação e experiência em testes A/B – em umminuto de leitura.

Alex Birkett

Ben Labay

Curtis Stanier

Deborah O' Malley

Erik Bernhardsson

Justin Christianson

Max Bradley

Sumantha Shankaranarayana

Tim Mehta

Tentar entender as métricas de teste A/B é como entrar em uma toca de coelho de definições supercomplicadas, jargão técnico e “opiniões” de especialistas sem fim.

Não o culpamos se você soltou mais de um suspiro exasperado tentando encontrar algo de valor online.

Pesquisa no Google da frase "compreendendo as métricas de teste A/B"

Mesmo se você estiver convencido de que deseja realizar experimentos, pode parecer que aqueles que sabem são informações de controle.

Mas estamos determinados a mudar isso. A experimentação é para todos e, ao final disso, você também acreditará nisso.

ocultar

Uma dura verdade sobre como começar com a experimentação
- Diferentes maneiras de visualizar as métricas de teste A/B
- O argumento para mudar para uma estratégia de insights primeiro (com as métricas certas)
- Métricas de entrada, saída e resultado: desconstruindo programas de experimentação com Ben Labay e Alex Birkett
  - Estrutura de Ben
  - Estrutura de referência de Alex
- Objetivos, direcionadores e proteções: métricas por escopo
  - Meta ou Métricas da Estrela do Norte
  - Métricas do motorista
  - Métricas de proteção
- Uma visão filosófica das métricas: os 5 Ws
Escolhendo métricas que fazem a diferença com uma árvore de drivers
- Siga estes 3 passos para iniciar seu programa de experimentação
Modelos mentais: como os profissionais escolhem suas métricas em experimentos do mundo real
- Ben Labay e o mapeamento de metas
- Como Deborah O' Malley ajudou a aumentar a CTR
- Por que Justin Christianson adiciona pontos de dados secundários
CXO: O Pináculo da Aprendizagem Primeira Experimentação?

Uma dura verdade sobre como começar com a experimentação

Vamos mergulhar em como as métricas são vistas através de lentes diferentes, mas, primeiro, precisamos ser claros.

Você provavelmente já ouviu esta afirmação antes: “Não há perdas em testes A/B – apenas aprendizado”.

Isso é parcialmente verdade.

Testes inconclusivos (planos) e até perdas podem ajudá-lo a ter uma ideia clara do que não funciona para o seu público-alvo. Mas se você está construindo o programa de experimentação e ainda não tem o C-suite buy-in, esteja preparado para navegar em águas complicadas. Entenda que aqueles que estão segurando as cordas da bolsa não ficarão particularmente felizes em ter discussões esotéricas sobre “aprendizados” sem educação considerável.

Para obter a aprovação deles, primeiro você precisará mostrar vitórias rápidas e tangíveis . Resultados do teste A/B que seus gerentes podem relatar à liderança para que demonstrem alguma fé no fato de que o método científico amplamente acadêmico de experimentação pode realmente impulsionar algo tão prático quanto um negócio.

E a maneira mais fácil de fazer isso?

Vá atrás do fruto mais baixo: melhore a taxa de conversão em uma experiência do usuário que esteja razoavelmente próxima de influenciar negócios ou compras. Digamos que um aumento direto de 1.000 unidades nos pedidos feitos (conforme indicado pelo resultado do seu teste) é fácil de converter em dólares e lucros.

Traga esse relatório para uma reunião do conselho e você terá a sala cheia de entusiasmo – o tipo que vem da descoberta de outro “canal de aquisição” também conhecido como CRO.

Mas o trimestre vai e vem sem que você veja o pico prometido. Executivos que o aclamaram como o futuro do negócio ficarão muito desapontados. Os cortes orçamentários se seguirão. E alguém lá em cima (*tosse* o incorrigível hipopótamo *tosse*) vai despejar alguma conversa fiada sobre como a experimentação nunca pode superar canais tradicionais como anúncios e eventos que resistiram ao teste do tempo.

[HiPPO = Pessoa mais bem paga com opinião]

Veja o que acabou de acontecer? Ao ativar sua visão de túnel, você relegou a experimentação a ser apenas CRO – algo que é visto (quase) como um novo canal de aquisição para recuperar dinheiro deixado na mesa. E junto com isso? Todas as grandes reivindicações, golpes e armadilhas que tendem a acompanhá-lo.

Marcador: Teste A/B: um guia completo que você vai querer marcar

Diferentes maneiras de visualizar as métricas de teste A/B

A experimentação é uma máquina. Mas a maioria das pessoas tem uma compreensão falha de como isso funciona.

Eles pensam que a entrada são problemas de negócios e a saída são soluções de negócios válidas estatisticamente significativas . E esta pode ser a imagem maior ideal.

gráfico mostrando suposições de teste ab onde os problemas de negócios são a entrada e as soluções são a saída

Ampliada, a máquina de experimentação aceita o aprendizado e o esforço feito no processo científico como entrada e produz métricas do programa como saída.

Mas há um grande SE aqui: para que a produção eventualmente produza os resultados esperados e desejados, a qualidade do programa de experimentação é primordial.

TL;DR: Quanto melhor a entrada (dados coletados, educação, certificações, alfabetização de dados e processos), melhor a saída (velocidade do experimento, taxa de vitórias, vitória média por experimento.) e maiores as chances de atingir a meta (s) você alinhou seu programa de experimentação.

Somente quando você ficar obcecado com a qualidade da experimentação, você terá uma chance maior de ver um resultado que pode mover a agulha em grandes problemas de crescimento e eficiência que todas as empresas desejam resolver.

A maneira de chegar lá é ter uma estratégia de métricas que não coloque os resultados em um pedestal.

Em vez disso, ajuda a equipe a medir e rastrear a entrada e a saída (a entrada é o único fator que está diretamente no controle do otimizador) e usá-las como um indicador de progresso. A jornada para o resultado não é um sprint, é uma maratona que é executada em segundo plano como subproduto de uma boa experimentação.

Não nos entenda mal. Isto é mais fácil dizer do que fazer.

Muitas vezes os experimentos mostram que certas mudanças não devem ser feitas. Características particulares não devem ser enviadas! E a experimentação por si só é deliberada... tirando o foco de uma estratégia de envio em primeiro lugar para uma estratégia de insights e aprendizado em primeiro lugar (suportada pelas métricas corretas).

A hesitação em experimentar é incrivelmente comum entre os executivos. A maioria dos fundadores tem anos de construção da empresa sem experimentos, e pode parecer que a experimentação é uma força conservadora que atrapalha a velocidade da empresa, o marketing de produtos e a inovação.

Erik Bernhardsson, fundador do Modal Labs

O argumento para mudar para uma estratégia de insights primeiro (com as métricas certas)

Para fazer progresso real, temos que mudar de perseguir uma estratégia de envio para uma estratégia métrica. Isso descentraliza a estratégia do produto, ou seja, empurra a ideação para baixo, o que é ideal. E adotar uma estratégia métrica significa intrinsecamente experimentação. Você não pode deixar de testar como as mudanças de novos produtos afetam seus negócios.

Boa leitura: o guia completo para testes multivariados em 2022

O “porquê” do seu programa de experimentação está codificado em sua estratégia de métricas.

Todo o seu esforço está focado em ganhos rápidos e receita?
A experimentação é a maneira de entender seus clientes e oferecer valor a eles ao longo de seu ciclo de vida?
Ou a experimentação é o objetivo em si, onde quanto melhor você testa, mais insights confiáveis você gera e sua responsabilidade é manter essa roda em movimento, sem impactar negativamente as experiências existentes?

Mais sobre isso mais tarde com Ben Labay de Speero.

Em uma base de experimento para experimento, as métricas consolidam seu foco (real). Você pode ter um manifesto de 10 páginas falando sobre incorporar a experimentação no DNA do seu negócio para acelerar a inovação, mas se seu objetivo principal é sempre a conversão, então seu programa de testes é essencialmente um programa de CRO. Isso pode ser o que você deseja alcançar, mas esteja ciente das restrições que se manifestarão no futuro, incluindo pensar em testes A/B como lacaios de aquisição/receita – francamente, eles não são.

Diferentes classes de métricas permitem rastrear indicadores importantes para o C-suite, enquanto otimiza o programa para testes de maior qualidade, insights causais e passa por diferentes iterações para melhorar o funcionamento interno da máquina para que as saídas possam começar a gerar resultados a longo prazo.

Este vídeo com Tim Mehta é uma visão sincera de por que uma narrativa de experimentação que gira apenas em torno do aprendizado não é uma postura prática a ser adotada.

Acho muito legal obter todos esses aprendizados do lado do engajamento, mas para o proprietário da sua empresa poder continuar a criar recursos para o programa e obter orçamento para ele, essencialmente, você sabe que precisa ter certeza de que está capaz de, pelo menos, mostrar que, do ponto de vista do negócio, o valor em dólares dessa experiência que o programa está trazendo para você.
Então eu acho que para muita experimentação é mais em torno do método científico geral de tudo o que você está tentando fazer é aprender isso é que você sabe que não é tanto ganho/perda quanto é hipótese comprovada uh você sabe provado ou rejeitado hum Considerando que com o que estamos fazendo bem, a maioria de nós está no lado do marketing e, portanto, naturalmente, precisamos ser capazes de comunicar algum tipo de ganho ou valor de receita para poder continuar.
Tim Mehta, Diretor de Marketing de Crescimento da Lucid Software

Em um nível mais prático, as métricas mantêm o aprendizado. Executando testes simples de costas? Isso pode ser um problema com a maneira como você coleta dados (problema focado em instrumentos) ou com a maneira como você projeta experimentos. As métricas ajudam você a encontrar a agulha no palheiro e fazer melhor.

TL&DR; As métricas ajudam os testadores a capturar várias facetas da experimentação e distribuir seu impacto para as partes interessadas em uma linguagem que eles entendem, valorizam e apreciam. A estratégia de métricas vai muito além dos “objetivos” e da aposta no terreno contra o qual as variações de ganhos e perdas são avaliadas.

Por meio de métricas, os programas de experimentação vivem, amadurecem, evoluem e são bem-sucedidos (ou fracassam).

Métricas de entrada, saída e resultado: desconstruindo programas de experimentação com Ben Labay e Alex Birkett

Existem muitas definições em torno de métricas primárias, secundárias e de proteção. Mas qualquer um que tenha executado um programa de experimentação sabe que deve haver uma estrutura para definir os diferentes níveis de objetivos.

Então, perguntamos a Ben Labay, diretor administrativo da Speero, e Alex Birkett, cofundador da Omniscient:

Qual é a sua estrutura de métricas para mapear variáveis medidas para o impacto da experimentação em várias camadas?

Estrutura de Ben

1. Categorias de métricas do programa

Evolução da Medição do Programa de Experimentação de Ben Labay Speero

Este 'por estágio' deve ser encarado com leviandade. Você deseja monitorar tudo isso o tempo todo, mas o FOCO é um pouco diferente dependendo do estágio do programa.

2. Comece com uma taxonomia métrica de nível superior, aqui está a minha:

Métricas do gráfico de taxonomia métricas de metas métricas de driver métricas de proteção por Ben Labay Speero

Então, para cada um,

3. Exemplos de métricas de metas:

Gráfico de métricas de gols Ben Labay Speero por CXL

Então

4. Exemplos de métricas de driver

Gráfico de métricas do driver Ben Labay Speero por CXL

Então

5. Métricas de proteção do programa

Gráfico de métricas do Guardrail Ben Labay Speero da CXL

Então…. ENTÃO você tem os ingredientes para uma estratégia métrica:

Gráfico de estratégia de métricas Ben Labay Speero por CXL

Observação: a experimentação em estágio inicial deve se concentrar nas métricas de entrada, mas você precisa lidar com a pressão de produzir resultados que não se materializarão se você não tiver a educação, as pessoas e os processos certos.

É um ciclo autodestrutivo. Além disso, as métricas de resultados não devem ser comemoradas logo de cara, especialmente se você estiver projetando “receita”.

A melhor maneira de entender isso é observar como o Airbnb mudou para uma estratégia métrica:

“Os hóspedes precisavam primeiro pedir permissão para os anfitriões ficarem em seu Airbnb, e os anfitriões decidiriam se gostam do pedido de reserva. Isso criou uma tonelada de atrito, foi uma experiência terrível para os convidados e abriu a porta para que vieses impróprios entrassem no processo.

Uma estratégia de envio de produtos teria ditado um monte de recursos para enviar. Mas o Airbnb montou uma equipe forte com uma estratégia métrica: fazer o Airbnb chegar a 100% de reservas instantâneas.

O resultado foi uma estratégia de experimentos que mudou cumulativamente o mercado. As mudanças no produto abrangeram a classificação de pesquisa, a integração do host e a funcionalidade principal do host (por exemplo, controles de hóspedes, regras da casa, configurações de tempo de espera, etc.) que permitiram que os anfitriões tivessem sucesso em um mundo onde os hóspedes reservam sua casa instantaneamente.
Erik Bernhardsson

Estrutura de referência de Alex

Minha estrutura para mapear métricas de experimentação é simples: métricas de entrada e saída .
As partes interessadas se preocupam com as métricas de saída. Eles são usados em cálculos de ROI e comprovam o valor do programa – coisas como taxa de conversão do site, taxa de conversão do funil, leads de alta qualidade etc.
Pessoalmente, acho que eles são superestimados em um nível programático e subestimados em um nível por experiência. Com isso, quero dizer que, se você estiver acompanhando a taxa de conversão de suas páginas da web trimestre a trimestre, a experimentação não será a única coisa que aconteceu durante esse período. Captação de recursos, tendências macroeconômicas, mudança de canais de aquisição – tudo isso pode ser um grande fator de confusão. Você pode contornar alguns deles fazendo conjuntos de retenção ou testando novamente a versão básica de sua experiência digital.
Eles são subestimados por experiência porque as pessoas tendem a não pensar no KPI principal do experimento, optando por incluir uma variedade de objetivos e escolher a dedo aquele que se encaixa em sua narrativa. É muito difícil criar uma meta composta, um critério de avaliação geral, para definir seu experimento. As métricas de entrada são uma maneira melhor de avaliar nosso programa. Os três principais que eu olho são
a) velocidade do experimento
b) taxa de vitória do experimento e
c) vitória média por experiência.

Se eu mover a agulha em qualquer um desses, é provável que mova a agulha nas minhas métricas de saída

Objetivos, direcionadores e proteções: métricas por escopo

Gráfico de taxonomia métrica Speero por CXL

Ben Labay usa a analogia de um carro para explicar essas métricas:

O cerne disso é que você tem métricas de longo prazo, como métricas de meta e este é o seu GPS ou sistema de navegação, ou seja, as métricas da estrela do norte (NSM).

Isso contrasta com as métricas do motorista, que são as métricas de curto prazo, também conhecidas como velocímetro. Por exemplo, otimização da taxa de conversão para o valor médio do pedido (AOV).

Coloque isso em mais contraste com suas métricas de alerta e alinhamento, como seu tacômetro ou seu medidor de calor; estas são suas métricas de guard rail.

PS Assista a este vídeo de Ben para entender melhor essas categorias:

Meta ou Métricas da Estrela do Norte

Uma métrica North Star ou uma métrica atrasada ou de escopo amplo, conforme definido por Ben, é mais estratégica do que tática por natureza.

Por exemplo, os testes A/B da Netflix não são criados para melhorar o engajamento – eles são projetados para aumentar a retenção. Se eles estão retendo clientes, isso significa que os assinantes se envolvem e encontram valor no produto. Portanto, a retenção encapsula várias métricas táticas, como a porcentagem de usuários que pagam ou assistem a mais de 3 conteúdos.

Leia a seguir: O guia definitivo para usar metas em testes A/B (e como converter metas de ases)

Métricas do motorista

Esses indicadores principais são o que você foca no curto prazo, ou seja, sua taxa de rejeição e taxa de conversão. Às vezes, ter uma única métrica não é suficiente para avaliar um resultado. É aí que entra em jogo o Critério de Avaliação Geral ou OEC .

Também conhecido como resposta ou variável dependente, variável de resultado ou métrica de desempenho, o OEC é essencialmente uma combinação de KPIs com pesos diferentes como um único KPI primário.

Uma única métrica força as trocas a serem feitas uma vez para vários experimentos e alinha a organização por trás de um objetivo claro. Um bom OEC não deve ser focado no curto prazo (por exemplo, cliques); pelo contrário, deve incluir fatores que prevejam metas de longo prazo, como valor previsto da vida útil e visitas repetidas.
Ronny Kohavi

Métricas de proteção

Segundo Ronny Kohavi,

As métricas de proteção são métricas críticas projetadas para alertar os experimentadores sobre uma suposição violada. As métricas de proteção fornecem o que Spitzer (2007) chama de “capacidade de instigar uma ação informada”. Quando um efeito de tratamento move inesperadamente uma métrica de proteção, convém reduzir a confiança nos resultados ou interromper um experimento nos casos em que o dano possa ser causado aos usuários ou à organização.

Existem dois tipos de métricas de proteção: métricas de proteção relacionadas à confiança e métricas de proteção organizacional. Começamos com o que acreditamos ser a métrica de proteção mais importante que todo experimento deve ter: a taxa de amostragem, depois acompanhamos outras métricas de proteção e métricas de proteção organizacional.

Proporção da amostra = Em um experimento controlado, a proporção da amostra é igual à proporção de alocação do tamanho da amostra entre os diferentes grupos de teste: controle e variantes

Uma visão filosófica das métricas: os 5 Ws

Sumantha Shankaranarayana, fundadora da EndlessROI, vê as métricas de forma diferente.

O valor das métricas está em sua capacidade de prever o comportamento do usuário. Na interpretação de métricas, o objetivo não é perguntar: “Quantos?” mas sim perguntar “Por que assim?”. As métricas são um rastro deixado pela mente do usuário.

Filosoficamente, as métricas podem ser divididas em quatro categorias essenciais:

Grupo 1 – Valor (Onde e Quando)

Visualizações de página (únicas e não exclusivas)
Visitantes do site (novos e recorrentes)
Visitas
Rendimento total
Valor vitalício
Receita cumulativa do carrinho para uma coorte de experimentos

Grupo 2 – Natureza (o Porquê)

Acompanhamento de eventos
Navegador/Plataforma
Tempo na página
Detalhes da transação
Erros de carregamento de página
Resolução da tela
Sair da página

Grupo 3 - Fonte (o Quem)

Referenciadores
Termos de pesquisa
País/idiomas
Organizações
Principais páginas de destino
Páginas anteriores

Grupo 4 - Resultados (o quê)

Inscrições
Número de visualizações de página
Pedidos
Cliques
Ensaios
Próximas páginas
Retenção de usuários

Enquanto comparamos os dados e começamos a ver como a hipótese se comporta, devemos considerar todas as ameaças de validade, como

efeitos históricos (eventos de mídia, iniciativas de marketing da concorrência, iniciativas de marketing interno, mudanças sazonais, mudanças econômicas),
efeito de instrumentação (configuração de teste, usando um controle duplo),
efeito de seleção (diferentes intervalos de confiança e confiança para controle e variantes), e
efeito de distorção de amostragem (alta variância, sem certeza estatística).

Com base nas categorias acima, uma das métricas pode ser uma métrica primária, digamos, pedidos (taxa de conversão).

Suas estimativas devem ser baseadas em:

Taxa de sucesso – tendências recentes da taxa de conversão
Amostras recebidas – nível de tráfego recente e número planejado de tratamentos
A quantidade de diferença na magnitude da métrica primária entre o Controle e a Variante e como isso afeta os objetivos de negócios.

No entanto, a coleta de dados de suas métricas secundárias ajudará na interpretação de um resultado de teste.

A interpretação pode ser baseada em:

O ROI do teste
As principais informações coletadas geralmente respondem a perguntas como
- O que esse teste diz sobre meus clientes?
- O que motiva meus clientes?
- Como eles respondem a elementos específicos?
- O que meus clientes valorizam?
- O que lhes causa mais ansiedade?
- Por que eles estão caindo em um determinado ponto?
- Onde eles estão na conversa?
Testes subsequentes: Onde mais esse aprendizado pode ser útil?

Em uma observação importante, testar elementos no início do processo de conversão permite mais tráfego, e testar elementos mais adiante no processo de conversão tem um impacto potencial maior na receita. Portanto, com base nas etapas do funil, nossas métricas também devem refletir a meta que se pretende atingir.

Leia a seguir: 7 etapas-chave para aprender e melhorar com os resultados do seu teste A/B

Outra opinião sobre métricas vem de Avinash Kaushik, Evangelista de Marketing Digital do Google.

Em uma edição recente de seu boletim informativo, The Marketing <> Analytics Intersect, ele recomenda ignorar métricas de vaidade como curtidas e seguidores e deuses falsos como visualizações de página e “engajamento”.

Em vez disso, concentre-se em micro-resultados, como inscrições em boletins informativos e taxas de conclusão de tarefas, macro-resultados digitais, como receita e receita de conversão, e métricas de impacto de resultados, como lucro e valor da vida útil.

Outra opinião sobre métricas vem de Simon Girardin, da Conversion Advocates:

Ao trabalhar com métricas, você começará a ver como elas se relacionam. A maioria das métricas de driver são métricas de resultado. As proteções são frequentemente associadas a métricas de saída. Você pode querer executar seus drivers pelos 5Ws à medida que se aprofunda na escolha de métricas para seus testes. Compreender o básico permite que você seja criativo com suas interpretações.

Escolhendo métricas que fazem a diferença com uma árvore de drivers

A elaboração de uma estratégia de métricas sólida se resume a entender o que é uma Árvore de Drivers.

Uma Árvore de Condutores é um mapa de como as diferentes métricas e alavancas de uma organização se encaixam. Na extrema esquerda, você tem uma métrica abrangente que deseja direcionar. Este é o objetivo final para o qual você deseja que todas as equipes trabalhem.
Fonte
À medida que você se move para a direita, você se torna mais granular em termos de como deseja atingir esse objetivo. Cada ramo fornece um indicador das partes componentes que compõem o “o quê” acima deles.
Curtis Stanier, Diretor de Produto da Delivery Hero

A Driver Tree, quando combinada com métricas, pode ajudar a identificar áreas de oportunidades potenciais e orientá-lo para a solução.

Curtis explica isso com um exemplo. Por exemplo, se seu objetivo é aumentar o número de inscrições de e-mail. Digamos que apenas metade dos clientes clique com sucesso no link de confirmação de e-mail que você enviou. Há dois cenários possíveis aqui: os clientes não recebem o e-mail ou não estão clicando nele. Esses drivers podem ter diferentes fatores de influência.

Ao mapear o fluxo do processo na Árvore de Drivers, você pode chegar à causa raiz. Talvez o provedor de e-mail que você usa tenha uma taxa de erro de 10%, o que significa que o e-mail nunca foi enviado. Esse problema específico se torna uma oportunidade para sua equipe corrigir.

Exemplo de árvore de driver métrica por Curtis Stanier Delivery Hero — Fonte

Aqui está um exemplo específico, cortesia de Bhavik Patel, chefe de análise de produtos da Hopin, para ilustrar como você pode mapear uma meta como velocidade de teste, ou seja, número de testes executados para as métricas de driver e guardrail.

Árvore de driver métrica por Bhavik Patel Hopin — Fonte

Siga estes 3 passos para iniciar seu programa de experimentação

1. Escolha o objetivo do seu programa de experimentação

Envolva o HiPPO, também conhecido como seu C-suite, para não perseguir uma métrica de estrela do norte na qual a liderança está desinteressada. Caso contrário, seu programa de experimentação nunca verá a luz do dia. Faça um loop em pessoas que entendem que grandes problemas precisam de soluções inovadoras, não jogando pelo seguro.

Como regra geral, Ben Labay diz que o objetivo de longo prazo do seu programa de experimentação pode ser uma das três coisas – Receita, Cliente ou Processo de Experimentação .

Métricas de meta Receita, cliente ou processo de experimentação por Ben Labay Speero

Por exemplo, Booking.com tem a qualidade do experimento como sua métrica de estrela do norte. Aqui está o porquê:

O que realmente importa para nós não é quantas decisões de produtos são tomadas, nem a rapidez com que as decisões são tomadas, mas quão boas são essas decisões.

Embora usar a experimentação como parte do desenvolvimento de produtos e tomada de decisão seja uma prática comum hoje em dia, ela não garante, por si só, que boas decisões sejam tomadas. Executar experimentos corretamente pode ser difícil, e os dados obtidos de um experimento são tão confiáveis quanto a execução do próprio experimento. Executar experimentos ruins é apenas uma maneira muito cara e complicada de tomar decisões não confiáveis.
Christophe Perrin, Gerente de Produto do Grupo Booking.com

Leia a seguir: O guia definitivo para usar metas em testes A/B (e como converter metas de ases)

2. Estabeleça um registro de Métricas de Guardrail aceitáveis

Tim Mehta recomenda ter a velocidade do teste como uma métrica de proteção com uma ressalva, ou seja, somente se a integridade do seu teste for boa ou atender ao padrão. Se você não estiver executando testes de qualidade, qualquer métrica escolhida acaba sendo uma métrica de vaidade.

Como Tim, Ben Labay também sugere ter a velocidade de teste junto com essas outras métricas como um conjunto de métricas de proteção:

Métricas de proteção de experimentação por Ben Labay Speero — Fonte

3. Escolha suas métricas de motorista caso a caso

Nem todas as métricas são boas métricas. Depois de executar milhares de testes A/B, a Microsoft identificou seis propriedades principais de uma boa métrica A/B:

Sensibilidade
Confiabilidade
Eficiência
Depuração
Interpretabilidade e Ação
Inclusão e justiça

Você pode usar o STEDII para refinar quais métricas rastrear e medir as alterações.

Lista de verificação STEDII da Microsoft para criar boas métricas — Fonte

Max Bradley, Gerente Sênior de Otimização da Web da Zendesk, acredita que você deve ser flexível em relação às métricas do driver para poder pensar dentro ou fora da caixa:

Percebemos que o campo de criação de subdomínio (mostrado abaixo) era, de longe, o campo de formulário mais desafiador em nosso fluxo de inscrição de teste para visitantes. A taxa de desistência neste campo foi consideravelmente maior do que em qualquer outro campo.
Crucialmente, tínhamos um rastreamento que nos permitiu analisar o desempenho do formulário em detalhes em primeiro lugar. Se você está começando, é improvável que esse nível de rastreamento seja atingível no curto prazo, mas eu encorajo “entrar nas ervas daninhas” com seu rastreamento com o passar do tempo.
Quando o problema foi identificado, realizamos várias etapas para determinar a abordagem que queríamos testar. Analisamos o que outras empresas fizeram quando um subdomínio estava envolvido, sugiro olhar além de seus concorrentes aqui. Acreditamos que o usuário não precisa se preocupar em criar um subdomínio, ele introduz mais uma área para o usuário pausar e pensar, aumentando sua carga cognitiva. Podemos criar seu subdomínio a partir do nome da empresa que eles já forneceram e ocultar o campo de subdomínio dos usuários.
Naturalmente, esperávamos que essa mudança aumentasse o número de usuários inscritos com sucesso para um teste, conseguimos estimar o aumento esperado devido ao rastreamento mencionado.
No entanto, o que não sabíamos neste momento era o impacto geral que isso teria nos negócios. Esperávamos ver um aumento nas conversões de teste, mas isso se traduziria em todo o funil para ganhar?
Além disso, ocultando o campo de subdomínio e gerando automaticamente o subdomínio para o usuário, queríamos garantir que não passaríamos esse problema para outra área da empresa. Isso envolveu a defesa do cliente e o suporte ao cliente envolvidos desde o início.
As principais áreas que acreditamos que seriam importantes para determinar o impacto deste experimento foram as seguintes:
Taxa de registro de avaliação para visitantes do formulário
Leads, MQLs, Oportunidades e Vitórias
Alterações feitas pelos usuários no nome do subdomínio na inscrição do produto
Número de tíquetes recebidos pela defesa do cliente para alterações de nome de subdomínio.”

Com base no objetivo que você escolher e em como você aborda consistentemente seus motoristas, sua personalidade de experimentação e trajetória do programa podem seguir alguns caminhos diferentes. Dê uma olhada neste gráfico de Ben Labay:

Modelos mentais: como os profissionais escolhem suas métricas em experimentos do mundo real

Pedimos a especialistas que nos guiassem por um exemplo em que viram o problema, projetaram a hipótese e depois escolheram as métricas para medir o sucesso e consolidar o aprendizado.

Aqui está o que eles disseram:

Ben Labay e o mapeamento de metas

Seja claro para onde o negócio está indo e por quê.

Qual é a estratégia de crescimento do negócio? Eles estão crescendo 20% no próximo ano adquirindo mais usuários? Eles vão se concentrar em novos produtos ou monetização da base de usuários existente? Com essas informações você sabe para onde orientar o programa de otimização, deve saber onde no funil ou em quais canais primários focar.

Para muitas empresas de comércio eletrônico em 2021, foi a aquisição e conversão de novos usuários. No final de 2022, é centrado no AOV, que se concentra na lucratividade e nas eficiências de aquisição.
Com o SaaS, nos últimos anos, houve um padrão de foco no crescimento liderado pelo produto, portanto, foco em testes e integração, especialmente para segmentos de mercado em baixa.
Obtenha uma compreensão clara do comportamento do cliente (desistências, padrões de navegação, etc.) e percepções (motivações vs FUDs, medos, incertezas e dúvidas).

Temos um ótimo modelo de dados sobre isso, o ResearchXL, que não apenas coleta dados sobre comportamentos e percepções, mas os conduz por meio de informações em insights que criam um roteiro priorizado.
Combine as etapas 2 e 3 e conecte os temas de problemas/oportunidades que você cria da pesquisa do cliente às metas de negócios no mapa da árvore de metas.
Aqui está um close do mapa da árvore de metas, onde você pode ver os experimentos associados a uma métrica de progressão da página de checkout, que era um ponto focal para este cliente de comércio eletrônico:

Leia a seguir: Como trabalhar com ferramentas de teste A/B para o sucesso da otimização? Os 6 principais fatores explicados

Quando eu estava na Workato, queríamos aprender o máximo possível sobre como construir um tour interativo do produto. Dado que não tínhamos uma versão freemium, muitos clientes em potencial queriam dar uma olhada e sentir como o produto realmente funcionava.
O que esperávamos aprender determinou o KPI para cada experimento aqui.
Em um experimento, só queríamos ver se, em contraste com outros botões de CTA do site principal, como “solicitar demonstração”, as pessoas estavam interessadas no conceito de um tour do produto. Este foi um tipo de teste de “porta pintada”, embora na verdade já tivéssemos construído um tour mínimo de produto viável. Neste experimento, apenas rastreamos a proporção de cliques para o tour do produto e usamos um experimento de não inferioridade nos leads (só não queríamos que eles caíssem).
Então, ao otimizar o tour em si, usamos o macro KPI principal da taxa de conversão do site (leads) e segmentamos aqueles que clicaram no tour do produto para ver se havia também uma alta correlação, bem como uma macro melhoria em nosso KPI principal .”

Como Deborah O' Malley ajudou a aumentar a CTR

As métricas geralmente são orientadas para o cliente. Normalmente, eles estão vinculados à receita. Às vezes, no entanto, os clientes querem apenas aumentar o engajamento.
Neste exemplo, um cliente do setor educacional queria aumentar as taxas de cliques (CTRs) de uma página explicando sobre um programa educacional para uma página onde os alunos em potencial pudessem aprender mais sobre o programa e se inscrever nele.
Com base em uma análise orientada por dados, a hipótese era de que havia tantas informações concorrentes na página que os usuários não sabiam como proceder ou onde clicar para saber mais.
Ao aplicar a estrutura de 5 etapas descrita acima, decidiu-se que um pop-up ou notificação deslizante com formato e tempo otimizados funcionaria melhor para informar aos visitantes onde clicar para saber mais.
Uma série de experimentos foi, portanto, realizada para determinar o formato e o tempo ideais de um pop-up de notificação. As taxas de cliques foram medidas.
Como mostram os resultados do estudo de caso (teste 1, teste 2), otimizar o posicionamento e o tempo do pop-up teve um impacto extremamente positivo nas conversões de CTR.
No entanto, embora os resultados tenham se mostrado positivos, em última análise, as inscrições enviadas foram a métrica que realmente moveu a agulha para a escola. Testes adicionais, portanto, precisam ser feitos para determinar a maneira ideal de aumentar os envios de aplicativos.
O principal aprendizado desse exemplo é que os clientes geralmente têm uma ideia do que desejam melhorar. Como experimentador, seu trabalho é atender às expectativas deles, mas ir além. CTRs aumentados são bons. Mas procure aumentar as conversões mais profundamente no funil. Empurre o máximo que puder para as métricas de geração de dinheiro do funil final, como aplicativos concluídos ou conclusões de checkout. Meça as conclusões e quantifique seu sucesso.

Por que Justin Christianson adiciona pontos de dados secundários

Baseamos nossas metas em objetivos. Você não pode pensar apenas em vendas e receita. Geralmente, nossa métrica principal será tanto as conversões de vendas quanto o RPV, mas isso nem sempre mostra como os visitantes estão interagindo.
Para isso, gostamos de definir pontos de dados secundários, como adicionar ao carrinho, cliques em elementos, visitas em determinadas páginas, como carrinho ou checkout. Os objetivos secundários mudam um pouco dependendo da página ou do tipo de teste. Às vezes, as vendas e a receita não são o que você está tentando atingir em termos de resultado.
Usamos nossa experimentação para realmente ajudar a entender com o que os visitantes se importam, quais elementos têm peso no UX geral e, em seguida, construímos a estratégia com base nesses resultados. Nossa hipótese geralmente está sempre fazendo a pergunta, por que ou o que na situação. Pode ser algo tão simples quanto mover uma seção em uma página inicial, então nossos objetivos seriam cliques nessa seção, vendas, receita, visitas nas páginas do produto. Então, como interpretar os dados seria que, se os visitantes mostrassem maior engajamento ao mover a seção, essa seção teria peso, portanto, os visitantes prefeririam esse caminho geral. Um exemplo disso seria apresentar um detalhamento de coleções versus mostrar blocos de produtos reais em uma página de uma loja de comércio eletrônico.

Leia a seguir: Você precisa de um repositório de aprendizado de teste A/B para executar experimentos informados pela experiência (dizem os especialistas)

CXO: O Pináculo da Aprendizagem Primeira Experimentação?

A taxa de conversão não é uma métrica de vaidade. Tornou-se um termo estreito embora.
Annika Thompson, Diretora de Atendimento ao Cliente da Speero

O problema, explica Annika, não é que o CRO não seja importante, mas que vem com uma tonelada de bagagem. É apenas um instantâneo no tempo e sem contexto, pode ser irrelevante e absolutamente perigoso.

Por outro lado, o CXO ou otimização da experiência do cliente concentra-se na mineração de insights de qualidade sobre as preferências e comportamentos do cliente – alimentando tudo, desde experimentos de quebra de blocos de conversão até estratégia de negócios robusta. É apenas mais estrondo para seus dólares de teste.