Quantos testes A/B você deve executar por mês?

Publicados: 2023-01-19
Quantos testes A:B você deve executar por mês?

É uma questão importante a ser considerada para o sucesso do seu programa de testes.

Execute muitos testes e você pode desperdiçar recursos sem obter muito valor de qualquer experimento individual.

Mas faça poucos testes e você pode perder oportunidades importantes de otimização que poderiam gerar mais conversões.

Então, diante desse enigma, qual é a cadência de teste ideal?

Para ajudar a responder a essa pergunta, vale a pena olhar para algumas das equipes de experimentação mais bem-sucedidas e progressivas do mundo.

Amazon é um desses nomes que vem à mente.

O gigante do comércio eletrônico também é um golias da experimentação. Na verdade, diz-se que a Amazon realiza mais de 12.000 experimentos por ano! Essa quantidade se divide em cerca de mil experimentos por mês.

Dizem que empresas como o Google e o Bing da Microsoft mantêm um ritmo semelhante.

De acordo com a Wikipedia, cada um dos gigantes dos mecanismos de busca executa mais de 10.000 testes A/B por ano ou cerca de 800 testes por mês.

E não são apenas os mecanismos de pesquisa que funcionam nesse ritmo.

Booking.com é outro nome notável em experimentação. O site de reservas de viagens realiza mais de 25.000 testes por ano, o que equivale a mais de 2 mil testes por mês ou 70 testes por dia!

No entanto, estudos mostram que a empresa média executa apenas 2-3 testes por mês.

Portanto, se a maioria das empresas executa apenas alguns testes por mês, mas algumas das melhores do mundo executam milhares de experimentos por mês, quantos testes você deveria, idealmente, executar?

No verdadeiro estilo CRO, a resposta é: depende.

Do que isso depende? Uma série de fatores importantes que você precisa considerar.

O número ideal de testes A/B a serem executados é determinado pela situação específica e por fatores como tamanho da amostra, complexidade das ideias de teste e recursos disponíveis.

Os 6 fatores a serem considerados ao executar testes A/B

Existem 6 fatores essenciais a serem considerados ao decidir quantos testes executar por mês. Eles incluem

  • Requisitos de tamanho de amostra
  • Maturidade organizacional
  • Recursos disponíveis
  • Complexidade das ideias de teste
  • Cronogramas de teste
  • efeitos de interação

Vamos mergulhar fundo em cada um.

Requisitos de Tamanho da Amostra

No teste A/B, o tamanho da amostra descreve a quantidade de tráfego que você precisa para executar um teste confiável.

Para executar um estudo estatisticamente válido, você precisa de uma amostra grande e representativa de usuários.

Embora, teoricamente, você possa executar um experimento com apenas alguns usuários, não obterá resultados muito significativos.

Tamanhos de amostra baixos ainda podem produzir resultados estatisticamente significativos

Por exemplo, imagine um teste A/B onde apenas 10 usuários viram a versão A e 2 converteram. E apenas 8 usuários viram a versão B com 6 que converteram.

Como mostra este gráfico, os resultados são estatisticamente significativos:

Exemplo de resultados de teste estatisticamente significativos

A versão B parece superar em 275%. Mas, essas descobertas não são muito confiáveis. O tamanho da amostra é muito baixo para fornecer resultados significativos.

O estudo é insuficiente. Ele não contém uma amostra grande e representativa de usuários.

Como o teste é fraco, os resultados são propensos a erros. E não está claro se o resultado ocorreu apenas por acaso ou se uma versão é realmente superior.

Com esta pequena amostra, é fácil tirar conclusões incorretas.

Testes devidamente alimentados

Para superar essa armadilha, os testes A/B precisam ser desenvolvidos adequadamente com uma amostra grande e representativa de usuários.

Quão grande é grande o suficiente?

Essa pergunta pode ser respondida fazendo alguns cálculos simples de tamanho de amostra.

Para calcular com mais facilidade os requisitos de tamanho de amostra, sugiro usar uma calculadora de tamanho de amostra. Há muitos deles por aí.

Meu favorito é o de Evan Miller porque é flexível e completo. Além disso, se você entender como usá-lo, poderá entender praticamente qualquer calculadora existente.

Aqui está a aparência da calculadora de Evan Miller:

Calculadora de tamanho de amostra Evan Miller

Embora os cálculos em si sejam bastante simples, entender a terminologia por trás deles não é. Então, tentei esclarecer o complexo:

Taxa de conversão de linha de base

A taxa de conversão de linha de base é a taxa de conversão existente do controle ou versão original. Geralmente é rotulado como “versão A” ao configurar um teste A/B.

Você deve conseguir encontrar essa taxa de conversão em sua plataforma de análise.

Se você nunca executou um teste A/B ou não conhece a taxa de conversão de linha de base, faça o seu melhor palpite.

A taxa de conversão média, na maioria dos sites, indústrias verticais e tipos de dispositivos, está entre 2 e 5%. Portanto, se você realmente não tem certeza de sua taxa de conversão de linha de base, erre por excesso de cautela e comece com uma linha de base de 2%.

Quanto menor a taxa de conversão da linha de base, maior o tamanho da amostra necessária. E vice versa.

Efeito mínimo detectável (MDE)

Efeito mínimo detectável (MDE) soa como um conceito complicado. Mas fica muito mais fácil de entender se você dividir o termo em três partes:

  • Mínimo = menor
  • Detectável = deseja que você esteja tentando detectar ou localizar executando o experimento
  • Efeito = diferença de conversão entre o controle e o tratamento

Portanto, o efeito mínimo detectável é o menor aumento de conversão que você espera detectar executando o teste.

Alguns puristas de dados irão argumentar que esta definição realmente descreve o Efeito Mínimo de Interesse (MEI). Seja como for que você queira chamá-lo, o objetivo é antecipar o tamanho do aumento de conversão que você espera obter ao executar o teste.

Embora este exercício possa parecer muito especulativo, você pode usar uma calculadora de tamanho de amostra como esta ou a calculadora estatística de teste A/B do Convert para calcular o MDE antecipado.

Como regra geral, um MDE de 2-5% é considerado razoável. Qualquer coisa muito maior geralmente não é realista ao executar um teste verdadeiramente adequado.

Quanto menor o MDE, maior o tamanho da amostra necessária. E vice versa.

Um MDE pode ser expresso como um valor absoluto ou relativo.

Absoluto

Um MDE absoluto é a diferença de número bruto entre a taxa de conversão do controle e da variante.

Por exemplo, se a taxa de conversão da linha de base for 2,77% e você espera que a variante alcance um MDE absoluto de +3%, a diferença absoluta será de 5,77%.

Relativo

Em contraste, um efeito relativo expressa a diferença percentual entre as variantes.

Por exemplo, se a taxa de conversão da linha de base for 2,77% e você espera que a variante alcance um MDE relativo de +3%, a diferença relativa será de 2,89%.

Em geral, a maioria dos experimentadores usa um aumento percentual relativo, portanto, normalmente, é melhor representar os resultados dessa maneira.

Potência estatística 1-β

Poder refere-se à probabilidade de encontrar um efeito, ou diferença de conversão, supondo que realmente exista.

Nos testes, seu objetivo é garantir que você tenha poder suficiente para detectar significativamente uma diferença, se houver, sem erros. Portanto, um poder superior é sempre melhor. Mas o trade-off é que requer um tamanho de amostra maior.

Uma potência de 0,80 é considerada a melhor prática padrão. Portanto, você pode deixá-lo como o intervalo padrão nesta calculadora.

Essa quantidade significa que há 80% de chance de que, se houver um efeito, você o detecte com precisão e sem erros. Como tal, há apenas 20% de chance de você perder a detecção adequada do efeito. Um risco que vale a pena correr.

Nível de significância α

Como uma definição muito simples, o nível de significância alfa é a taxa de falsos positivos, ou a porcentagem de tempo em que uma diferença de conversão será detectada — mesmo que ela não exista de fato.

Como prática recomendada de teste A/B, seu nível de significância deve ser de 5% ou menos. Portanto, você pode simplesmente deixá-lo como padrão nesta calculadora.

Um nível de significância α de 5% significa que há 5% de chance de você encontrar uma diferença entre o controle e a variante — quando na verdade não existe nenhuma diferença.

Mais uma vez, um risco que vale a pena correr.

Avaliando seus requisitos de tamanho de amostra

Com esses números inseridos em sua calculadora, agora você pode garantir que seu site tenha tráfego suficiente para executar um teste adequado durante um período de teste padrão de 2 a 6 semanas.

Para verificar, acesse sua plataforma de análise preferida e observe a média histórica da taxa de tráfego do site ou página que deseja testar durante um período finito.

Por exemplo, nesta conta do Google Analytics 4 (GA4), acessando a guia Ciclo de vida > Aquisição > Visão geral da aquisição, você pode ver que havia 365 mil usuários no período histórico recente entre outubro e novembro de 2022:

Dimensão do número de usuários do GA4
Esse intervalo de datas foi usado para evitar alterações no tráfego sazonal durante o período de feriados.

Com base em uma taxa de conversão de linha de base existente de 3,5%, com MDE relativo de 5%, em uma potência padrão de 80% e um nível de significância padrão de 5%, a calculadora mostra um tamanho de amostra de 174.369 visitantes por variante é necessário para executar uma análise adequada teste A/B alimentado:

Exemplo de calculadora de tamanho de amostra Evan Miller

Supondo que as tendências de tráfego se mantenham relativamente estáveis ​​nos próximos meses, é razoável esperar que o site atinja cerca de 365 mil usuários ou (365 mil/2 variantes) 182 mil visitantes por variante dentro de um período de teste razoável.

Os requisitos de tamanho de amostra são alcançáveis, dando luz verde para prosseguir e executar o teste.

Uma observação importante: esse exercício de verificação de requisitos de tamanho de amostra sempre deve ser feito ANTES da execução de qualquer estudo, para que você saiba se tem tráfego suficiente para executar um teste devidamente desenvolvido.

Além disso, ao executar o teste, você NUNCA deve interrompê-lo antes de atingir os requisitos de tamanho de amostra pré-calculados - mesmo que os resultados pareçam significativos antes.

Declarar prematuramente um vencedor ou perdedor antes de atender aos requisitos de tamanho de amostra é conhecido como "espreitar" e é uma prática de teste perigosa que pode levar você a fazer chamadas incorretas antes que os resultados sejam totalmente divulgados.

Quantos testes você pode executar se tiver tráfego suficiente?

Considerando que o site ou as páginas que você deseja testar atendem aos requisitos de tamanho de amostra, quantos testes você pode executar?

A resposta é, novamente, depende.

De acordo com uma apresentação compartilhada por Ronny Kohavi, ex-vice-presidente de Experimentação do Bing da Microsoft, a Microsoft normalmente executa mais de 300 experimentos por dia.

Mas eles têm o tráfego para fazê-lo.

Cada experimento vê mais de 100 mil usuários:

Testes simultâneos do Microsoft Bing 300

Quanto maior o tráfego disponível, mais testes você pode executar.

Com qualquer teste, você precisa ter certeza de que tem um tamanho de amostra grande o suficiente para executar um experimento devidamente desenvolvido.

Se você for uma organização menor com tráfego mais limitado, considere menos testes de qualidade superior.

No final das contas, não importa quantos testes você está executando, mas o resultado de seus experimentos.

Opções se você não puder atender aos requisitos de tamanho de amostra

Se você descobrir que não pode atender aos requisitos de tamanho de amostra, não se preocupe. A experimentação não está fora de questão para você. Você tem algumas opções de experimentação em potencial disponíveis:

  1. Foco na aquisição de tráfego

Mesmo sites grandes podem ter baixo tráfego em determinadas páginas.

Se você achar que o tráfego do site, ou tráfego em determinadas páginas, não atende aos requisitos de tamanho de amostra, considere concentrar esforços na aquisição de mais tráfego.

Para fazer isso, você pode adotar táticas agressivas de Search Engine Optimization (SEO) para ter uma classificação mais alta nos mecanismos de pesquisa e obter mais cliques.

Você também pode adquirir tráfego pago por meio de canais como Google Ads, LinkedIn ads ou até mesmo banners.

Essas duas atividades de aquisição podem ajudar a aumentar o tráfego da Web e fornecer uma capacidade mais forte de testar o que converte melhor com os usuários.

No entanto, se você usar tráfego pago para atender aos requisitos de tamanho de amostra, considere segmentar os resultados do teste por tipo de tráfego, pois o comportamento do visitante pode diferir de acordo com a origem do tráfego.

  1. Avalie se o teste A/B é o melhor método de experimentação para você

Embora o teste A/B seja considerado o padrão-ouro da experimentação, os resultados são tão bons quanto os dados por trás deles.

Se você achar que não tem tráfego suficiente para executar um teste adequado, considere se o teste A/B é realmente a melhor opção de experimentação para você.

Existem outras abordagens baseadas em pesquisa que requerem amostras muito menores e ainda podem gerar insights de otimização incrivelmente valiosos.

Testes de experiência do usuário (UX), pesquisas com consumidores, pesquisas de opinião ou entrevistas com clientes são algumas outras modalidades de experimentação que você pode tentar como alternativa ao teste A/B.

  1. Os resultados do Realize podem fornecer apenas dados direcionais

Mas se você continuar concentrado no teste A/B, ainda poderá executar testes.

Apenas perceba que os resultados podem não ser totalmente precisos e fornecerão apenas “dados direcionais” indicando o resultado provável – em vez de totalmente confiável.

Como os resultados podem não ser totalmente verdadeiros, convém monitorar de perto o efeito da conversão ao longo do tempo.

Dito isso, o que geralmente é mais importante do que os números de conversão precisos são os números da conta bancária. Se eles estão subindo, você sabe que o trabalho de otimização que está fazendo está funcionando.

Maturidade de teste

Além dos requisitos de tamanho da amostra, outro fator que influencia a cadência do teste é o nível de maturidade da organização de teste.

Testar a maturidade é um termo usado para descrever o quão arraigada está a experimentação dentro de uma cultura organizacional e quão avançadas são as práticas de experimentação.

Organizações como Amazon, Google, Bing e Booking – que realizam milhares de testes por mês – têm equipes de teste progressivas e maduras.

Isso não é coincidência.

A cadência de teste tende a estar intimamente ligada ao nível de maturidade de uma organização.

Se a experimentação estiver enraizada na organização, a administração estará comprometida com ela. Além disso, os funcionários em toda a organização são normalmente incentivados a apoiar e priorizar a experimentação e podem até ajudar a fornecer ideias de teste.

Quando esses fatores se juntam, é muito mais fácil executar um programa de teste conveniente.

Se você espera acelerar os testes, pode ser útil primeiro observar o nível de maturidade da sua organização.

Comece avaliando questões como

  • Qual a importância da experimentação para o C-Suite?
  • Que recursos são fornecidos para promover a experimentação?
  • Quais canais de comunicação estão disponíveis para comunicar atualizações de testes?

Se a resposta for “nenhuma” ou próxima disso, considere trabalhar primeiro na criação de uma cultura de teste.

À medida que sua organização adota uma cultura de experimentação mais progressiva, será naturalmente mais fácil aumentar a cadência de testes.

Para obter sugestões sobre como criar uma cultura de experimentação, confira recursos como este artigo e este.

Restrições de recursos

Supondo que você já tenha algum grau de adesão organizacional, o próximo problema a ser combatido são as restrições de recursos.

Tempo, dinheiro e poder humano são limitações que podem limitar sua capacidade de testar. E teste rapidamente.

Para superar as restrições de recursos, pode ser útil começar avaliando a complexidade do teste.

Equilibrar testes simples e complexos

Como experimentador, você pode optar por executar testes que variam de super simples a complexos malucos.

Testes simples podem incluir a otimização de elementos como cópia ou cor, atualização de imagens ou movimentação de elementos únicos em uma página.

Testes complexos podem envolver a alteração de vários elementos, alteração da estrutura da página ou atualização do funil de conversão. Esses tipos de testes geralmente exigem um trabalho de codificação profundo.

Ao executar milhares de testes A/B, descobri que é útil ter uma mistura de cerca de ⅗ testes mais simples e ⅖ mais complexos sendo executados simultaneamente em todos os momentos.

Testes mais simples podem lhe dar vitórias rápidas e fáceis.

Mas testes maiores, com mudanças maiores, geralmente produzem efeitos maiores. Na verdade, de acordo com algumas pesquisas de otimização, quanto mais testes e mais complexos você executar, maior será a probabilidade de sucesso. Portanto, não tenha medo de fazer grandes testes de swing com frequência.

Esteja ciente de que a desvantagem é que você gastará mais recursos projetando e construindo o teste. E não há garantia de que vencerá.

Teste Baseado nos Recursos Humanos Disponíveis

Se você é um CRO estrategista solo ou trabalha com uma equipe pequena, sua capacidade é limitada. Seja simples ou complexo, você pode encontrar 2-5 testes por mês para você.

Por outro lado, se você estiver em uma organização que possui uma equipe dedicada de pesquisadores, estrategistas, designers, desenvolvedores e especialistas em controle de qualidade, provavelmente terá a capacidade de executar de dezenas a centenas de testes por mês.

Para determinar quantos testes você deve executar, avalie a disponibilidade de seus recursos humanos.

Em média, um teste simples pode levar de 3 a 6 horas para idealizar, estruturar, projetar, desenvolver, implementar, fazer o controle de qualidade e monitorar os resultados.

Por outro lado, um teste altamente complexo pode levar de 15 a 20 horas.

Há cerca de 730 horas em um mês, então você deve ser muito calculado sobre os testes e o número de testes que está executando durante esse tempo precioso.

Planeje e priorize suas ideias de teste

Para ajudá-lo a mapear sua estrutura de teste ideal, considere o uso de uma estrutura de priorização de teste, como PIE, ICE ou PXL.

Essas estruturas fornecem uma técnica quantitativa para classificar suas principais ideias de teste, avaliar a facilidade de implementação e avaliar quais testes têm maior probabilidade de aumentar as conversões.

Ao conduzir esta avaliação, sua lista priorizada de ideias de teste ficará mais ou menos assim:

Estrutura de priorização de PXL do CXL

Com suas principais ideias de teste classificadas, também é recomendável criar um roteiro de teste para planejar visualmente o cronograma do teste e as próximas etapas.

Seu roteiro pode ser mais ou menos assim:

Exemplo de roteiro de teste

Deve incluir:

  • A lista de ideias que você planeja testar, por página.
  • Quanto tempo você prevê que cada estágio de teste (design, desenvolvimento, controle de qualidade, etc.) levará.
  • Por quanto tempo você planeja executar cada teste, com base nos requisitos de tamanho de amostra pré-calculados. Você pode calcular os requisitos de duração do teste usando uma calculadora de duração de teste como esta.

Ao mapear suas ideias de teste, você poderá determinar com mais precisão a cadência e a capacidade do teste.

À medida que você preenche seu roteiro de testes, pode ficar muito claro que o número de testes que você pode executar é baseado nos recursos disponíveis.

Você deve executar vários testes ao mesmo tempo?

Mas só porque você pode fazer algo, nem sempre significa que você deveria.

Quando se trata de executar vários testes ao mesmo tempo, há um grande debate sobre a melhor abordagem.

Artigos como este, do líder da Experiment Nation, Rommil Santiago, trazem uma questão controversa: é correto executar vários testes A/B simultaneamente?

Alguns experimentadores dirão, absolutamente não!

Eles argumentarão que você só deve executar um teste, uma página por vez. Caso contrário, você não conseguirá isolar adequadamente nenhum efeito.

Eu costumava estar neste acampamento porque foi assim que me ensinaram há quase uma década.

Foi-me estritamente comunicado que você só deve executar um teste, com uma alteração, em uma página, de cada vez. Eu operei com essa mentalidade por muitos anos - para grande consternação de clientes ansiosos que queriam mais resultados mais rapidamente.

No entanto, este artigo de Timothy Chan, ex-cientista de dados do Facebook e agora cientista-chefe de dados da Statsig, mudou completamente minha opinião.

Em seu artigo, Chan argumenta, os efeitos de interação são superestimados.

Na verdade, executar vários testes simultaneamente não é apenas um problema; é realmente a única maneira de testar!

Essa postura é apoiada por dados de seu tempo no Facebook, onde Chan viu o gigante da mídia social executar com sucesso centenas de experimentos simultaneamente, muitos deles até na mesma página.

Especialistas em dados como Ronny Kohavi e Hazjier Pourkhalkhali concordam: efeitos de interação são altamente improváveis. E, de fato, a melhor maneira de testar o sucesso é executar vários testes várias vezes, continuamente.

Portanto, ao considerar a cadência de teste, não se preocupe com o efeito de interação de testes sobrepostos. Teste liberalmente.

Resumo

No teste A/B, não há um número ideal de testes A/B que você deve executar.

O número ideal é o certo para a sua situação única.

Esse número é baseado em vários fatores, incluindo as restrições de tamanho de amostra do seu site, a complexidade das ideias de teste e o suporte e os recursos disponíveis.

No final, não é tanto sobre o número de testes que você executa, mas sim sobre a qualidade dos testes e os resultados que você obtém. Um único teste que traz um grande aumento é muito mais valioso do que vários testes inconclusivos que não movem a agulha.

Testar realmente é sobre qualidade sobre quantidade!

Para obter mais informações sobre como obter o máximo valor do seu programa de teste A/B, confira este artigo do Convert.