O que é o teste A/A e por que os profissionais de marketing devem se importar?

Publicados: 2017-05-18

Você já passou por esse cenário? Você configura um teste A/B para descobrir se sua nova combinação de botão e título gerará mais conversões…

Você direciona tráfego igual para ambas as páginas de destino pós-clique – o controle e a variação – e para depois de um mês, quando seu software declara sua variação como vencedora com 99% de confiança…

Você lança o novo design “vencedor”, mas vários ciclos de negócios depois, esse aumento de 50% na taxa de conversão não mostra nenhum impacto em seus resultados. Você está confuso. Você está irritado…

E você provavelmente é vítima de um resultado de teste falso positivo.

O que é um resultado de teste falso positivo?

Por que esse aumento de 50% na taxa de conversão não se traduz em mais vendas? A razão, diz Lance Jones da Copyhackers, é porque provavelmente não existia.

É totalmente possível (até provável) que você não veja o aumento nas vendas ou na receita do seu teste porque nunca existiu em primeiro lugar. Você pode ter recebido inadvertidamente um “falso positivo” em seu teste – conhecido como erro estatístico Tipo I, também conhecido como rejeição incorreta de uma hipótese nula verdadeira. Isso é um bocado, então simplesmente me lembro como um falso positivo.

Engraçado ou não, esses erros estatísticos do Tipo 1 são mais comuns do que você imagina. Estima-se que cerca de 80% dos resultados dos testes AB sejam imaginários.

Estima-se que cerca de 80% dos resultados dos testes AB sejam imaginários.

Clique para tweetar

Se você está tomando decisões importantes com base em falsos positivos, na melhor das hipóteses, está deixando a otimização ao acaso. Na pior das hipóteses, você está realmente piorando a taxa de conversão de suas páginas de destino pós-clique.

Felizmente, existem algumas maneiras de combater dados venenosos. Um deles é semelhante a um método de teste com o qual você provavelmente já está familiarizado…

O que é o teste A/A?

O teste A/B envolve direcionar o tráfego para duas páginas diferentes – uma original (seu controle) e outra versão (sua variação) – para ver qual tem melhor desempenho.

Da mesma forma, o teste A/A envolve direcionar o tráfego para duas páginas para ver qual tem melhor desempenho. Mas, ao contrário de um teste A/B, um teste A/A coloca duas páginas idênticas uma contra a outra – e, em vez de descobrir um aumento, o objetivo é não encontrar nenhuma diferença entre seu controle e variação.

Por que você faria um teste A/A?

Não o culpamos por coçar a cabeça, imaginando "O que diabos o teste de duas páginas idênticas uma contra a outra realizaria?"

Pode parecer bobo, mas é uma técnica que alguns testadores profissionais usam para testar seu teste A/B antes de testar. (Huh?)

Resultados de teste precisos exigem mais do que significância estatística

Qualquer um pode executar um teste A/B, mas poucos podem executar um teste A/B válido (lembre-se: apenas cerca de 20% dos resultados dos testes são realmente legítimos).

Produzir dados de teste precisos envolve mais do que alcançar significância estatística com um tamanho de amostra grande e representativo. Para ter certeza de seus resultados, você deve garantir que a amostra não seja contaminada por uma série de ameaças de validade.

Uma dessas ameaças, o efeito do instrumento, é o que os testes A/A são mais úteis para combater.

Qual é o efeito do instrumento?

A proteção contra ameaças de validade começa antes mesmo de você começar o teste A/B. O efeito do instrumento, diz Peep Laja, da CXL, é o que envenena a maioria dos resultados dos testes:

Este é o problema mais comum. É quando algo acontece com as ferramentas (ou instrumentos) de teste que causam dados falhos no teste. Muitas vezes, ocorre devido à implementação incorreta do código no site e distorcerá todos os resultados.

É por isso que, ao configurar um teste, é importante garantir que suas ferramentas estejam configuradas corretamente e funcionando da maneira que deveriam. Se não estiverem, estes problemas comuns podem surgir:

Relatórios incorretos de indicadores-chave de desempenho. Apenas um erro em uma ferramenta pode confundir seus dados, e é por isso que você nunca deve confiar em uma única plataforma para rastrear todas as suas informações de teste. No mínimo, integre-o ao Google Analytics para verificar novamente se as métricas que você vê no software de teste e no rastreamento do site são precisas. Para resultados ainda melhores, verifique três vezes com outra ferramenta. Desconfie de quaisquer relatórios que não correspondam relativamente de perto.
problemas de exibição da página de destino pós-clique. Pequenos erros de codificação podem causar grandes ameaças de validade, como problemas de exibição, durante o teste A/B. É por isso que é crucial garantir que suas páginas de destino pós-clique tenham a aparência que deveriam em todos os dispositivos e navegadores e que seus visitantes não sejam afetados por algo chamado “efeito oscilação”. Entre outros, um site lento pode causar esse problema, que ocorre quando seu controle é exibido momentaneamente ao seu visitante pouco antes da variação.
Interromper um teste muito cedo. Alguns softwares de teste declararão uma página vencedora prematuramente — quando um tamanho de amostra não for grande o suficiente ou representativo de seu cliente-alvo. Lembre-se: alcançar significância estatística não significa que é hora de interromper o teste. Quanto mais você executá-lo, mais precisos serão seus resultados.

Qualquer um desses problemas (e mais) pode levar a um falso positivo na conclusão do teste, e é por isso que Peep adverte os testadores para ficarem atentos:

Ao configurar um teste, observe-o como um falcão. Observe que cada meta e métrica que você rastreia está sendo registrada. Se alguma métrica não estiver enviando dados (por exemplo, adicionar dados de cliques ao carrinho), interrompa o teste, localize e corrija o problema e reinicie redefinindo os dados.

Mas nem todo mundo se sente confortável em pular imediatamente para o teste A/B com os dois pés – especialmente ao usar um novo software. Portanto, como precaução adicional, alguns profissionais realizam testes A/A para avaliar suas ferramentas antes de iniciarem o teste A/B.

Se a sua experiência estiver configurada corretamente, ao final de um teste A/A, ambas as páginas deverão surgir com uma taxa de conversão semelhante. Como mostram os testadores a seguir, isso nem sempre acontece.

Exemplos de teste A/A

Os falsos positivos são realmente tão comuns? Uma página pode realmente superar seu clone? Esses caras usaram o teste A/A para descobrir e revelaram suas descobertas nas seguintes postagens do blog…

1. O teste de divisão da página inicial revela a principal falha das ferramentas de teste populares

Em 11 de novembro de 2012, a equipe Copyhackers iniciou um teste A/A em sua página inicial, conforme ilustrado abaixo:

No dia 18 - 6 dias depois - sua ferramenta de teste foi declarada vencedora com 95% de confiança. Por uma questão de precisão, porém, a equipe decidiu deixar o teste rodar mais um dia – momento em que seu software declarou o vencedor com um nível de confiança de 99,6%:

A página inicial deles tinha um desempenho quase 24% melhor do que exatamente a mesma página , e havia apenas 0,4% de chance de o resultado ser um falso positivo, de acordo com o software. Ainda assim, a equipe deixou o teste rodar por mais três dias e as diferenças acabaram se nivelando:

Mas esse não é o ponto. O ponto é: a ferramenta de teste declarou um vencedor muito cedo. Se a equipe do Copyhackers não o tivesse mantido funcionando, eles teriam presumido incorretamente que havia um problema com o experimento. Leia mais sobre o teste aqui.

2. Teste A/A: como aumentei as conversões em 300% sem fazer absolutamente nada

Este título sarcástico vem do autor e autoproclamado “empreendedor em recuperação”, David Kadavy, que realizou uma série de testes A/A ao longo de 8 meses em 750.000 assinantes de e-mail. Durante esse tempo, ele gerou resultados estatisticamente significativos, como estes:

Entre esses resultados estavam:

Um aumento de 9% nas aberturas de e-mail
Um aumento de 300% nos cliques
Uma taxa de cancelamento de assinatura 51% menor

Ele diz:

Para muitos aspirantes a empreendedores (incluindo meu antigo eu), isso parece “nossa, você aumentou as aberturas em 10%!” Eles podem até inseri-lo na calculadora de significado do Visual Website Optimizer e ver que p=0,048. “É estatisticamente significativo!” eles (ou eu) podem exclamar.

A verdade é que todos esses foram testes A/A. O conteúdo testado um contra o outro era idêntico. Veja mais de seus resultados aqui.

Você deve executar testes A/A?

A resposta a esta pergunta depende de quem você pergunta.

Neil Patel, que continuou vendo grandes aumentos de conversão que não significavam mais receita, diz: “É realmente importante que você execute um teste A/A primeiro, pois isso ajudará a garantir que você não perca tempo com software impreciso”.

Por outro lado, Peep Laja, da CXL, diz que os próprios testes A/A são uma perda de tempo. Então, quem está certo?

Os dois principais problemas com o teste A/A

Do ponto de vista teórico, o teste A/A faz muito sentido. Acima de tudo, a precisão é mais importante ao executar um teste A/B, e testar seu teste é apenas uma das muitas maneiras de garantir isso.

Em ambientes de teste do mundo real, porém, os testes A/A têm o potencial de causar mais danos do que benefícios. Craig Sullivan explica:

Para mim, o problema é sempre consumir tráfego real e tempo de teste, tendo que pré-carregar o tempo de execução do teste com um período de teste A/A. Se eu estiver tentando executar 40 testes por mês, isso prejudicará minha capacidade de colocar as coisas ao vivo. Prefiro ter meio dia de teste de controle de qualidade no experimento do que executar 2 a 4 semanas de teste A/A para verificar se ele se alinha.

Esse é o problema um. Os testes A/A custam tempo real e tráfego que você poderia usar para saber mais sobre os visitantes do seu site com testes A/B.

O problema dois é exemplificado no estudo de caso da Copyhackers. Assim como os testes A/B, os testes A/A precisam ser projetados e monitorados com cuidado, porque também são suscetíveis a falsos positivos.

Em outras palavras, seu teste A/A pode dizer que uma página está tendo um desempenho melhor do que a outra, quando não está (essa chance é muito maior do que você pensa - cerca de 50%)

Se a equipe da Copyhackers tivesse ouvido sua ferramenta de teste e declarado um vencedor em apenas seis dias, eles teriam gasto ainda mais tempo tentando descobrir por que sua página inicial estava tendo um desempenho melhor do que sua gêmea idêntica (quando na verdade não estava). .

O principal benefício do teste A/A

Apesar desses problemas, o teste A/A tem o potencial de ajudá-lo a detectar problemas ainda maiores durante testes reais . Quando os resultados desses testes são aqueles nos quais você está baseando importantes decisões de negócios, esse é um poderoso benefício a ser considerado.

Se você decidir fazer o teste A/A, existe uma maneira potencialmente menos dispendiosa de fazê-lo, chamada de teste A/A/B.

Teste A/A/B x teste A/A

O método tradicional de teste A/A desperdiça tráfego porque não informa nada sobre seus visitantes em sua conclusão. Mas, se você adicionar uma variação “B” a esse teste, poderia. Aqui está a diferença entre os dois:

Teste A/A = 2 páginas idênticas testadas uma contra a outra
Teste A/A/B = 2 páginas idênticas e uma variação testada uma contra a outra

Um teste A/A/B divide seu tráfego em três segmentos, o que significa que levará mais tempo para atingir significância estatística. Mas a vantagem é que, assim que fizer isso, você terá dados sobre sua ferramenta de teste e seus visitantes.

Compare os resultados de A vs. A para determinar se você pode confiar em seu teste. Se forem estatisticamente semelhantes, compare os resultados de A vs. B. Se não forem, porém, você terá que jogar fora os resultados de todo o teste (que levou mais tempo do que um teste A/A tradicional para executar já que seu tráfego é segmentado de três maneiras).

Os benefícios do teste A/A superam os contras?

Alguns especialistas dizem “sim”, enquanto outros dizem “não”. Andrew First, da Leadplum, parece pensar que a resposta cai em algum lugar entre:

O teste A/A provavelmente não deve ser um assunto mensal, mas quando você está configurando uma nova ferramenta, vale a pena reservar um tempo para testar seus dados. Se você interceptar dados incorretos agora, ficará mais confiante nos resultados dos testes daqui a alguns meses.

Em última análise, cabe a você. Se você estiver usando uma nova ferramenta, pode ser sensato seguir o conselho de Andrew. Se você não for, provavelmente é melhor seguir o exemplo de Craig Sullivan e, em vez disso, configurar um rigoroso processo de controle de qualidade pré-teste. Economize seu tempo, recursos e tráfego para testes A/B.

Aproveite ao máximo seus esforços de teste e campanhas de anúncios digitais, inscreva-se para uma demonstração do Instapage Enterprise hoje.