Como reduzir a poluição do tamanho da amostra para resultados precisos do teste A/B
Publicados: 2020-08-08
Você passou horas planejando seu teste.
Sua equipe cria uma hipótese.
Você executa o teste e aguarda os resultados.
Mas você descobre que seu teste falhou. Os resultados foram contaminados. Mas como?
Não se martirize. Há um pequeno segredo sujo no mundo dos testes chamado poluição do tamanho da amostra .
A poluição do seu público de amostra pode, sem saber, fazer com que os testes sejam condenados antes mesmo de começarem.
Há uma longa lista de possíveis razões pelas quais os testes falham, mas uma das mais frustrantes é a poluição do tamanho da amostra.
Este artigo irá ajudá-lo a entender:
- Por que a poluição do tamanho da amostra ocorre.
- Como saber se seu teste está poluído.
- Etapas a serem tomadas para minimizar a ocorrência de poluição do tamanho da amostra.
Vamos dar uma olhada…
Tamanho da Amostra 101
Definição do Tamanho da Amostra
Você pode usar ferramentas como a calculadora de duração de teste A/B do Convert, que oferece uma calculadora de tamanho de amostra ou uma calculadora de tamanho de amostra CXL.
A maioria das calculadoras online são simples de usar. Com a calculadora do Convert, você só precisa inserir três valores:
- Taxa de conversão existente
- Melhoria esperada
- Nível de confiança
Exemplo:
Se a taxa de conversão existente for de 3% e a melhoria esperada for de 20% ao testar duas variações com um nível de confiança de 95%, você precisará de um tamanho de amostra de 42.034 para obter resultados confiáveis. Com 2.000 visitantes diários para este grupo de teste, levaria 22 dias de acordo com nossa calculadora de duração.

Determine quem estará em sua amostra
A maneira mais fácil de responder a esta pergunta de "QUEM?" ou o segmento, é analisando os dados demográficos e as origens dos visitantes atuais do seu site. Toque nos dados existentes para obter pistas. Quem são eles? De onde eles estão vindo?
Ferramentas como o Convert Experiments permitem que você teste usando um segmento específico de visitantes do seu site e crie públicos personalizados.
Vários fatores podem ajudá-lo a disfarçar o 'quem':
- Tipo de tráfego
Você recebe tráfego sazonal? Você espera um fluxo de visitantes com base nos feriados que se aproximam? Seus números de tráfego variam dependendo do dia da semana? - Origem do tráfego
De onde vem o seu tráfego? As pessoas se comportam de maneira diferente com base na fonte de onde entram no seu site. Por exemplo, um visitante do LinkedIn pode não interagir com seu site da mesma forma que alguém vindo do Facebook.
Examine o Google Analytics para obter uma visão geral do envolvimento do visitante com base na Origem.

- Novo vs. Antigo
As estatísticas mostram que os visitantes recorrentes permanecem em seu site por mais tempo do que os novos visitantes. Pense em como isso afetará seu teste.
O objetivo deste estágio de consideração é ajudá-lo a construir amostras representativas .
A Enciclopédia de Métodos de Pesquisa de Pesquisa define amostras representativas como:
Uma amostra representativa é aquela que tem forte validade externa em relação à população-alvo que a amostra deve representar. Como tal, os resultados da pesquisa podem ser generalizados com confiança para a população de interesse.
Para garantir que você tenha uma amostra representativa, o Convert sugere a execução de um teste por pelo menos um ciclo de negócios. Isso garante que seu teste tenha tempo para considerar a variação do visitante que pode ocorrer em um ciclo.
O que é poluição por tamanho de amostra?
Agora que você entende qual é o tamanho da amostra, pode explorar os fatores que podem corromper o tamanho da amostra e estragar seu teste. É assim que o tamanho da amostra afeta a validade. Os fatores de tamanho da amostra que afetam negativamente os resultados do teste são conhecidos como poluição do tamanho da amostra.
A Invespcro define a poluição da amostra como:
“…fatores que invalidam seus dados de teste A/B, influenciando as amostras ou dados usados durante a realização de seu teste.”
Este problema é mais comum. Veja esta reclamação:

Amostra tendenciosa
Na maioria dos casos, você deseja uma amostragem aleatória, o que significa que cada visitante do seu site tem a mesma chance de ver uma variação específica antes de ser agrupada. Uma vez colocado em um bucket, o usuário verá a mesma variante durante o teste.
No entanto, se você usar uma ferramenta de teste A/B que não executa bem a randomização, a randomização não é garantida e pode invalidar o teste.
Uma maneira simples de combater a amostragem tendenciosa é usar uma boa ferramenta de teste A/B como o Convert, que executa a randomização e o agrupamento corretamente. Comece seu teste com um teste A/A para verificar se a randomização funciona corretamente.
Você quer estar ciente do potencial de viés da amostra ao considerar os detalhes do seu teste.
Fontes que causam poluição do tamanho da amostra
Existem quatro tipos comuns de poluição de amostra: tempo, dispositivo, navegador e cookie.
Vejamos cada um deles…
Cronometragem
A duração do seu teste influencia a validade dos seus resultados. Portanto, não é surpresa que “por quanto tempo devo executar meu teste A/B” seja uma pergunta comum.
Os profissionais de CRO têm ideias conflitantes sobre o que é um benchmark aceitável. Na verdade, suas variáveis de teste devem conduzir o comprimento adequado do seu teste.
Uma solução simples pode parecer ser apenas permitir que seu teste seja executado, executado e executado. Mas isso também pode causar problemas. O tempo adicionado significa um aumento na poluição potencial de fatores externos.
Você quer encontrar o ponto ideal.
Outro erro comum em relação à duração do teste é interromper um teste muito cedo. Isso pode não levar à poluição do tamanho da amostra, mas pode afetar negativamente seu teste.
O mesmo é verdade se você interromper o teste quando atingir significância estatística. Para um teste válido, ele também deve atingir o tamanho de amostra calculado para o MDE (efeito mínimo detectável) desejado.
Na mesma linha, nunca interrompa uma variante de um teste em execução. Isso causará poluição catastrófica . Você não conseguiria comparar a variante “parada” com o controle “em execução o tempo todo”. Você não teria como comparar “maçãs com maçãs”. Nunca pare e depois reinicie uma variante em um teste.

Não interrompa seus testes até que os dados sejam consistentes para o tamanho da amostra.
Poluição de cookies
Os cookies podem causar a forma mais insidiosa de poluição do tamanho da amostra.
Com base na definição da techopedia, os cookies são:
Um cookie é um arquivo de texto que um navegador da Web armazena na máquina de um usuário. Os cookies são uma maneira dos aplicativos da Web manterem o estado do aplicativo. Eles são usados por sites para autenticação, armazenando informações/preferências de sites, outras informações de navegação e qualquer outra coisa que possa ajudar o navegador da Web ao acessar servidores da Web. Os cookies HTTP são conhecidos por muitos nomes diferentes, incluindo cookies do navegador, cookies da Web ou cookies HTTP.
Como profissionais de marketing, os cookies permitem que você rastreie o comportamento de seus visitantes em seu site.
A vida útil dos cookies é volátil. Os visitantes podem excluí-los ao seu menor capricho.
Quanto mais tempo seu teste for executado, mais vulnerável você estará à exclusão de cookies – novamente levando a outra forma de poluição do tamanho da amostra. Para mitigar esse fenômeno, a Convert aconselha os clientes a realizar testes por no máximo 90 dias.

Poluição do dispositivo
Os visitantes visitam seu site a partir de vários dispositivos: celulares, laptops, tablets, desktops e até smartwatches.
Basta pensar no seu comportamento de navegação. Você pode detectar algo em seu dispositivo móvel enquanto estiver nas academias. No final do dia, você pode revisitar o site em seu computador desktop.
Se isso acontecer nos limites do seu teste A/B, pode parecer que duas pessoas diferentes visitaram seu site quando, na verdade, é a mesma pessoa navegando em dois dispositivos diferentes.
Ainda mais perigoso para seus esforços de teste é que essa mesma pessoa pode ver uma variante diferente em cada dispositivo.
Há um exemplo inverso disso. O que acontece quando duas pessoas usam o mesmo dispositivo para visitar seu site?
Imagine dois irmãos morando na mesma casa. Eles compartilham um computador desktop. Ambos estão se preparando para as férias e precisam encomendar novas camisetas e calçados. Se um teste A/B estiver sendo executado no site de comércio eletrônico no momento da visita, os dados mostrarão essas duas pessoas como um único usuário, novamente, corrompendo o tamanho da amostra.
Poluição do navegador
Quando a pessoa comum fica online, ela não considera a ramificação que o uso de diferentes navegadores para visitar o mesmo site terá em um teste A/B. Mas ir para o mesmo site de um navegador para outro, como o Safari e o Chrome, pode levar a uma poluição de tamanho de amostra semelhante que ocorre com vários dispositivos.
No entanto, essa forma específica de poluição é rara, pois a maioria das pessoas usará um navegador preferido por dispositivo.
Novos perigos
Navegadores, tipo de dispositivo, cookies e duração dos testes são os poluentes de tamanho de amostra mais comuns, mas parece que um novo poluente está entrando na conversa. Profissionais da indústria estão reclamando sobre bots criando poluição por tamanho de amostra.

Felizmente, na Convert, temos fortes medidas de mitigação de bots incorporadas em nossa ferramenta, para que isso não seja um problema.
Dicas sobre como reduzir a poluição do tamanho da amostra
Como a poluição do tamanho da amostra é um problema importante, muitas empresas criaram correções criativas, como colocar os usuários em diferentes grupos com base na localização.
Mas essas táticas podem tirar os testes de “aleatoriedade do usuário” e podem reduzir sua confiança de que os resultados do teste são válidos.
Abaixo estão algumas coisas que você pode fazer para reduzir as chances de poluição da amostra:
- Execute o teste para dispositivos separados.
- Execute o teste para navegadores separados.
- Identifique padrões. Como seus dados pareciam no passado? Deve ser semelhante durante o teste – consistência de dados.
Aqui estão mais algumas coisas a considerar…
Compreender a variação
A variância e o desvio padrão andam de mãos dadas com a consistência. Essencialmente, eles lhe dirão o quão longe da média seus números estão. Baixa variação significa que seus dados são consistentes com a média, o que o coloca em menor risco de poluição.
Você pode fazer as contas manualmente ou simplesmente usar uma calculadora simples de desvio padrão.
Esteja ciente de possíveis problemas de amostragem
Existem problemas inerentes aos testes A/B, incluindo a possibilidade de poluição do tamanho da amostra.
O conhecimento de possíveis problemas de tamanho de amostra permite que você faça melhores escolhas ao escolher seus objetivos de teste, criar tratamentos e executar experimentos.
Agora você pode vencer a poluição de amostras
Boas práticas de teste significam que você inicia seus projetos com uma compreensão completa do que pode dar errado.
A poluição do tamanho da amostra é um subproduto negativo que ocorre quando você executa testes A/B. Seu trabalho é reduzir ao máximo esses efeitos negativos para que você possa ter um teste bem-sucedido.
Lembre-se, a mitigação acontece antes do início do teste.
Use uma ferramenta robusta como o Convert, que oferece a capacidade de segmentar testes, combater bots irritantes, usar boas técnicas de randomização, tudo dentro de uma plataforma simples que suporta testes complexos.
Sua estratégia de experimentação e o poder de seu software farão a diferença em quão bem você minimizará a poluição do tamanho da amostra.
Agora que você conhece esse potencial ponto cego em seus testes, ele não pode se aproximar de você.
