Análise de arquivos de log: a alternativa inteligente ao Google Analytics

Publicados: 2022-03-08

Você sabe o que está acontecendo em seu site todos os dias? A primeira coisa que vem à mente ao responder a essa pergunta provavelmente seria usar ferramentas de rastreamento de público e comportamento. Existem muitas dessas ferramentas disponíveis no mercado, incluindo: Google Analytics, At Internet, Matomo, Fathom Analytics e Simple Analytics, para citar apenas alguns. Embora essas ferramentas nos permitam ter uma boa visão geral do que está acontecendo a qualquer momento em nossos sites, as práticas éticas empregadas por essas ferramentas, mais especificamente o Google Analytics, estão mais uma vez sendo questionadas.

Isso sugere que existem outras fontes de dados que atualmente não estão sendo suficientemente exploradas por todos os proprietários de sites: logs.

Ferramentas de análise e GDPR (foco no Google Analytics)

Os dados pessoais tornaram-se um assunto sensível na França desde a implementação do Regulamento Geral de Proteção de Dados (GDPR) e a criação da Comissão Nacional de Informática e Liberdade (CNIL). A proteção de dados tornou-se uma prioridade.

Então, seu site ainda é “amigável ao GDPR”?

Se dermos uma olhada em todos os sites, podemos descobrir que muitos encontraram uma maneira de contornar as regras usando seus cookies (banners de coleta de dados) para coletar as informações de que precisam, enquanto outros ainda seguem estritamente os regulamentos oficiais.

Ao coletar essas informações, as ferramentas de análise de dados nos permitem analisar de onde vem o público e o comportamento do visitante. Esse tipo de análise requer um plano de marcação impecável para coletar os dados mais confiáveis ​​e precisos possíveis e, em última análise, os dados coletados são o resultado de cada ação e evento em um site.

Após várias reclamações, a CNIL decidiu notificar o Google Analytics, tornando-o ilegal na França, por enquanto. Esta sanção vem da aparente falta de supervisão sobre a transferência de dados pessoais para os serviços de inteligência nos Estados Unidos, embora as informações dos visitantes tenham sido previamente coletadas com consentimento. A evolução deve ser acompanhada de perto.

Neste contexto atual, com acesso limitado ou inexistente ao Google Analytics, pode ser interessante olhar para outras opções de coleta de dados. Uma compilação de eventos históricos de um site e relativamente simples de recuperar, os arquivos de log são uma ótima fonte de informação.

Apesar de os arquivos de log fornecerem acesso a um arquivo interessante de informações para análise, eles não nos permitem exibir valores de negócios ou o comportamento real de um visitante do site, como a navegação do site desde o início até o momento em que ele valida um carrinho de compras ou sai do local. O aspecto comportamental permanece específico para as ferramentas mencionadas acima, no entanto; a análise de log pode nos ajudar a ir muito longe.

Entendendo os arquivos de log

O que são arquivos de log? Logs são um tipo de arquivo cuja principal missão é armazenar um histórico de eventos.

De que tipo de eventos estamos falando? Essencialmente, 'eventos' são os visitantes e robôs que acessam seu site todos os dias.

O Google Search Console também pode coletar essas informações, mas por vários motivos – em particular, motivos de privacidade – ele aplica um filtro muito específico.

(Fonte: https://support.google.com/webmasters/answer/7576553. “Diferenças entre o Search Console e outras ferramentas”.)

Consequentemente, você terá apenas uma amostra do que uma análise de log pode fornecer. Com os arquivos de log, você tem acesso a 100% dos dados!

Analisar as linhas dos arquivos de log pode ajudá-lo a priorizar suas ações futuras.

Aqui estão alguns exemplos de visitas anteriores ao site Oncrawl de diferentes robôs:

O FACEBOOK:

66.220.149.10 www.oncrawl.com - [07/Feb/2022:00:18:35 +0000] "GET /feed/ HTTP/1.0" 200 298008 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)"

SEMRUSH:

185.191.171.20 fr.oncrawl.com - [13/Feb/2022:00:18:27 +0000] "GET /infographie/mises-jour-2017-algorithme-google/ HTTP/1.0" 200 50441 "-" "Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)"

BING:

207.46.13.188 www.oncrawl.com - [22/Jan/2022:00:18:40 +0000] "GET /wp-content/uploads/2018/04/url-detail-word-count.png HTTP/1.0" 200 156829 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

GOOGLE BOT:

66.249.64.6 www.oncrawl.com - [21/Jan/2022:00:19:12 +0000] "GET /product-updates/introducing-search-console-integration-skyrocket-organic-search/ HTTP/1.0" 200 73497 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Observe que algumas visitas de bots podem ser falsas. É importante lembrar de verificar os endereços IP para saber se são visitas reais do Googlebot, Bingbot etc. Por trás desses falsos agentes de usuário, pode haver profissionais que às vezes lançam robôs para acessar seu site e verificar seus preços, seu conteúdo ou outros informações que acharem úteis. Para reconhecê-los, apenas o IP será útil!

Aqui estão alguns exemplos de visitas ao site Oncrawl por usuários da Internet:

Do Google.com:

41.73.11x.xxx fr.oncrawl.com - [13/Feb/2022:00:25:29 +0000] "GET /seo-technique/predire-trafic-seo-prophet-python/ HTTP/1.0" 200 57768 "https://www.google.com/" "Mozilla/5.0 (Linux; Android 10; Orange Sanza touch) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.98 Mobile Safari/537.36"

Dos UTMs do Google Ads:

199.223.xxx.x www.oncrawl.com - [11/Feb/2022:15:18:30 +0000] "GET /?utm_source=sea&utm_medium=google-ads&utm_campaign=brand&gclid=EAIaIQobChMIhJ3Aofn39QIVgoyGCh332QYYEAAYASAAEgLrCvD_BwE HTTP/1.0" 200 50423 "https://www.google.com/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36"

Do LinkedIn, graças ao referenciador:

181.23.1xx.xxx www.oncrawl.com - [14/Feb/2022:03:54:14 +0000] "GET /wp-content/uploads/2021/07/The-SUPER-SEO-Game-Building-an-NLP-pipeline-with-BigQuery-and-Data-Studio.pdf HTTP/1.0" 200 3319668 "https://www.linkedin.com/"

[Ebook] Quatro casos de uso para aproveitar a análise de log de SEO

Saiba como os arquivos de log, como a única referência confiável para o tráfego do site, podem fornecer respostas fáceis para perguntas difíceis de SEO.
Download de graça

Por que analisar o conteúdo do log?

Agora que sabemos o que os logs realmente contêm, o que podemos fazer com isso? A resposta: analise-os, como qualquer outra ferramenta de análise.

Bots ou robôs

Aqui, podemos nos fazer a seguinte pergunta:

Quais robôs passam mais tempo no meu site?

Se focarmos nos motores de busca, com uma visão detalhada de cada bot, eis o que podemos ver:

Fonte: aplicativo Oncrawl

Claramente, o Google Mobile e o Desktop gastam muito mais tempo rastreando do que os bots do Bing ou Yandex. O Googlebot tem uma participação de mercado global de mais de 90%.

Se o Google rastrear minhas páginas, elas serão indexadas automaticamente? Não, não necessariamente.

Se voltarmos alguns anos, o Google empregou um reflexo automático para indexar páginas diretamente após visitá-las. Hoje, já não é assim, dado o volume de páginas que tem de processar. Como resultado, ocorre uma batalha de SEO em relação ao orçamento de rastreamento.

Dito isso, você pode perguntar: qual o sentido de saber qual bot passa mais tempo do que outro no meu site?

A resposta a essa pergunta depende dos algoritmos de cada um dos bots. Eles são um pouco diferentes e não retornam necessariamente pelos mesmos motivos.

Cada mecanismo de pesquisa tem seu próprio orçamento de rastreamento, que é dividido entre esses bots . Em outras palavras, isso significa que o Google divide seu orçamento de rastreamento entre todos esses bots. Portanto, torna-se bastante interessante olhar um pouco mais de perto o que o GooglebotAds faz, especialmente se tivermos 404s por aí. Limpá-los é uma maneira de otimizar o orçamento de rastreamento e, finalmente, seu SEO.

Analisador de registro do Oncrawl

Análise de arquivo de log para monitoramento de bot e otimização de orçamento de rastreamento. Detecte problemas de integridade do site e melhore sua frequência de rastreamento.
Saber mais

Referência cruzada de dados do Googlebot com dados do Oncrawl Crawler

Para aprofundar a análise do comportamento do Googlebot, o Oncrawl faz referências cruzadas de dados de registro com dados de rastreamento para obter as informações mais detalhadas e precisas.

O objetivo também é afirmar ou refutar as hipóteses vinculadas a diversos KPIs como profundidade, conteúdo, desempenho, etc.

Assim, você deve se fazer as perguntas certas:

  • O Googlebot rastreia todas as páginas do seu site? Interesse-se pela taxa de rastreamento que fornece claramente essas informações que você também pode filtrar com uma segmentação de suas páginas.

Fonte: aplicativo Oncrawl

  • Em qual categoria o Googlebot gasta seu tempo? Esse é um uso ideal do orçamento de rastreamento? Este gráfico no Relatório de Impacto de SEO do Oncrawl cruza os dados e fornece essas informações.

Fonte: aplicativo Oncrawl

  • Também podemos ter dúvidas fora do âmbito do que o relatório de rastreamento Oncrawl oferece por padrão. Por exemplo, o tamanho da descrição tem impacto no comportamento do Googlebot? Temos os dados sobre isso graças ao rastreamento, para que possamos usá-lo para criar uma segmentação como abaixo:

Fonte: aplicativo Oncrawl

Descrições muito curtas são rastreadas muito menos do que aquelas que têm o tamanho ideal designado como “perfeito” ou “bom” aqui pelo aplicativo Oncrawl (entre 110 e 169 caracteres).

Se a descrição atender aos critérios de relevância e tamanho, entre outros, o Googlebot terá prazer em aumentar seu orçamento de rastreamento em páginas relevantes.

Observação: as páginas consideradas muito longas às vezes são reescritas pelo Google.

Analise as visitas ao site usando logs

A seguir, se olharmos para o exemplo do SEO, já que é isso que estamos tentando analisar com o Oncrawl, sugiro que você se faça outra pergunta:

  • Qual é a correlação entre o comportamento do Googlebot e as visitas de SEO?

Oncrawl tem os mesmos gráficos para cruzar os dados entre o rastreamento e as visitas de SEO recuperadas nos logs.

Fonte: aplicativo Oncrawl

A resposta é muito clara: as páginas que têm um comprimento de descrição “perfeito” são as que parecem gerar mais visitas de SEO. Devemos, portanto, concentrar nossos esforços neste eixo. Além de “alimentar” o Googlebot, os usuários parecem apreciar a relevância da descrição.

O aplicativo Oncrawl fornece dados semelhantes para muitos outros KPIs. Sinta-se à vontade para verificar suas hipóteses!

Para concluir

Agora que você conhece e entende a possibilidade de explorar o que acontece em seu site todos os dias graças aos logs, encorajo você a analisar os internautas e as visitas de robôs para encontrar várias maneiras de otimizar seu site. As respostas podem ser técnicas ou relacionadas ao conteúdo, mas lembre-se de que uma boa segmentação é a chave para uma boa análise.

Entretanto, esse tipo de análise não é possível com as ferramentas do Google Analytics; seus dados às vezes podem ser confundidos com os do nosso rastreador. Ter o máximo de dados possível à sua disposição também é uma boa solução.

Para aproveitar ainda mais seus dados de log e análises de rastreamento, fique à vontade para dar uma olhada em um estudo realizado pela equipe Oncrawl que compila 5 KPIs de SEO relacionados a logs em sites de comércio eletrônico.