Relatório de estatísticas de rastreamento do Google x análise do arquivo de log: qual é o vencedor?
Publicados: 2020-12-22Em 24 de novembro, o Google lançou uma nova versão do relatório Search Console Crawl Stats. Esta atualização fornece dados que você pode usar para depurar problemas de rastreamento e verificar a integridade do seu site.
A versão anterior indica apenas o número de páginas rastreadas por dia, kilobytes baixados por dia, tempo gasto baixando páginas por dia.
Com esta nova versão, as mesmas informações estão disponíveis com uma aparência atualizada para corresponder ao restante do Search Console:
Mas não para por aí. O Google fornece muito mais informações sobre como eles rastreiam seu site. E com tantas informações disponíveis diretamente do Google, surge a pergunta: ainda precisamos de arquivos de log?
Vamos começar analisando o novo relatório em si.
Tudo o que você precisa saber sobre o Relatório de estatísticas de rastreamento do Google Search Console
Onde você pode encontrar o novo Relatório de estatísticas de rastreamento?
O novo relatório de estatísticas de rastreamento está disponível automaticamente para qualquer pessoa com uma conta do Google Search Console.
Faça login no Search Console e navegue até “Configurações” na barra lateral esquerda. Em seguida, clique em “Estatísticas de rastreamento”.
O que há no novo Relatório de estatísticas de rastreamento?
Para ajudá-lo a encontrar o caminho nas novas e extensas informações, recomendamos o passo a passo de Tomek Rudzki no Twitter:
As novas estatísticas de rastreamento do GSC são incríveis!
A primeira captura de tela é semelhante à versão anterior do relatório, mas há preciosidades ocultas em outros relatórios
1/n pic.twitter.com/oCNzMhnGsQ— Tomek Rudzki (@TomekRudzki) 24 de novembro de 2020
Tomek destaca novos dados e casos de uso de SEO para cada um:
- Hosts com mais acessos do Googlebot: encontre os subdomínios que são rastreados com mais frequência pelo Google.
- Códigos de status retornados ao Googlebot: descubra qual porcentagem de seu orçamento de rastreamento é usada por respostas não 200 (ou seja: redirecionamentos, páginas ausentes e erros).
- Tipo de arquivo: entenda com que frequência o Googlebot solicita arquivos de recursos, como arquivos CSS, arquivos JavaScript e imagens.
- O objetivo da visita do Googlebot: saber se o Google está descobrindo novos conteúdos ou atualizando conteúdos que já conhece.
- A divisão entre as solicitações feitas pelo smartphone Googlebot e aquelas feitas pelo desktop Googlebot: confirme se seu site está pronto para a mudança completa para o Mobile-First Indexing em março de 2021.
- Uma amostra de URLs rastreados: tenha uma ideia de alguns dos URLs rastreados recentemente em seu site.
- Status do host: uma nova métrica que mostra se seu servidor teve problemas recentemente. Por exemplo, isso leva em consideração a disponibilidade do robots.txt e a resolução de DNS.
Nossas três coisas favoritas sobre o Relatório de estatísticas de rastreamento
Há muitos benefícios oferecidos pelo Relatório de estatísticas de rastreamento para listá-los todos, principalmente se você não tiver acesso aos arquivos de log. Mas aqui estão os nossos três principais:
1. Este relatório destina-se a todos.
Ele fornece estatísticas de rastreamento do Googlebot de alto nível e fáceis de ler. Fica claro quando as coisas estão indo bem e quando há problemas que precisam ser resolvidos. Em alguns casos, vai ainda mais longe: por exemplo, fornece dicas como os indicadores de status verde/amarelo/vermelho para o status do host.
Mesmo que você seja novo no bot e rastreamento de rastreamento de orçamento, você não deve se perder ao analisar esses relatórios.
2. A documentação é ótima.
A documentação não apenas responde a 99% de suas perguntas, mas também fornece práticas recomendadas e dicas para a integridade do servidor, sinais de alerta, gerenciamento de frequência de rastreamento e discussão básica do googlebot.
3. Dados sobre o "porquê" por trás das solicitações do Googlebot
Podemos rastrear o Googlebot, mas muitas conclusões sobre por que o Google está visitando uma página precisam ser tiradas com base em dados limitados. A seção Rastrear por finalidade e as solicitações de renderização visíveis em "Carregamento de recursos de página" fornecem uma resposta não ambígua a algumas de nossas perguntas. Agora sabemos com certeza se o Google está descobrindo uma página, atualizando a página ou baixando um recurso em uma segunda passagem separada para renderizar a página.
[Estudo de caso] Gerenciando o rastreamento de bot do Google
Qual é a diferença entre as informações disponíveis nos arquivos de log e o Relatório de estatísticas de rastreamento?
As estatísticas de rastreamento são limitadas aos Googlebots
Estatísticas de rastreamento: 0
Registros: 1
Os arquivos de log do seu servidor registram todas as solicitações de qualquer um dos arquivos e recursos que compõem seu site, não importa de quem sejam. Isso significa que os registros podem informar mais do que apenas o Googlebot.
No entanto, o Relatório de estatísticas de rastreamento do Google é (naturalmente!) limitado à própria atividade do Google em seu site.
Aqui estão alguns dos insights que você pode obter de arquivos de log que não aparecem nas estatísticas de rastreamento:
- Informações sobre outros mecanismos de pesquisa, como o Bing. Você pode ver como eles rastreiam seu site, mas também como o comportamento deles difere ou se alinha com o do Googlebot:
Logflare é tão útil. Interessante ver o comportamento de rastreamento diferente do Googlebots em comparação com o Bingbots em registros ao vivo. O Googlebot vê 301 e, em seguida, o próximo URL retornado é o redirecionado para o URL, mas o Bingbot não parece fazer isso. Apenas vê o 301 e depois vai para outro lugar
— Dawn Anderson (@dawnieando) 22 de janeiro de 2020
- Informações sobre quais ferramentas (e concorrentes) estão tentando rastrear seu site. Como as informações disponíveis não se limitam ao Googlebot, você também pode ver se outros bots estão ativos em seu site.
- Informações sobre páginas de referência. Isso pode ajudá-lo a encontrar mais informações sobre seus backlinks mais ativos. Em HTTPS, a última página visitada, ou a “página de referência” também é registrada com cada solicitação.
- Informações sobre tráfego orgânico… e não apenas tráfego do Google! Usando páginas de referência, você pode identificar o tráfego das páginas de resultados do mecanismo de pesquisa e ver melhor como esses visitantes interagem com seu site. Esse tipo de informação pode ser usado para confirmar ou corrigir números fornecidos por sua solução do Analytics, se você usar uma.
- Identificação de páginas órfãs. Como seus logs contêm todos os URLs solicitados pelos visitantes, quaisquer páginas “ativas” com tráfego de bot ou humano que não estejam vinculadas na estrutura do seu site aparecerão em seus logs. Ao comparar uma lista de URLs em seus arquivos de log com uma lista de URLs na estrutura de seu site a partir de um rastreamento, será fácil identificar páginas órfãs.
Completo e atualizado?
Estatísticas de rastreamento: 0
Registros: 2
Seus dados estão completos e atualizados? Seus registros são. E suas estatísticas de rastreamento podem ser.
Muitas pessoas notaram rapidamente diferenças de 20 a 40% entre o relatório do Google Search Console e seus arquivos de log: o relatório Estatísticas de rastreamento subnotifica a atividade do Googlebot no momento. Este é um problema conhecido nas estatísticas de rastreamento, mas não nos seus registros!
Além disso, como todas as informações no Search Console, pode haver um atraso entre a última data disponível dos dados e a data de hoje. Até agora, vimos uma diferença de até oito dias no relatório de estatísticas de rastreamento.
Por outro lado, você pode usar seus arquivos de log para monitoramento em tempo real: nunca há atraso!
Listas agregadas versus listas completas de URLs rastreados
Estatísticas de rastreamento: 0
Registros: 3
As estatísticas de rastreamento fornecem dados agregados para todos os seus URLs. O relatório é equivalente a um painel. Ao procurar a lista de URLs por trás de uma determinada métrica, você verá uma lista de “exemplos”. Por exemplo, você pode ter algumas centenas de exemplos de suas solicitações de 4,56 mil para arquivos de imagem:
No entanto, nos arquivos de log, você tem uma lista completa das URLs por trás de qualquer métrica. Você pode ver TODAS as solicitações em seus logs, não apenas uma amostra.
Filtrando por regiões, datas, URLs…
Estatísticas de rastreamento: 0
Registros: 4
Para ser realmente útil, as estatísticas de rastreamento podem se beneficiar de filtros mais amplos que se aplicam a todas as solicitações, não apenas às amostras:
Seria ótimo ter mais flexibilidade para:
- Alterar o período que estamos analisando
- Concentre-se em uma determinada região geográfica por pesquisa de IP
- Melhor filtrar por grupos de URL
- Aplicar opções de filtro a gráficos
Você pode fazer tudo isso — e muito mais — em arquivos de log.
Informações específicas do Googlebot
Estatísticas de rastreamento: 1
Registros: 4
Como vimos, o Google usa o Relatório de estatísticas de rastreamento para fornecer informações sobre a finalidade do rastreamento:
- Atualizar vs Descoberta
- Recursos de página (uma busca secundária)
Essas informações não podem ser encontradas em nenhum outro lugar, não importa o quão inteligente você analise os dados em seus arquivos de log.
Fácil acesso
Estatísticas de rastreamento: 2
Registros: 4
O acesso ao relatório de estatísticas de rastreamento é simples: as estatísticas de rastreamento são disponibilizadas automaticamente para qualquer pessoa com acesso ao Search Console.
Tecnicamente, os arquivos de log também devem estar disponíveis para qualquer webmaster. Mas isso muitas vezes não é o caso. Muitas vezes, equipes de desenvolvimento, equipes de TI ou empresas clientes não entendem a importância de fornecer acesso a arquivos de log. Em áreas como a UE, onde as leis de privacidade restringem o acesso a “dados de identificação pessoal”, como endereços IP, o acesso a arquivos de log pode representar um problema legal. Você pode usar certas ferramentas, como OnCrawl, que não armazena informações confidenciais.
Uma vez que você tenha acesso aos arquivos de log, existem ferramentas gratuitas para analisar os dados e existem poucos formatos proprietários. Em outras palavras, os arquivos de log são uma fonte de dados bastante democrática... quando você coloca as mãos neles.
É um fato: muitos SEOs têm problemas para acessar os logs. Assim, embora, teoricamente, os arquivos de log forneçam acesso fácil aos dados, o ponto aqui vai para o Relatório de Estatísticas de Rastreamento, que está disponível em dois cliques na ferramenta gratuita do Google.
Analisador de registro do Oncrawl
Não (ainda) disponível para integração em outras ferramentas e análises
Estatísticas de rastreamento: 2
Registros: 5
O Google Search Console permite exportar e baixar as informações disponíveis por meio da interface da web do Relatório de estatísticas de rastreamento. Isso significa, no entanto, que as informações baixadas têm as mesmas limitações que as versões na tela.
Além disso, as estatísticas de rastreamento (ainda?) não estão disponíveis por meio da API, portanto, pode ser difícil conectar essas informações a processos automatizados para relatórios e análises ou até mesmo fazer backup para obter uma visão mais ampla dos dados históricos.
Com arquivos de log, armazenamento, acesso e reutilização geralmente dependem de você. Isso torna os arquivos de log muito mais fáceis de usar ao mesclar com outras fontes de dados, como rastreamento de classificação, dados de rastreamento ou dados de análise. Eles também são mais fáceis de integrar em fluxos de relatórios, painéis e visualização de dados.
O vencedor final: arquivos de log!
Com cinco pontos a apenas dois pontos para o relatório de estatísticas de rastreamento, os arquivos de log são o vencedor claro aqui se você quiser informações completas sobre como os mecanismos de pesquisa interagem com seu site.
Mas vamos ser claros: o relatório atualizado de estatísticas de rastreamento fornece muitas informações novas: códigos de status, tipos de arquivo, subdomínios (para propriedades de domínio), detalhes de status do host e muito mais. Ele fornece insights mais granulares e dados acionáveis para entender como seu site é rastreado e, agora, você pode acompanhar as alterações nos padrões de rastreamento.
Será um grande passo à frente para as pessoas que não conseguem acessar os arquivos de log deles ou de seus clientes.
No entanto, nem tudo são profissionais!
Prós e contras das novas estatísticas de rastreamento do GSC: https://t.co/bjpG7QjeVt
Prós:
+Métricas de dados atualizadas
+ Melhor UX (barra baixa TBH)
+Dados para download de URLs rastreados!
+Detalhamento de solicitações de rastreamento
+ Problemas importantes do host observadosContras:
-Sem filtros para intervalos de datas
-Sem opções de filtro para alterar os gráficos— Micah Fisher-Kirshner (@micahfk) 24 de novembro de 2020
A desvantagem do novo relatório é que, embora seja um bom painel para monitoramento do Googlebot e um ótimo complemento para complementar a análise do arquivo de log, ele é limitado de várias maneiras. Não se esqueça, apenas seus arquivos de log mostrarão todas as suas solicitações por URL, em vez de uma tendência agregada.
Além disso, há um problema conhecido no relatório do GSC em que algumas solicitações não são contadas no momento, e os dados podem levar até uma semana para aparecer no relatório de estatísticas de rastreamento. (No entanto, confiamos que o Google está trabalhando nesses problemas e eles desaparecerão em breve!)
Aqui está o que recomendamos: use este relatório para saber exatamente o que procurar em seus arquivos de log. E então mergulhe em sua análise de log!