Como otimizar seu orçamento de rastreamento
Publicados: 2017-07-05Em maio, realizamos um webinar em francês sobre o orçamento de rastreamento do Google. Para seu segundo webinar com OnCrawl, Erle Alberton, ex-chefe de SEO da Orange & Sosh (um provedor de Internet francês) e agora Gerente de Sucesso do Cliente da OnCrawl, apresenta o conceito de orçamento de rastreamento, as melhores práticas para otimizá-lo, o que evitar, etc. exemplos ilustrarão esse conceito que foi recentemente confirmado pela equipe do Google.
O que o Google diz sobre o orçamento de rastreamento
Em meados de janeiro, o Google postou um artigo em seu blog afirmando: “não temos um único termo que descreva tudo o que “orçamento de rastreamento” representa externamente. ” Em outras palavras, o que nós, SEOs, consideramos como o orçamento de rastreamento.
O gigante da web também indica que, se suas novas páginas geralmente são rastreadas no mesmo dia da publicação, você não precisa se preocupar com o orçamento do rastreamento. Ele também afirma que, se um site tiver menos de alguns milhares de URLs, ele será rastreado corretamente, pois o orçamento de rastreamento geralmente é reservado para sites de alto volume... Isso é certo e errado porque todos os sites no Google Search Console têm um orçamento de rastreamento. Podemos ver isso facilmente nas métricas do Google.
Também descobrimos neste artigo que o Google está tentando atingir um “limite de taxa de rastreamento” que limita a taxa máxima de busca para um determinado site. Podemos ver que, por exemplo, quando um tempo de carregamento é muito longo, o Google corta seu orçamento quase em 2. Com isso dito, existem fatores que podem impactar o orçamento de rastreamento, como arquitetura ruim (sistema, códigos de status, estrutura interna ), conteúdo ruim e/ou duplicado, armadilhas de aranha, etc.
Como funciona o orçamento de rastreamento do Google?
O rastreamento do Google é um conjunto de etapas simples que opera recursivamente para cada site. Aqui está um gráfico do Google onde vemos que o rastreamento começa com um hit em um robô txt e depois se separa em um conjunto de URLs que são compilados em uma lista. Depois, o Google tenta buscá-los comparando com os URLs que ele já conhece, além dos que já possui em backup.
Seu objetivo é completar seu índice de forma exaustiva e precisa. Vemos que mesmo que o site esteja em JavaScript, o Google enviará rastreadores de terceiro nível. Você ainda deve ter cuidado com sites JavaScript, pois eles consomem muitos recursos de bots e são enviados em média apenas uma vez por trimestre. Precisamos repensar nosso método para que o Google tenha acesso a páginas fora de uma navegação JavaScript.
O Google então verificará o status da atualização da página (comparação com o conteúdo indexado anteriormente) para avaliar se a página é importante ou menos importante. De fato, o Google precisa otimizar seus recursos de rastreamento porque não pode rastrear todas as páginas de todos os sites. Chama-se importância da página… é uma pontuação muito importante a seguir e que veremos em detalhes abaixo!
Fato: se o Google otimiza, é porque há um motivo
O orçamento de rastreamento depende de:
- Capacidade do site em responder rapidamente;
- Sanidade do site – 4xx, 5xx, 3xx (quando um site passa a ter 404s ou 500s, o orçamento do rastreamento será afetado, pois sempre verificará se as correções foram feitas);
- Qualidade do conteúdo – semântica e exaustividade;
- A diversidade do Anchor (uma página é considerada importante quando recebe muitos links. Com o InRank do OnCrawl você pode analisar tudo);
- Popularidade da página – externa e interna;
- Fatores otimizáveis – simplifique o rastreamento (reduza o tamanho da imagem, capacidade de ter css, js, gif, fontes, etc.)
[Estudo de caso] Aumente o orçamento de rastreamento em páginas estratégicas
Os principais componentes do Google Page Importance
A definição de importância da página não é a mesma que o Page Rank:
- Localização da página no site – profundidade na taxa de rastreamento;
- Page Rank: TF/CF da página – Majestic;
- Page Rank Interno – InRank do OnCrawl;
- Tipo de documento: PDF, HTML, TXT (PDF geralmente é um documento qualitativo final, então é muito rastreado);
- Inclusão no sitemap.xml;
- Número de links internos:
- Qualidade/importância da âncora;
- Conteúdo qualitativo: número de palavras, poucas quase duplicatas (o Google penalizará conteúdo semelhante se as páginas estiverem muito próximas em conteúdo);
- Importância da página “home”.
Como planejar URLs importantes para rastrear
Agendamento de URL: quais páginas o Google deseja visitar e com que frequência?
No exemplo acima (observação de uma frequência de rastreamento de um mesmo site) o Google não rastreia com a mesma frequência nos diferentes grupos. Vemos que quando o Google rastreia parte do site, o impacto do ranking é visto rapidamente.
Mais informações sobre o orçamento de rastreamento do Google
- 100% dos sites do Google Search Console têm dados de rastreamento;
- Podemos acompanhar seu comportamento de rastreamento graças a uma análise de log que ajuda a detectar rapidamente uma anormalidade no comportamento do bot;
- Uma estrutura interna ruim (paginação, páginas órfãs, spider traps) pode impedir o Google de rastrear as páginas certas;
- O orçamento de rastreamento está diretamente ligado à classificação.
Velocidade da página em primeiro lugar
O fator mais importante é o tempo de carregamento de uma página, pois desempenha um papel decisivo no orçamento de rastreamento. Na verdade, estamos hoje em um mundo móvel. Seu melhor recurso é, portanto, o tempo de carregamento da página para otimizar seu orçamento de rastreamento e seu SEO. Com a revolução móvel, o tempo de carregamento é um fator essencial na avaliação da qualidade de um site. Sua capacidade de responder rapidamente – especialmente para dispositivos móveis e indexar primeiro os dispositivos móveis.
Para otimizá-lo, podemos utilizar soluções CDN (Content Delivery Network) como Cloudflare. Essas soluções permitem que os robôs do Google estejam o mais próximo possível dos recursos e carreguem as páginas o mais rápido possível.
O Google testa constantemente a capacidade de um site responder rapidamente. A arquitetura e a qualidade da codificação têm um forte impacto na notação do Google.
Tempo de carregamento
É o primeiro fator de alocação do orçamento de rastreamento!
Em termos de servidor , você precisa:
- Evite redirecionamentos;
- Autorize a compactação;
- Melhore o tempo de resposta.
Acima, um exemplo com o site da Manageo que tinha um orçamento de rastreamento linear e onde podemos ver um aumento linear. Em maio, há uma queda no número de páginas rastreadas por dia e, consequentemente, uma mudança na velocidade do site. O Google vê que o site responde com menos rapidez, então reduz pela metade seu orçamento de rastreamento. Para corrigir tudo isso, você precisa otimizar seus códigos no lado do servidor, reduzir redirecionamentos, usar compactação e assim por diante.
Na frente , você precisa:
- Operar o cache do navegador
- Reduza o tamanho dos recursos (otimização de imagem, use CDN/carregamento lento/exclua JS que bloqueiam a exibição;
- Use scripts assíncronos.
Queda na qualidade = não há mais amor = não há mais orçamento
É necessário verificar os códigos de status enviados de volta aos robôs do Google para garantir que o IS esteja limpo. Essa é a única maneira de o Google validar que a qualidade do seu código e sua arquitetura estão limpas.
Acompanhar sua evolução ao longo do tempo garante que as atualizações de código sejam amigáveis para SEO. O Google gasta muito em recursos (css, img, js), portanto, certifique-se de que eles sejam perfeitos.
Conteúdo único e rico
Mais importante é uma página, mais rico é o seu texto. Conforme mostrado acima, o número de páginas rastreadas e não rastreadas pelo Google está relacionado ao número de palavras que estão na página. Suas páginas devem, portanto, ser aprimoradas e atualizadas com a maior regularidade possível.
Cuidado com canônicos e conteúdo duplicado
O Google gastará o dobro do orçamento quando duas páginas semelhantes não apontarem para o mesmo URL canônico. Assim, o gerenciamento canônico pode se tornar crítico para sites com facetas ou links externos com queryString.
O gerenciamento de conteúdo quase duplicado e canônico tornam-se aspectos importantes da otimização do orçamento de rastreamento.
Estrutura interna e distribuição InRank
As páginas que geram visitas de SEO são consideradas ativas. Estes são os que estão no topo da arquitetura do site. Por outro lado, vemos aqui que na página 15 está surgindo um conjunto de páginas. Talvez essas páginas sejam muito mais pesquisadas por seus usuários do que você imaginava e precisariam ser atualizadas na arquitetura para melhorar sua classificação.
Como sabemos, quanto mais profundas forem as páginas, menos o Google as visitará!
Minhas páginas de dinheiro estão bem localizadas?
Dica: Se você deseja otimizar a profundidade de determinados grupos de páginas, não hesite em criar planos de site html, ou seja, páginas cruciais para gerenciar sua profundidade.
O Google irá comparar as páginas da sua estrutura com as rastreadas e com as ativas. Dito isso, seria vantajoso para você resolver o problema de páginas órfãs para as quais o Google gasta desnecessariamente orçamento e corrigir a arquitetura do site para retornar links para páginas ativas, mas fora de estrutura.
Às vezes, as páginas não recebem mais links, são chamadas de páginas órfãs. Por outro lado, o Google não se esqueceu deles. Ele continuará a visitá-los. Eles não recebem mais links e perdem importância, mas no gráfico certo, algumas páginas órfãs continuam recebendo visitas de SEO. O que você precisa saber é como identificá-los rapidamente e corrigir os problemas de vinculação que estão na arquitetura. Essa é uma ótima maneira de otimizar seu orçamento de rastreamento.
Erros para ficar longe
- Robots.txt em 404;
- Sitemap.xml & sitemap.html desatualizados;
- 50x / 40x / erros 404 suaves;
- Ter redirecionamentos em cadeia;
- Erros canônicos;
- Conteúdo duplicado (rodapé) / quase duplicado / HTTP vs HTTPS;
- Tempo de resposta muito longo;
- Peso da página muito importante;
- AMP/ erros. Este protocolo é amplamente utilizado pelo Google especialmente para sites de comércio eletrônico (não apenas sites de mídia);
- Ligação interna ruim + Rel=nofollow;
- Usando JS sem qualquer outra alternativa.
Conclusões
Para otimizar seu orçamento de rastreamento, você precisa:
- Conheça suas páginas de dinheiro e conheça as reações do Google;
- Melhorar o tempo de carregamento;
- Otimize seus links internos: coloque todas as suas páginas de dinheiro no topo da estrutura;
- Corrija suas páginas órfãs;
- Adicione texto às suas páginas de dinheiro;
- Atualize ao máximo suas páginas de dinheiro – frescura;
- Reduza seu conteúdo ruim e duplicatas;
- Otimize seus canônicos, imagens, peso de recursos;
- Evite redirecionamentos em cadeia;
- Monitore seus logs e reaja quando houver anormalidades (confira este caso de uso da Manageo durante o SEOcamp Lyon sobre o tópico).
Para otimizar seu orçamento de rastreamento, você precisa monitorar precisamente o rastreador do Google
Alguns momentos do caminho do Google em seu site são mais importantes que outros, então você precisa saber otimizá-los.
Para otimizar seu orçamento de rastreamento, é necessário gerenciar corretamente sua migração HTTPS (HTTP2)
Você precisa ser capaz de segui-lo e monitorá-lo. Desafie suas equipes de TI a migrar para HTTP2 com HTTPS.
O OnCrawl ajuda você a rastrear o orçamento de rastreamento do Google diariamente e direciona rapidamente as correções e alterações estruturais para melhorar seu desempenho de SEO.