Como definir o orçamento de rastreamento?

Publicados: 2016-09-14

Todos nós falamos sobre isso como SEOs, mas como o orçamento de rastreamento realmente funciona? Sabemos que o número de páginas que os mecanismos de pesquisa rastreiam e indexam quando visitam os sites de nossos clientes tem correlação com o sucesso na pesquisa orgânica, mas ter um orçamento de rastreamento maior é sempre melhor?

Como tudo no Google, não acho que a relação entre o orçamento de rastreamento de seus sites e o desempenho de classificação/SERP seja 100% direta, depende de vários fatores.

Por que o orçamento de rastreamento é importante? Por causa da atualização de cafeína de 2010. Com esta atualização, o Google reconstruiu a maneira como indexava o conteúdo, com indexação incremental. Apresentando o sistema 'percolator', eles removeram o 'gargalo' das páginas sendo indexadas.

Como o Google determina o orçamento de rastreamento?

É tudo sobre o seu PageRank, Citation Flow e Trust Flow.

Por que não mencionei Autoridade de Domínio? Honestamente, na minha opinião, é uma das métricas mais mal utilizadas e incompreendidas disponíveis para SEOs e profissionais de marketing de conteúdo que tem seu lugar, mas muitas agências e SEOs valorizam muito isso, especialmente ao criar links.

O PageRank está agora, é claro, desatualizado, especialmente porque eles deixaram a barra de ferramentas, então é tudo sobre a taxa de confiança de um site (Trust Ratio = Trust Flow/Citation Flow). Essencialmente, os domínios mais poderosos têm orçamentos de rastreamento maiores, então como você identifica a atividade do bot do Google em seu site e, mais importante, identifica quaisquer problemas de rastreamento de bot? Arquivos de log do servidor.

Agora todos nós sabemos que, para indicar páginas ao bot do Google que indexamos (e classificamos), usamos estrutura de links internos e os mantemos próximos ao domínio raiz, não 5 subpastas ao longo do URL. Mas e as questões mais técnicas? Como rastreamento de desperdício de orçamento, armadilhas de bots ou se o Google está tentando preencher formulários no site (isso acontece).

Identificando a atividade do rastreador

Para fazer isso, você precisa colocar as mãos em alguns arquivos de log do servidor. Você pode precisar solicitá-los ao seu cliente ou baixá-los diretamente da empresa de hospedagem.

A ideia por trás disso é que você quer tentar encontrar um registro do bot do Google atingindo seu site – mas como este não é um evento programado, você pode precisar de alguns dias de dados. Existem vários softwares disponíveis para analisar esses arquivos.

Abaixo está um exemplo de hit para um servidor Apache:

50.56.92.47 – – [31/maio/2012:12:21:17 +0100] “GET” – “/wp-content/themes/wp-theme/help.php” – “404” “-” “Mozilla/ 5.0 (compatível; Googlebot/2.1; +http://www.google.com/bot.html)” – www.hit-example.com

A partir daqui, você pode usar ferramentas (como OnCrawl) para analisar os arquivos de log e identificar problemas como o rastreamento de páginas PPC do Google ou solicitações GET infinitas para scripts JSON – ambos podem ser corrigidos no arquivo Robots.txt.

Quando o orçamento de rastreamento é um problema?

O orçamento de rastreamento nem sempre é um problema. Se seu site tiver muitos URLs e uma alocação proporcional de 'rastreamentos', tudo bem. Mas e se seu site tiver 200.000 URLs e o Google rastrear apenas 2.000 páginas em seu site por dia? Pode levar até 100 dias para o Google perceber URLs novos ou atualizados – agora isso é um problema.

Um teste rápido para ver se seu orçamento de rastreamento é um problema é usar o Google Search Console e o número de URLs em seu site para calcular seu 'número de rastreamento'.

  • Primeiro você precisa determinar quantas páginas existem em seu site, você pode fazer isso fazendo um site: search, por exemplo oncrawl.com tem aproximadamente 512 páginas no índice:

  • Em segundo lugar, você precisa acessar sua conta do Google Search Console e ir para Crawl e, em seguida, Crawl Stats. Se sua conta GSC não foi configurada corretamente, talvez você não tenha esses dados.
  • O terceiro passo é pegar o número médio de “Páginas rastreadas por dia” (o do meio) e o número total de URLs em seu site e dividi-los:

Total de páginas no site / média de páginas rastreadas por dia = X

Se X for maior que 10, você precisa otimizar seu orçamento de rastreamento. Se for menor que 5, bravo. Você não precisa ler.

Otimizando sua capacidade de 'orçamento de rastreamento'

Você pode ter o maior orçamento de rastreamento da internet, mas se não souber como usá-lo, não vale a pena.

Sim, é um clichê, mas é verdade. Se o Google rastreia todas as páginas do seu site e descobre que a maioria delas está duplicada, em branco ou carregando tão lentamente que causa erros de tempo limite, seu orçamento pode ser zero.

Para aproveitar ao máximo seu orçamento de rastreamento (mesmo sem acesso aos arquivos de log do servidor), você precisa fazer o seguinte:

Remover páginas duplicadas

Muitas vezes, em sites de comércio eletrônico, ferramentas como OpenCart podem criar várias URLs para o mesmo produto, já vi instâncias do mesmo produto em 4 URLs com subpastas variadas entre o destino e a raiz.

Você não deseja que o Google indexe mais de uma versão de cada página, portanto, certifique-se de ter as tags canônicas que apontam o Google para a versão correta.

Resolver links quebrados

Use o Google Search Console, ou software de rastreamento, e encontre todos os links internos e externos quebrados em seu site e corrija-os. Usar 301s é ótimo, mas se forem links de navegação ou links de rodapé quebrados, basta alterar o URL para o qual estão apontando sem depender de um 301.

Não escreva páginas finas

Evite ter muitas páginas em seu site que oferecem pouco ou nenhum valor para os usuários ou mecanismos de pesquisa. Sem contexto, o Google acha difícil classificar as páginas, o que significa que elas não contribuem em nada para a relevância geral do site e são apenas passageiros ocupando o orçamento de rastreamento.

Remova as cadeias de redirecionamento 301

Redirecionamentos em cadeia são desnecessários, confusos e incompreendidos. As cadeias de redirecionamento podem prejudicar seu orçamento de rastreamento de várias maneiras. Quando o Google alcança um URL e vê um 301, ele nem sempre o segue imediatamente, mas adiciona o novo URL a uma lista e depois o segue.

Você também precisa garantir que seu sitemap XML (e HTML sitemap) seja preciso e, se seu site for multilíngue, certifique-se de ter sitemaps para cada idioma do site. Você também precisa implementar arquitetura de site inteligente, arquitetura de URL e acelerar suas páginas. Colocar seu site atrás de um CDN como o CloudFlare também seria benéfico.

TL;DR:

O orçamento de rastreamento como qualquer orçamento é uma oportunidade, você está em teoria usando seu orçamento para ganhar tempo que o Googlebot, Bingbot e Slurp gastam em seu site, é importante que você aproveite ao máximo esse tempo.

A otimização do orçamento de rastreamento não é fácil e certamente não é uma "vitória rápida". Se você tem um site pequeno, ou um site de tamanho médio que é bem mantido, provavelmente está bem. Se você tem um site gigante com dezenas de milhares de URLs e os arquivos de log do servidor passam por cima da sua cabeça, talvez seja hora de chamar os especialistas.

Inicie o seu teste gratuito