[Webinar Digest] SEO em órbita: desvendando os segredos da indexação

Publicados: 2019-11-06

O webinar Unlocking the secrets of indexing faz parte da série SEO in Orbit e foi ao ar em 12 de junho de 2019. Neste episódio, Kevin Indig compartilha seus pensamentos sobre como indexar páginas, como as páginas indexadas para um site influenciam todo o site rankings e quais páginas não devem ser indexadas. Qual é a abordagem certa para essa etapa intermediária entre fazer com que as páginas sejam descobertas e fazê-las aparecer nas SERPs?

SEO in Orbit é a primeira série de webinars que envia SEO para o espaço. Ao longo da série, discutimos o presente e o futuro do SEO técnico com alguns dos melhores especialistas em SEO e enviamos suas principais dicas para o espaço em 27 de junho de 2019.

Assista a reprise aqui:

Apresentando Kevin Indig

Kevin Indig ajudou startups a adquirir mais de 100 milhões de usuários nos últimos 10 anos. Ele é VP SEO & CONTENT @ G2, um mentor para Growth @ GermanAccelerator, e dirigiu SEO @ Atlassian e Dailymotion anteriormente. Sua especialidade é aquisição de usuários, construção de marca e retenção de usuários. As empresas com as quais Kevin trabalhou incluem eBay, Eventbrite, Bosch, Samsung, Pinterest, Columbia, UBS e muitas outras. Ele também administra o boletim informativo de marketing técnico com curadoria, Tech Bound.

Este episódio foi apresentado por Rebecca Berbel, a gerente de conteúdo do OnCrawl. Fascinada por PNL e modelos de máquina de linguagem em particular, e por sistemas e como eles funcionam em geral, Rebecca nunca perde o interesse em assuntos técnicos de SEO. Ela acredita em evangelizar a tecnologia e usar dados para entender o desempenho do site nos mecanismos de pesquisa.

Definições

Uma das razões pelas quais é importante falar sobre indexação é que é um tópico complexo. Muitos SEOs lutam com a indexação e como influenciá-la.

É hora de outro teste de SEO.
Você cria uma nova página. Qual das seguintes opções o manterá fora do índice do Google?
A. Meta robots noindex
B. Bloco Robots.txt
C. Dando a página meta noindex *e* bloqueando-a em robots.txt
— Will Critchlow (@willcritchlow) 9 de junho de 2019

– Rastejando

O rastreamento em termos simples é o processo de descoberta técnica dos mecanismos de pesquisa que entendem uma página da Web e todos os seus componentes.

Isso ajuda o Google a encontrar todos os URLs que ele pode voltar e renderizar, indexar e, eventualmente, classificar.

– Processo de 3 etapas do Google

O rastreamento faz parte do processo de três etapas do Google que leva à criação de resultados de pesquisa:

Rastejando
Renderização
Indexação

Estes são processos tecnicamente diferentes, manipulados por diferentes programas ou partes do mecanismo de pesquisa.

A classificação é potencialmente uma quarta etapa nesse processo.

– Indexação

A indexação é o processo do Google adicionar URLs à sua longa “lista” de resultados possíveis. Se Kevin tiver que evitar a palavra “índice” em uma definição de indexação, ele prefere falar sobre uma “lista” metafórica: o Google tem uma “lista” de URLs que pode usar para classificar e mostrar os melhores resultados aos usuários .

– Arquivos de registro

Os servidores da Web mantêm um histórico sempre que alguém ou alguma coisa solicita uma página ou um recurso no servidor.

Kevin é realmente apaixonado por arquivos de log como uma fonte de verdade quando se trata de entender como o Google rastreia e renderiza seu site.

Nos logs, podemos encontrar informações do servidor sobre a frequência com que o Google visita seu site e o que ele faz lá, em termos muito claros e simples. Os arquivos de log contêm registros individuais de cada visita ao site.

Você pode obter uma tonelada de informações de arquivos de log:

Erros de código de status específicos
Problemas com rastreamento
Problemas com renderização
Quanto tempo o Googlebot passa no seu site
Quais Googlebots chegam ao seu site. Por exemplo, com o índice Mobile First, o Googlebot principal usado para indexação foi atualizado recentemente.
Se a estrutura técnica do seu site é algo que o Google segue ou se você tem algo que pode ser otimizado.

Maneiras de verificar a indexação

– Não recomendado: consultas “site:”

Quando Kevin começou em SEO, cerca de 10 anos atrás, ele veria quais páginas em seu site eram indexadas executando pesquisas “site:” no Google. Embora ele ainda use isso às vezes, não é mais uma maneira confiável de descobrir se um URL está indexado.

Mais recentemente, ele perguntou a John Mueller sobre essa estratégia; ele verificou que essa não é mais a maneira recomendada de verificar o que o Google indexou ou não.

– Recomendado: inspeção de URL do Search Console

John Mueller recomenda usar a Ferramenta de inspeção de URL no Search Console para verificar o que foi indexado.

A página em cache nem sempre é representativa do que está indexado, e geralmente é apenas o HTML estático que foi buscado (se houver JavaScript nele, ele geralmente não é executado na hospedagem em cache). Eu me concentraria mais na ferramenta de inspeção de URL.
— ???? John ???? (@JohnMu) 8 de maio de 2019

– Recomendado: Sitemaps XML e o Relatório de Cobertura

O envio de um sitemap XML no Search Console é uma maneira de verificar um lote de seus URLs e, em seguida, verificar o sitemap no Relatório de cobertura no console de pesquisa.

Importância na distinção entre índice de renderização de rastreamento

Conforme mencionado, há um processo de três etapas no qual o Google rastreia, renderiza e indexa uma página. É muito importante distinguir entre cada uma dessas etapas. À medida que a web se torna mais sofisticada, o Google teve que se adaptar, separando e aprimorando esses processos individualmente.

Diferentes Googlebots

Vários Googlebots são usados pelo Google para rastrear e renderizar sites. Você tem diferentes tipos de recursos: imagens, vídeos, notícias, texto… O Google usa diferentes Googlebots para entender cada tipo de conteúdo.

O Google anunciou há cerca de um mês que atualizou seu mecanismo de renderização para rodar no Googlebot evergreen e no mais recente mecanismo Chromium.

Isso é importante, pois o rastreamento e a renderização são etapas necessárias que levam à indexação.

Alterando prioridades no processo do Google

Para fins de indexação, o Google costumava rastrear com o Googlebot para desktop. Isso foi mudado; eles agora usam o smartphone Googlebot para fins de indexação.

A indexação Mobile-First será imposta a partir de julho de 2019 para todos os novos sites e está chegando para todos os sites existentes conhecidos, caso ainda não tenham sido trocados.

Rastreamento: maneiras como o Google encontra URLs para indexar

Para poder indexar uma página, o Google precisa rastreá-la.

Como a primeira etapa no processo que leva à indexação, para garantir que suas páginas sejam indexadas de maneira correta e rápida, você precisa ter certeza de que seu rastreamento está “sã e salvo”.

Existem basicamente três maneiras pelas quais o Google encontra URLs:

Links: é nisso que toda a patente do PageRank foi baseada – encontrar novos sites por meio de hiperlinks
mapas do site XML
Rastreamentos anteriores

– Como o Google prioriza URLs (orçamento de rastreamento)

O Google prioriza quais sites são rastreados e com que frequência. Isso é muitas vezes referido como "orçamento de rastreamento".

Houve um artigo no blog do Google Webmaster sobre o orçamento de rastreamento que deu algumas ideias sobre como o Google prioriza quais sites rastrear.

– Popularidade: backlinks e PageRank

Um dos pontos estabelecidos por este artigo é que o PageRank é o principal fator por trás da velocidade e do volume de indexação de um site.

Os backlinks, é claro, são um componente importante do PageRank e, portanto, influenciam a taxa de rastreamento e a indexação.

– Códigos de estado

Os códigos de status também são levados em consideração. Por exemplo, se você tiver muitas páginas 404 em seu site, isso provavelmente levará o Google a reduzir a frequência de rastreamentos.

Outro exemplo são as cadeias e loops de redirecionamento.

– Higiene do local

Se o seu site estiver organizado de forma a desperdiçar muito orçamento de rastreamento, o Google poderá reduzir o tempo gasto no seu site.

– Velocidade da página e tempo de resposta do servidor

O orçamento de rastreamento também foi afetado pela velocidade da página e pelo tempo de resposta do servidor. O Google não quer DDoS em seu site; se ele perceber que seu servidor tem dificuldade em fornecer páginas e recursos na taxa solicitada, ele se ajustará ao que seu servidor pode lidar em termos de rastreamento.

Renderização: atualização de cafeína

A atualização Caffeine que saiu há alguns anos foi basicamente uma atualização da estrutura de renderização do Google.

Indexação: diferentes clusters para tipos de conteúdo

Existem diferentes arquivos de índices que o Google usa para retornar resultados diferentes. É razoável imaginar que existem diferentes clusters no índice para resultados de notícias e outro para resultados de imagens etc.

Classificação: algoritmos separados

Por fim, as URLs indexadas são classificadas, mas esse é um algoritmo totalmente diferente.

Melhorando a velocidade de indexação

Tanto obter páginas indexadas mais rapidamente quanto obter mais páginas indexadas são fortemente influenciados pelo PageRank e, portanto, pelos backlinks. Mas as estratégias para melhorar cada um são diferentes.

Se você deseja que as páginas sejam indexadas mais rapidamente, você deseja otimizar as duas primeiras etapas (rastreamento e renderização). Isso incluirá componentes como:

Vinculação interna
Mapas de site
Velocidade do servidor
Velocidade da página

Melhorar o número de páginas indexadas

Se você deseja obter mais páginas indexadas, é aí que o aspecto de rastreamento é mais importante. Você vai querer tornar mais fácil para o Google encontrar todas as suas páginas. Isso é simples em um site pequeno com mil URLs, mas é muito mais difícil em um site maior com milhões de URLs.

Por exemplo, G2 tem uma tonelada de páginas de diferentes tipos de página. A equipe de SEO de Kevin quer garantir que o Google consiga encontrar todas as páginas, independentemente da profundidade do rastreamento e de quantas páginas desse tipo existam; este é um grande desafio que deve ser abordado de diferentes ângulos.

Variação nas taxas de rastreamento de acordo com o perfil da página

Com base no tipo de página, Kevin geralmente encontra diferentes taxas de rastreamento do Google. Isso geralmente depende do perfil de backlink da URL e da vinculação interna. É aqui que ele encontra mais uso de arquivos de log.

Ele segmenta seu site por tipo de página para entender onde o site não tem eficiência de rastreamento ou onde a eficiência de rastreamento é muito alta.

Relação entre taxa de rastreamento, velocidade de indexação e classificação

Kevin observou absolutamente correlações definidas entre taxa de rastreamento, velocidade de indexação e classificação para cada tipo de página. Isso tem sido verdade não apenas nos sites com os quais ele trabalhou, mas também na correspondência com outros SEOs do setor.

Sem postular uma causalidade entre rastreamento, indexação e classificação, elementos semelhantes que impulsionam a indexação também parecem ser levados em consideração quando se trata de classificar uma página. Por exemplo, se você tiver muitos backlinks para um determinado modelo de página para um determinado tipo de página (exemplo: páginas de destino), o que você encontrará em seus arquivos de registro é que, se o Google tiver uma taxa de rastreamento mais alta nessas páginas em todo o seu site, o Google também indexa essas páginas mais rapidamente e geralmente classifica essas páginas mais altas do que outras páginas.

É difícil fazer declarações universais que sejam válidas para todos os sites, mas Kevin incentiva todos a verificar seus arquivos de log para ver se isso também é verdade em seu próprio site. O OnCrawl também descobriu que esse é o caso em muitos sites diferentes que analisaram.

Isso é parte do que ele tentou delinear com o modelo TIPR de vinculação interna que ele criou.

Como medir a taxa de rastreamento

Para medir a taxa de rastreamento, você deseja responder à pergunta: com que frequência um determinado Googlebot visita um determinado URL?

Como você “fatia e corta” esta outra questão. Kevin gosta de ver o número de acessos do Googlebot semanalmente. Você também pode vê-lo em uma base diária ou mensal.

– Foco no antes/depois

Mais importante do que o período que você usa é observar as alterações na taxa de rastreamento. Você deve observar a taxa antes de fazer alterações e depois que elas forem implementadas.

– Concentrando-se nas diferenças entre os tipos de página

Outra chave para medir a taxa de rastreamento é observar onde estão as lacunas em seu site. No nível do tipo de página, onde estão as diferenças entre as taxas de rastreamento? Que tipo de página é rastreada uma tonelada? Quais tipos de páginas dificilmente são rastreados?

– Observações comuns no comportamento de rastreamento

Algumas observações interessantes que Kevin fez no passado incluem:

URL mais rastreado: robots.txt
A maior parte do tempo gasto em um URL/grupo de URLs: Sitemaps XML, especialmente quando ficam um pouco maiores

Escavar arquivos de log para encontrar diferenças no comportamento de rastreamento entre os tipos de página é muito revelador. Procure quais URLs são rastreados diariamente versus quais URLs são rastreados mensalmente. Isso pode dizer muito sobre a eficiência da estrutura do seu site para rastreamento (e indexação, mesmo que haja uma etapa intermediária).

Distribuição do orçamento de rastreamento com base no modelo de negócios

Para melhorar a eficiência do rastreamento, a estratégia geralmente é reduzir a atenção que o Google dá a alguns tipos de páginas e redirecioná-la para páginas mais importantes do site.

A maneira como você deseja lidar com isso dependerá de como as conversões são tratadas no site. Kevin distingue dois modelos básicos de site: modelos de negócios centralizados e descentralizados:

Modelos descentralizados podem converter usuários em qualquer página. Um bom exemplo é o Trello: você pode se inscrever em qualquer página. Todos os seus tipos de página são relativamente semelhantes. Como nenhuma página é mais valiosa do que outra para inscrições, o objetivo pode ser ter uma taxa de rastreamento uniforme em todo o site: você deseja que todos os tipos de páginas sejam rastreados aproximadamente na mesma taxa.
Modelos centralizados podem ser algo como Jira. O Jira não tem um único tipo de página que possamos replicar um milhão de vezes: existem apenas algumas páginas de destino nas quais as pessoas podem se inscrever. Você quer ter certeza de que seu orçamento de rastreamento em um site como este está concentrado em seus pontos de conversão (suas páginas de destino).

Como você deseja que seu orçamento de rastreamento seja distribuído, volta à questão de como seu site ganha dinheiro e quais tipos de páginas desempenham o papel mais importante nisso.

Lidando com o desperdício de rastreamento

Para evitar que os Googlebots gastem o orçamento de rastreamento em páginas menos importantes para as conversões, existem vários métodos.

A melhor maneira de pular o rastreamento é robots.txt:

Em 99,99999% dos casos, o Google respeita as diretivas do robots.txt.
Robots.txt pode ajudar a bloquear o rastreamento em grandes seções do seu site com conteúdo pequeno ou duplicado (Exemplos clássicos: perfis de usuários em um fórum; URLs de parâmetros…)

Existem casos legítimos em que você pode querer que uma página não seja indexada, mas ainda assim ajude no rastreamento. Kevin consideraria que algumas páginas do hub se enquadram nessa categoria. É aqui que ele usaria um meta noindex.

Ele reconhece que John Mueller disse que as tags meta noindex são eventualmente tratadas como nofollow, mas Kevin até agora nunca viu isso acontecer no terreno. Ele admite que isso pode ser porque leva muito tempo para acontecer (mais de um ano ou mais). Em vez disso, ele tende a achar que os Googlebots são “gananciosos” e procuram e seguem o maior número possível de links.

O conselho de Kevin é usar robots.txt e usá-lo em toda a sua extensão. Você pode usar curingas e algumas técnicas muito sofisticadas para proteger certas coisas de serem rastreadas.

A regra geral a seguir é que quanto mais fino o conteúdo, maior a probabilidade de ser um candidato a ser excluído do rastreamento.

As páginas excluídas do rastreamento por meio do robots.txt ainda podem ser indexadas pelo Google se tiverem links internos ou backlinks apontando para elas. Se isso acontecer, o texto da descrição nos resultados da pesquisa mostrará que o Google não conseguiu rastrear a página devido a uma restrição no robots.txt. Geralmente, porém, essas páginas não têm uma classificação alta, a menos que tenham sido recentemente excluídas do robots.txt.

Problemas de indexação devido a páginas semelhantes

– Erros canônicos

Programaticamente, as declarações canônicas são extremamente fáceis de errar. Kevin viu o caso algumas vezes em que o canônico tinha um ponto e vírgula (;) em vez de dois pontos (:) e então você se depara com muitos problemas.

Os canônicos são supersensíveis em alguns casos e podem levar o Google a desconfiar de todos os seus canônicos, o que pode ser um grande problema.

Um dos problemas mais comuns com os canônicos, porém, são os canônicos esquecidos.

– Migrações de sites

As migrações de sites geralmente são uma fonte de problemas com canônicos; Kevin viu problemas em que o site simplesmente esqueceu de adicionar o novo domínio aos canônicos.

Isso é extremamente fácil de esquecer, principalmente quando seu CSM precisa de um ajuste manual (em vez de programaticamente) para fazer a alteração durante uma migração.

A configuração padrão é que o canônico de uma página deve apontar para si mesmo, a menos que haja um motivo específico para apontar para outro URL.

– HTTP para HTTPS

Este é outro erro canônico comum que impede que o URL correto seja indexado. O protocolo errado às vezes é usado no canônico.

– Encontrar fonte de erro quando o Google ignora o canônico declarado

O Google às vezes escolhe seu próprio canônico. Quando eles desconfiam do seu canônico declarado, geralmente há uma causa raiz.

Kevin sugere evitar situações em que você possa enviar dois sinais conflitantes ao Google:

Examine seus sitemaps XML
Rastreie seu próprio site e procure por canônicos defeituosos
Veja as configurações de parâmetro no seu Search Console para encontrar configurações conflitantes
Não use noindex e canonicals ao mesmo tempo

Tipos de páginas que contribuem para o inchaço do índice

Em SEO, dez anos atrás, você queria enviar o maior número possível de páginas para serem indexadas: quanto mais páginas indexadas, melhor.

Hoje, não é mais assim. Você só quer coisas da mais alta qualidade em sua loja. Você não quer nenhum conteúdo abaixo da média no índice.

“Index bloat” geralmente é usado para descrever um tipo de página que não fornece valor. Isso geralmente volta a qualquer tipo de conteúdo fino, principalmente casos em que você multiplica ou amplifica o número de páginas existentes sem fornecer valor substancial em cada nova página.

Casos clássicos em que você pode querer ver quantas páginas de um tipo específico são indexadas e se elas fornecem valor adicional incluem:

Parâmetros
Paginação
Fóruns
Páginas relacionadas ao diretório ou páginas de entrada
Extensas páginas locais (cidades) que não diferenciam entre serviços ou conteúdo
Navegações facetadas

Como a indexação afeta um site como um todo

Você não quer ter páginas abaixo da média indexadas hoje porque elas afetam como o Google vê e classifica seu site como um todo.

Muito disso volta para rastrear o orçamento. Embora Gary Illyes e John Mueller tenham dito com frequência que a maioria dos sites não precisa se preocupar com o orçamento de rastreamento, o público para o tipo de discussão que estamos tendo hoje são sites maiores, onde isso faz uma grande diferença.

Você deseja garantir que o Google encontre apenas conteúdo de alta qualidade.

Assim como a relação que Kevin observa entre taxa de rastreamento, indexação e classificação, ele também observa que prestar atenção à qualidade das páginas indexadas parece valer a pena para todo o site. Embora seja difícil fazer declarações universais, parece que o Google tem algum tipo de métrica de qualidade do site que depende das páginas indexadas desse site. Em outras palavras, se você tiver muito conteúdo de baixa qualidade indexado, isso parece prejudicar seu site.

É aqui que o inchaço do índice é prejudicial: é uma maneira de diluir ou diminuir a “pontuação” geral de qualidade do site e desperdiça seu orçamento de rastreamento.

Sitemaps XML para indexação rápida

A opinião de Kevin é que, à medida que o Google ficou mais inteligente, o número de “hacks” diminuiu com o tempo.

No entanto, no que diz respeito à indexação, ele descobriu que uma maneira de obter algo indexado rapidamente é usar um sitemap XML.

Recentemente o G2 migrou para um novo domínio. Eles têm um tipo de página que demora muito para ser rastreado novamente, então no índice do Google você ainda viu o domínio antigo nos snippets para páginas desse tipo. Quando Kevin viu que os redirecionamentos 301 não foram levados em consideração porque ainda não haviam sido rastreados, ele colocou todas as páginas desse tipo em um mapa do site XML e forneceu o mapa do site ao Google no Search Console.

Essa estratégia também pode ser usada se houver uma grande mudança técnica no site que Kevin deseja que o Google entenda o mais rápido possível.

Proeminência crescente do SEO técnico

O SEO técnico ganhou destaque nos últimos três anos. Muitas vezes, as perguntas técnicas de SEO destacam áreas que são realmente subestimadas.

Muitas vezes você ouve que conteúdo e backlinks são as únicas coisas que você precisa cuidar. Enquanto Kevin acredita que esses são campos de SEO super impactantes, ele acha que eles podem ter ainda mais impacto se você acertar seu SEO técnico.

[Ebook] Rastreabilidade

Certifique-se de que seus sites atendam aos requisitos do mecanismo de pesquisa para rastreabilidade para aumentar o desempenho de SEO.

Leia o e-book

Perguntas e respostas

– Bing e indexação de 10.000 URLs/dia

O Bing oferece aos webmasters a capacidade de enviar diretamente até 10.000 URLs por dia por meio de suas ferramentas para webmasters para uma indexação mais rápida.

Kevin acredita que esta é uma direção na qual o Google também pode estar indo. Até o Google, como uma das empresas mais valiosas do mundo, precisa proteger seus recursos. Essa é uma das razões pelas quais, se você desperdiçar os recursos de rastreamento, eles se ajustarão de acordo.

Se esse tipo de recurso vale ou não para os webmasters também dependerá do tamanho do seu site. O número de sites que se beneficiariam de poder enviar tantos URLs por dia é limitado – provavelmente na casa dos milhares ou dez milhares. Kevin presume que para esses sites, o Google já dedica recursos significativos. Parece que para os maiores sites da web, o Google faz um trabalho decente de indexá-los, com as exceções usuais, é claro.

Provavelmente é muito mais fácil para o Bing implementar algo nessa escala: por um lado, sua participação de mercado é muito menor, então a demanda por esse recurso é menor. O tamanho do índice também é provavelmente muito menor, então eles provavelmente se beneficiarão mais.

– Quando o Google ignora robots.txt

O Google raramente ignora o robots.txt.

Às vezes, o que nos leva a supor que o Google está ignorando o robots.txt é que, como falamos antes, o Google às vezes pode indexar páginas bloqueadas pelo robots.txt, que ainda podem ser encontradas de várias outras maneiras.

Você também pode fazer com que o Google ignore diretivas em seu robots.txt se a sintaxe no arquivo robots.txt estiver incorreta:

Caracteres errados
Uso de tags que não funcionam ou não deveriam funcionar, como diretivas noindex

[Observação: Kevin cita um estudo de caso que descobriu que o Google respeitava as diretivas noindex apresentadas no arquivo robots.txt. No entanto, logo após a exibição deste webinar, o Google anunciou o fim do suporte tácito para esta diretiva em arquivos robots.txt, a partir de 1º de setembro de 2019.]

No entanto, o Google é uma das empresas que mantém seus bots em alto padrão e não ignora o robots.txt.

Melhor dica

“O PageRank é o principal fator por trás da velocidade e do volume de indexação.”

SEO em órbita foi para o espaço

Se você perdeu nossa viagem ao espaço no dia 27 de junho, assista aqui e descubra todas as dicas que enviamos ao espaço.