Sitemap XML: principais recomendações para otimização
Publicados: 2021-03-26O Sitemap.xml em seu site pode funcionar como uma boa navegação para as páginas que você deseja que o Google bot indexe. Ele ajuda você a encontrar suas páginas principais mais rapidamente, mesmo que você não tenha um bom link interno.
Neste artigo, apresentaremos várias recomendações para a otimização do XML Sitemap e por que é bom fazer isso.
Funcionalidades e vantagens
Facilite o trabalho dos bots e permita a possibilidade de obter “relatórios” para páginas e links em seu site que não puderam ser encontrados facilmente.
Alguns dos benefícios do SEO são os seguintes:
- indexação mais rápida – os mecanismos de pesquisa encontrarão novas páginas muito mais rapidamente, portanto, o processo de indexação e exibição do site nos resultados da pesquisa será mais rápido. O curioso aqui é que ele também pode ajudá-lo na desindexação (mais informações aqui);
- melhor indexação de páginas internas – os mecanismos de busca podem encontrar páginas que não foram encontradas ao rastrear o site. Mas isso não significa necessariamente que todos eles serão indexados.
- monitoramento de páginas indexadas. Em combinação com o Google Search Console, você pode descobrir quais URLs são cobertas no Sitemap XML que o Google indexa.
Um Sitemap XML é importante?
É importante para sites que:
- não possuem uma boa estrutura ou não possuem uma boa distribuição de links internos;
- ter muitas páginas – o mapa do site XML ajuda os mecanismos de pesquisa a encontrar páginas novas ou atualizadas;
- não tenha muitos links de entrada – esta será uma ótima maneira de encontrar suas páginas.
Requisitos e formatos
O Google suporta vários formatos de Sitemap. Todos os formatos e padrões podem ser encontrados neste endereço: https://www.sitemaps.org/index.html.
Todos os formatos limitam o mapa do site a 50 MB (descompactado) e 50.000 endereços. Se você tiver um arquivo maior ou mais endereços, precisará criar um arquivo de índice com todos os mapas (descritos no artigo abaixo).
As principais recomendações são:
- o arquivo deve ser codificado com UTF-8;
- ele deve começar com uma tag de abertura e terminar com uma tag de fechamento como …. ;
- especifique o protocolo padrão na tag;
- tag principal para cada entrada de URL;
- especifique a URL começando com o protocolo (https ou http) na tag, que deve participar da tag principal para salvar.
Atributos opcionais adicionais para sitemaps XML
O Google não usa o atributo em seus sites. Todos os outros atributos estão disponíveis, mas depende se eles serão refletidos. Portanto, lembre-se de que o Google não leva essas tags muito a sério. Eles são:
- – representa a data da última alteração do arquivo. Deve estar no formato W3C Datetime;
- – com que frequência a página provavelmente será atualizada. Esse valor fornece informações gerais sobre mecanismos de pesquisa. Os valores válidos podem ser sempre, por hora, diariamente, semanalmente, mensalmente, anualmente, nunca.
Deve-se ter em mente que o valor desta tag é considerado mais como uma dica do que como um comando. Os robôs veem essas informações e as levam em consideração, mas, em última análise, decidem por si mesmos se devem usá-las, dependendo de muitos outros fatores.
- – Prioriza o URL sobre outros URLs em seu site. Os valores válidos variam de 0,0. para 1,0.
Aqui, novamente, deve-se ter em mente que essa prioridade é relativa e não é uma condição obrigatória para robôs, ou pelo menos ainda não aceita como tal. No entanto, se você decidir experimentá-lo, use o seguinte guia:
- 0 – 0,3: Notícias desatualizadas, informações que não são mais válidas, mas são historicamente úteis;
- 4 – 0,7: Artigos de blogs, categorias de páginas, perguntas frequentes;
- 8 – 1.0: Home page, páginas de produtos, todas as páginas com conteúdo bem otimizado.
O exemplo a seguir mostra um Sitemap que contém apenas um URL e usa todas as tags opcionais escritas em itálico .
https://netpeak.bg
15-09-2018
por mês
0,8
Identificando as páginas importantes
Adicione páginas de alta qualidade e bem otimizadas. A qualidade geral é de grande importância para uma melhor classificação. Este é um fator sério para o Google que pode lhe dar uma prioridade séria sobre a concorrência.
Não queremos visitar páginas de baixa qualidade, nem os bots do Google. Se você o direcionar para milhares de páginas que não são úteis para os usuários e não estão bem otimizadas, isso só pode ser prejudicial para você. O que são páginas de alta qualidade? Simplificando, essas são páginas que:
- ter conteúdo exclusivo suficiente;
- envolver rapidamente seus usuários solicitando ações (comentários, revisões, etc.);
- incluir imagens, vídeos, etc.;
- não viole as políticas do Google;
Páginas abertas para indexação
O orçamento de rastreamento geralmente representa o número de páginas rastreadas por unidade de tempo (dia, semana, mês etc.). Portanto, não é aconselhável desperdiçá-lo desnecessariamente.
As páginas que contêm a metatag “Noindex” não devem ser adicionadas ao mapa do site. seguir uma ordem lógica é importante para tudo.
É necessário fazer uma verificação automatizada e não incluir endereços fechados para indexação.
Recomenda-se seguir estas instruções:
- Caso a página https://example.com/category/product possua uma meta tag “noindex”, ela não deve ser incluída no mapa XML do site;
- Quando a página é fechada para indexação via robots.txt, ela não deve ser incluída no mapa XML:
Não permitir: /categoria/produto
Noindex: /categoria/produto
- Caso a página esteja fechada para indexação via X-Robots-Tag no cabeçalho HTTP, ela também não deve ser incluída no mapa XML do site:
HTTP/1.1 200 OK
Data: Ter, 25 de maio de 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)
Versões canônicas das páginas
O acesso a uma única página por meio de vários URLs com conteúdo semelhante será considerado duplicado pelo Google.
Você deve usar o atributo “link rel canonical” para instruir o bot qual é a página “principal” e qual deve ser rastreada e indexada.
Por exemplo, se a página https://example.com/category/product-1 for canônica para https://example.com/product, http://example.com/category/product-1 não deverá participar o mapa do site XML.
Você deve realizar uma verificação automatizada, pois a automação dos processos certamente trará menos dores de cabeça e economizará tempo para inspeções manuais.
Páginas que retornam 200 OK
Inclua endereços que retornem uma resposta 200 OK. É importante fazer verificações automatizadas e não incluir endereços que retornem uma resposta diferente de 200 OK – por exemplo 404, 301, etc.
Por exemplo, se a página https://example.com/product retornar uma resposta diferente de 200 OK, ela não deverá participar do mapa do site.
Você pode usar a seguinte ferramenta para verificar: https://soft.galinov.com/ para verificar.
Páginas da paginação
Não é necessário incluir absolutamente todas as páginas no sitemap.xml. O bot é inteligente o suficiente para poder navegar desde a primeira página na categoria relevante, se estiver descrito corretamente. Recomenda-se fazer o seguinte:
- incluir apenas as páginas principais das categorias;
- marque as páginas com rel = next / rel = prev para que o robô possa ver a conexão entre elas;
- cada página da paginação deve ter um guia canônico para si mesma, não para a página principal, porque se for o contrário, significa que você está dizendo ao bot “Não importa que eu tenha 5.000 produtos e 20 páginas, eles são iguais ao primeiro”.
Por exemplo, a página https://example.com/category/page-2 não deve participar do mapa. Aqui você encontra a opinião oficial do Google, bem como suas recomendações:
Minimize o tamanho do arquivo
O Google e o Bing aumentaram o tamanho dos arquivos de 10 MB para 50 MB em 2016, mas ainda é uma boa prática manter seu Sitemap o menor possível.
Claro, não é algo para se preocupar, mas se o seu sitemap contiver mais de 50.000 URLs ou exceder 50 MB de tamanho, ele deverá ser dividido em mais mapas XML. Nesse caso, as referências a todos os mapas XML devem ser descritas em um arquivo de índice de mapa do site separado.
O que é um arquivo de índice de mapa de site XML
Você pode enviar vários arquivos de Sitemap, mas cada arquivo deve obedecer às regras acima. Se desejar, você pode compactar os arquivos usando gzip para reduzir seu tamanho de acordo com os requisitos.
O formato XML do arquivo de índice é muito semelhante ao formato normal do sitemap. Deve conter:
- abrir e fechar tag como ;
- uma entrada para cada Sitemap com o atributo XML principal sendo ;
- tag para o atributo principal.
O atributo recomendado também está incluído.
Nota: O arquivo de índice do Sitemap só pode listar mapas que estão no mesmo site. Por exemplo:
https://example.com/sitemap_index.xml pode incluir mapas em https://example.com, mas não em https://www.saitprimer.com ou https://www.example.com
Assim como todos os outros arquivos, o arquivo de índice deve ser codificado com UTF-8.
O exemplo a seguir mostra um índice de Sitemap que lista dois mapas:
http://www.example.com/sitemap1.xml.gz
2018-10-01T18:23:17+00:00
http://www.example.com/sitemap2.xml.gz
01-01-2017
Descrição da versão móvel
Precisamos ajudar o bot do Google a encontrar nosso conteúdo e entender a conexão entre as páginas desktop e mobile. No sitemap XML deve ser adicionado o atributo rel = “alternate” para as páginas da versão desktop, da seguinte forma:
xmlns:xhtml=”http://www.w3.org/1999/xhtml”>
http://www.example.com/page-1/
<xhtml:link
rel=”alternativo”
media=”somente tela e (largura máxima: 640px)”
href="http://m.example.com/page-1″ />
Lembre-se de que cada página da área de trabalho precisa corresponder a uma página da versão móvel. Não é recomendado, por exemplo, que várias páginas de desktop sejam vinculadas via rel = “alternate” a uma página da versão mobile e vice-versa.
Você também deve verificar se há redirecionamentos. É importante que a página desktop corresponda ao mesmo conteúdo da versão mobile, e não redirecione para outra. Informações adicionais aqui.
Como os bots podem encontrar seu Sitemap XML
Quando você terminar toda a automação do processo e carregá-lo para o seu servidor (ou gerenciá-lo por um plugin), você precisa deixar uma pista onde os bots podem encontrá-lo.
A melhor maneira é incluir um link para ele em seu arquivo robots.txt. Isso também é chamado de Sitemap Discovery e é algo que Google, Bing e Yahoo introduziram em 2007 para ajudar seus robôs a encontrar Sitemaps XML.
Tudo o que você precisa fazer é incluir o caminho completo para seu mapa ou arquivo de índice.
Transliteração correta de endereços
A documentação oficial do Google (Criar e enviar um Sitemap) enfatiza que todos os valores de dados (incluindo URLs) devem conter apenas caracteres ASCII. Ele não pode conter códigos de controle ou caracteres especiais como * ou {}.
Se o URL do seu site contiver esses caracteres, você receberá um erro ao tentar adicioná-lo.
Envie seu mapa para o Google
Você pode enviar seu mapa do site para o Google por meio do Google Search Console.
Verifique se há erros antes de enviar. É importante esclarecer quaisquer erros que possam ser um obstáculo à indexação das principais páginas de destino.
Idealmente, o número de páginas indexadas deve ser igual ao número de páginas submetidas.
Conclusão
- Seja consistente – se a página estiver bloqueada por robots.txt ou por “noindex”, é melhor que ela não esteja no seu mapa XML.
- Automatize seu processo – todas as recomendações acima devem estar disponíveis para automação, pois isso economizará seu tempo, ajudará o orçamento de rastreamento a permanecer otimizado e também economizará muitas dores de cabeça.
- Se você tiver um site muito grande, use um arquivo de índice com mapas diferentes, o que economizará tempo do servidor e cobrirá todas as páginas importantes do site.