Sitemap XML : recommandations clés pour l'optimisation

Publié: 2021-03-26

Le Sitemap.xml sur votre site peut servir de bonne navigation pour les pages que vous souhaitez que Google bot indexe. Il vous aide à trouver vos pages principales plus rapidement, même si vous n'avez pas un bon lien interne.

Dans cet article, nous allons vous présenter différentes recommandations pour l'optimisation du Sitemap XML et pourquoi il est bon de le faire.

Table des matières

Fonctionnalités et avantages

Plan du site XML

Facilitez le travail des robots et offrez la possibilité d'obtenir des "rapports" pour les pages et les liens de votre site qui ne peuvent pas être facilement trouvés.

Certains des avantages du référencement sont les suivants :

  • indexation plus rapide - les moteurs de recherche trouveront de nouvelles pages beaucoup plus rapidement, de sorte que le processus d'indexation et d'affichage du site Web dans les résultats de recherche sera plus rapide. La particularité ici est qu'il peut également vous aider à désindexer (plus d'informations ici) ;
  • meilleure indexation des pages internes - les moteurs de recherche peuvent trouver des pages qui n'ont pas été trouvées lors de l'exploration du site Web. Mais cela ne signifie pas nécessairement qu'ils seront tous indexés.
  • surveillance des pages indexées. En combinaison avec la Google Search Console, vous pouvez savoir quelles URL sont couvertes dans le sitemap XML indexé par Google.

Un sitemap XML est-il important ?

Il est important pour les sites qui :

  • n'ont pas une bonne structure ou n'ont pas une bonne répartition des liens internes ;

Bon et mauvais maillage interne

  • avoir de nombreuses pages – le plan de site XML aide les moteurs de recherche à trouver des pages nouvelles ou mises à jour ;

Moteur de recherche infographique

  • n'ayez pas beaucoup de liens entrants - ce sera un excellent moyen de trouver vos pages.

Infographie des liens

Exigences et formats

Google prend en charge plusieurs formats de sitemap. Tous les formats et normes peuvent être trouvés à cette adresse : https://www.sitemaps.org/index.html.

Tous les formats limitent le sitemap à 50 Mo (non compressé) et 50 000 adresses. Si vous avez un fichier plus volumineux ou plus d'adresses, vous devrez créer un fichier index avec toutes les cartes (décrit dans l'article ci-dessous).

Les principales recommandations sont :

  • le fichier doit être encodé avec UTF-8 ;
  • il doit commencer par une balise ouverte et se terminer par une balise fermante telle que …. ;
  • spécifiez le protocole standard dans la balise ;
  • balise principale pour chaque entrée d'URL ;
  • spécifiez l'URL commençant par le protocole (https ou http) dans la balise, qui doit participer à la balise principale pour l'enregistrement.

Attributs facultatifs supplémentaires pour les sitemaps XML

Google n'utilise pas l'attribut sur ses sites. Tous les autres attributs sont disponibles, mais cela dépend s'ils seront reflétés. Par conséquent, gardez à l'esprit que Google ne prend pas ces balises très au sérieux. Elles sont:

  • – représente la date du dernier changement de fichier. Doit être au format DateHeure W3C ;
  • – la fréquence à laquelle la page est susceptible d'être mise à jour. Cette valeur fournit des informations générales sur les moteurs de recherche. Les valeurs valides peuvent être toujours, horaire, quotidienne, hebdomadaire, mensuelle, annuelle, jamais.

Il faut garder à l'esprit que la valeur de cette balise est davantage considérée comme un indice que comme une commande. Les robots voient ces informations et en tiennent compte, mais décident finalement eux-mêmes de les utiliser, en fonction de nombreux autres facteurs.

  • – Donne la priorité à l'URL par rapport aux autres URL de votre site. Les valeurs valides vont de 0,0. à 1.0.

Là encore, il faut garder à l'esprit que cette priorité est relative et n'est pas une condition obligatoire pour les robots, ou du moins pas encore acceptée comme telle. Cependant, si vous décidez de l'essayer, utilisez le guide suivant :

    • 0 – 0,3 : actualités obsolètes, informations qui ne sont plus valables, mais qui sont historiquement utiles ;
    • 4 – 0.7 : Articles de blog, catégories de pages, foire aux questions ;
    • 8 – 1.0 : Page d'accueil, pages produits, toutes les pages avec un contenu bien optimisé.

L'exemple suivant montre un plan Sitemap qui contient une seule URL et utilise toutes les balises facultatives écrites en italique .

https://netpeak.bg

2018-09-15

mensuel

0,8

Identifier les pages importantes

Ajoutez des pages de haute qualité et celles qui sont bien optimisées. La qualité globale est d'une grande importance pour un meilleur classement. C'est un facteur sérieux pour Google qui peut vous donner une sérieuse priorité sur la concurrence.

Nous ne voulons pas visiter des pages de mauvaise qualité, les bots Google non plus. Si vous le guidez vers des milliers de pages qui ne sont pas utiles aux utilisateurs et qui ne sont pas bien optimisées, cela ne peut être que préjudiciable pour vous. Que sont les pages de haute qualité ? En termes simples, ce sont des pages qui :

  • avoir suffisamment de contenu unique ;
  • engager rapidement leurs utilisateurs en incitant à l'action (commentaires, critiques, etc.) ;
  • inclure des images, des vidéos, etc. ;
  • n'enfreignez pas les règles de Google ;

Pages ouvertes pour indexation

Le budget de crawl représente généralement le nombre de pages crawlées par unité de temps (jour, semaine, mois, etc.). Il est donc déconseillé de le gaspiller inutilement.

Les pages qui contiennent la balise meta "Noindex" ne doivent pas être ajoutées au sitemap. suivre un ordre logique c'est important pour tout.

Il est nécessaire d'effectuer une vérification automatisée et de ne pas inclure d'adresses fermées à l'indexation.

Il est recommandé de suivre ces instructions :

  • Si la page https://example.com/category/product a une balise meta « noindex », elle ne doit pas être incluse dans la carte XML du site ;

capture d'écran non indexée

  • Lorsque la page est fermée pour indexation via robots.txt, elle ne doit pas être incluse dans la carte XML :

Interdire : /catégorie/produit

Pas d'index : /catégorie/produit

  • Si la page est fermée pour indexation via X-Robots-Tag dans l'en-tête HTTP, elle ne doit pas non plus être incluse dans la carte XML du site :

HTTP/1.1 200 OK

Date : mar. 25 mai 2010 21:42:43 GMT

(…)

X-Robots-Tag : pas d'index

(…)

Versions canoniques des pages

L'accès à une seule page via plusieurs URL avec un contenu similaire sera considéré comme dupliqué par Google.

Vous devez utiliser l'attribut "link rel canonical" pour indiquer au bot quelle est la page "principale" et laquelle doit être explorée et indexée.

version canonique d'une infographie de site Web

Par exemple, si la page https://example.com/category/product-1 est canonique sur https://example.com/product, alors http://example.com/category/product-1 ne doit pas participer à le plan de site XML.

Vous devriez effectuer une vérification automatisée car l'automatisation des processus vous apportera sûrement moins de maux de tête et vous fera gagner du temps pour les inspections manuelles.

Pages qui renvoient 200 OK

Incluez les adresses qui renvoient une réponse 200 OK. Il est important de faire des vérifications automatisées et de ne pas inclure d'adresses qui renvoient une réponse autre que 200 OK - par exemple 404, 301, etc.

Par exemple, si la page https://example.com/product renvoie une réponse différente de 200 OK, alors elle ne doit pas participer au sitemap.

Vérification de l'en-tête de réponse HTTP

Vous pouvez utiliser l'outil de vérification suivant : https://soft.galinov.com/ pour vérifier.

Pages de pagination

Il n'est pas nécessaire d'inclure absolument toutes les pages dans sitemap.xml. Le bot est suffisamment intelligent pour pouvoir naviguer depuis la première page de la catégorie concernée si celle-ci est correctement décrite. Il est recommandé de faire ce qui suit :

  • inclure uniquement les pages principales des catégories ;
  • marquez les pages avec rel = next / rel = prev pour que le robot puisse voir la connexion entre elles ;
  • chaque page de la pagination doit avoir un guidage canonique vers elle-même, pas vers la page principale, car si c'est l'inverse, cela signifie que vous dites au bot "Peu importe que j'ai 5 000 produits et 20 pages, ils sont les mêmes que le premier.

Par exemple, la page https://example.com/category/page-2 ne doit pas participer à la carte. Retrouvez ici l'avis officiel de Google, ainsi que leurs recommandations :

Réduire la taille du fichier

Google et Bing ont augmenté la taille des fichiers de 10 Mo à 50 Mo en 2016, mais c'est toujours une bonne pratique de garder votre sitemap aussi petit que possible.

Sitemaps Bing et Google

Bien sûr, il n'y a pas lieu de s'inquiéter, mais si votre sitemap contient plus de 50 000 URL ou dépasse 50 Mo, il doit être divisé en plusieurs cartes XML. Dans ce cas, les références à toutes les cartes XML doivent être décrites dans un fichier d'index de sitemap séparé.

Qu'est-ce qu'un fichier d'index de plan de site XML

Infographie du fichier d'index du plan du site

Vous pouvez soumettre plusieurs fichiers Sitemap, mais chaque fichier doit respecter les règles ci-dessus. Si vous le souhaitez, vous pouvez compresser les fichiers à l'aide de gzip pour réduire leur taille en fonction des besoins.

Le format XML du fichier d'index est très similaire au format de sitemap normal. Il doit contenir :

  • ouvrir et fermer la balise comme ;
  • une entrée pour chaque Sitemap avec l'attribut XML principal étant ;
  • tag à l'attribut principal.

L'attribut recommandé est également inclus.

Remarque : Le fichier d'index Sitemap ne peut répertorier que les cartes qui se trouvent sur le même site. Par exemple:

https://example.com/sitemap_index.xml peut inclure des cartes sur https://example.com, mais pas sur https://www.saitprimer.com ou https://www.example.com

Comme pour tous les autres fichiers, le fichier d'index doit être encodé en UTF-8.

L'exemple suivant montre un index Sitemap qui répertorie deux cartes :

http://www.example.com/sitemap1.xml.gz

2018-10-01T18:23:17+00:00

http://www.example.com/sitemap2.xml.gz

2017-01-01

Description de la version mobile

Nous devons aider le bot Google à trouver notre contenu et à comprendre la connexion entre les pages de bureau et les pages mobiles. Dans le plan du site XML, il faut ajouter l'attribut rel = « alternate » pour les pages de la version de bureau, comme suit :

xmlns:xhtml="http://www.w3.org/1999/xhtml">

http://www.exemple.com/page-1/

<xhtml:lien

rel="alternatif"

media = "écran uniquement et (largeur maximale : 640px)"

href="http://m.example.com/page-1" />

Gardez à l'esprit que chaque page de bureau doit correspondre à une page de la version mobile. Il est par exemple déconseillé de lier plusieurs pages desktop via rel = "alternate" à une page de la version mobile et inversement.

Vous devez également vérifier les redirections. Il est important que la page desktop corresponde au même contenu dans la version mobile, et ne redirige pas vers une autre. Informations complémentaires ici.

infographie de redirection mobile

Comment les bots peuvent trouver votre sitemap XML

Lorsque vous avez terminé toute l'automatisation du processus et que vous l'avez téléchargé sur votre serveur (ou généré par un plugin), vous devez laisser un indice où les bots peuvent le trouver.

Le meilleur moyen est d'inclure un lien vers celui-ci dans votre fichier robots.txt. Cela s'appelle également Sitemap Discovery et c'est quelque chose que Google, Bing et Yahoo ont introduit en 2007 pour aider leurs robots à trouver des sitemaps XML.

Tout ce que vous avez à faire est d'inclure le chemin complet de votre carte ou de votre fichier d'index.

capture d'écran du fichier d'index du chemin complet

Translittération correcte des adresses

La documentation officielle de Google (Build and submit a Sitemap) souligne que toutes les valeurs de données (y compris les URL) doivent contenir uniquement des caractères ASCII. Il ne peut pas contenir de codes de contrôle ou de caractères spéciaux tels que * ou {}.

Si l'URL de votre site contient ces caractères, vous obtiendrez une erreur lorsque vous tenterez de l'ajouter.

Envoyez votre carte à Google
Vous pouvez soumettre votre sitemap à Google via Google Search Console.

capture d'écran de la console de recherche Google

Vérifiez s'il y a des erreurs avant de soumettre. Il est important d'éliminer toutes les erreurs qui pourraient constituer un obstacle à l'indexation des pages de destination clés.

Idéalement, le nombre de pages indexées devrait être égal au nombre de pages soumises.

Conclusion

  1. Soyez cohérent - si la page est bloquée par robots.txt ou par "noindex", il vaut mieux qu'elle ne soit pas dans votre carte XML.
  2. Automatisez votre processus - toutes les recommandations ci-dessus doivent être disponibles pour l'automatisation, car cela vous fera gagner du temps, aidera le budget d'exploration à rester optimisé et vous évitera également beaucoup de maux de tête.
  3. Si vous avez un site très volumineux, utilisez un fichier index avec différentes cartes qui vous fera gagner du temps serveur et couvrira toutes les pages importantes de votre site.