Budget de crawl de Google : comment ça marche et comment maximiser le vôtre

Publié: 2021-03-02

Pour chaque site Web sur Internet, Google a un budget fixe pour le nombre de pages que ses robots peuvent et sont prêts à explorer. Internet est un vaste espace, donc Googlebot ne peut passer qu'un temps limité à explorer et à indexer nos sites Web. L'optimisation du budget de crawl consiste à garantir que les bonnes pages de nos sites Web se retrouvent dans l'index de Google et sont finalement présentées aux internautes.

Les recommandations de Google pour optimiser le budget de crawl sont plutôt limitées, car Googlebot parcourt la plupart des sites Web sans atteindre sa limite. Mais les sites d'entreprise et de commerce électronique avec des milliers de pages de destination risquent de maximiser leur budget. Une étude de 2018 a même révélé que les robots d'exploration de Google n'avaient pas réussi à explorer plus de la moitié des pages Web des sites plus importants de l'expérience.

Influencer la façon dont le budget de crawl est dépensé peut être une optimisation technique plus difficile à mettre en œuvre pour les stratèges. Mais pour les sites d'entreprise et de commerce électronique, cela vaut la peine de maximiser le budget d'exploration là où vous le pouvez. Avec quelques ajustements, les propriétaires de sites et les stratèges SEO peuvent guider Googlebot pour explorer et indexer régulièrement leurs pages les plus performantes.

Comment Google détermine-t-il le budget de crawl ?

Le budget d'exploration correspond essentiellement au temps et aux ressources que Google est prêt à consacrer à l'exploration de votre site Web. L'équation est la suivante :

Budget de crawl = taux de crawl + demande de crawl

L'autorité de domaine, les backlinks, la vitesse du site, les erreurs d'exploration et le nombre de pages de destination ont tous un impact sur la vitesse d'exploration d'un site Web. Les sites plus grands ont généralement un taux d'exploration plus élevé, tandis que les sites plus petits, les sites plus lents ou ceux avec des redirections excessives et des erreurs de serveur sont généralement explorés moins fréquemment.

Google détermine également le budget de crawl en fonction de la "demande de crawl". Les URL populaires ont une demande d'exploration plus élevée, car Google souhaite fournir le contenu le plus récent aux utilisateurs. Google n'aime pas le contenu obsolète dans son index, donc les pages qui n'ont pas été explorées depuis un certain temps auront également une demande plus élevée. Si votre site Web passe par une migration de site, Google augmentera la demande de crawl pour mettre à jour plus rapidement son index avec vos nouvelles URL.

Le budget de crawl de votre site Web peut fluctuer et n'est certainement pas fixe. Si vous améliorez l'hébergement de votre serveur ou la vitesse de votre site, Googlebot peut commencer à explorer votre site plus souvent en sachant qu'il ne ralentit pas l'expérience Web des utilisateurs. Pour avoir une meilleure idée du taux d'exploration moyen actuel de votre site, consultez le rapport d'exploration de votre console de recherche Google.

Chaque site Web doit-il se soucier de son budget de crawl ?

Les petits sites Web qui se concentrent uniquement sur le classement de quelques pages de destination n'ont pas à se soucier du budget de crawl. Mais les sites Web plus volumineux, en particulier les sites malsains avec des pages cassées et des redirections excessives, peuvent facilement atteindre leur limite d'exploration.

Les types de grands sites Web qui risquent le plus de maximiser leur budget de crawl ont généralement des dizaines de milliers de pages de destination. Les principaux sites de commerce électronique, en particulier, sont souvent impactés négativement par les budgets de crawl. J'ai rencontré plusieurs sites Web d'entreprise avec un nombre important de leurs pages de destination non indexées, ce qui signifie aucune chance de se classer dans Google.

Il y a plusieurs raisons pour lesquelles les sites de commerce électronique en particulier doivent accorder plus d'attention à la destination de leur budget de crawl.

  • De nombreux sites de commerce électronique créent par programmation des milliers de pages de destination pour leurs SKU ou pour chaque ville ou état où ils vendent leurs produits.
  • Ces types de sites mettent régulièrement à jour leurs pages de destination lorsque des articles sont en rupture de stock, que de nouveaux produits sont ajoutés ou que d'autres changements d'inventaire se produisent.
  • Les sites de commerce électronique ont tendance à dupliquer les pages (par exemple, les pages de produits) et les identifiants de session (par exemple, les cookies). Les deux sont perçues comme des URL à « faible valeur ajoutée » par Googlebot, ce qui a un impact négatif sur le taux de crawl

Un autre défi pour influencer le budget de crawl est que Google peut l'augmenter ou le diminuer à tout moment. Bien qu'un sitemap soit une étape importante pour les grands sites Web afin d'améliorer l'exploration et l'indexation de leurs pages les plus importantes, il ne suffit pas pour garantir que Google ne maximise pas votre budget d'exploration sur des pages de moindre valeur ou sous-performantes.

Alors, comment les webmasters peuvent-ils optimiser leur budget de crawl ?

Bien que les propriétaires de sites puissent définir des limites d'exploration plus élevées dans leurs comptes Google Search Console, le paramètre ne garantit pas une augmentation des demandes d'exploration ni n'influence les pages que Google finit par explorer. Il peut sembler que la solution la plus naturelle consiste à demander à Google d'explorer votre site Web plus fréquemment, mais il existe des optimisations très limitées qui ont une corrélation directe avec l'augmentation du taux d'exploration.

Nous savons tous qu'une bonne budgétisation ne consiste pas à augmenter vos limites de dépenses ; il s'agit d'être plus sélectif quant à ce sur quoi vous dépensez votre argent. Lorsque vous appliquez ce même concept au budget de crawl, cela peut donner d'énormes résultats. Voici quelques étapes stratégiques pour aider Google à dépenser votre budget à votre avantage.

Étape 1 : Identifiez les pages que Google explore réellement sur votre site

Jusqu'à récemment, le rapport d'exploration de Google Search Console indiquait uniquement aux propriétaires de sites combien de demandes d'exploration leur site recevait des jours donnés. Bien que le nouveau rapport sur les statistiques d'exploration de Google fournisse des informations beaucoup plus détaillées sur l'exploration, le meilleur endroit pour comprendre comment Google explore votre site est toujours dans les fichiers journaux de votre serveur.

Lorsque Google visite votre site Web, il utilise un agent utilisateur particulier. Cela permet à votre serveur de savoir que le trafic provient en fait de Googlebot et non d'une personne réelle.

(Vous y trouverez également le bot de Bingbot et Ahrefs).

Analyseur de journaux Oncrawl

Analyse des fichiers journaux pour la surveillance des bots et l'optimisation du budget de crawl. Détectez les problèmes de santé du site et améliorez votre fréquence de crawl.
Apprendre encore plus

Les propriétaires de sites qui analysent le contenu de ce fichier journal obtiendront de nombreuses informations sur le budget d'exploration de Google pour leur site. Le fichier révélera quelques éléments :

  • Quelles pages l'agent utilisateur visite
  • Combien de pages cet agent explore-t-il par jour ?
  • Si oui ou non l'une des pages explorées est 404ing ou cassée

Idéalement, vous souhaitez que Google explore les pages de destination de votre site Web qui sont optimisées pour les mots clés les plus importants. De plus, les propriétaires de sites ne devraient jamais gaspiller leur budget de crawl sur des 404. Google Search Console ne vous montrera que certaines de vos erreurs 404 logicielles, mais vous pouvez toutes les identifier dans les journaux de votre serveur.

Une fois que vous disposez d'informations plus détaillées sur les pages de votre site Web qui sont explorées, effectuez les actions suivantes :

  • Ajouter des balises robots : si Googlebot explore ces 404 ou ces pages cassées, la priorité numéro un doit être d'ajouter des balises robots [noindex, nofollow] pour empêcher Googlebot d'explorer et d'indexer ces pages.
  • Ajustez votre sitemap : si les journaux de votre serveur révèlent que Google n'explore pas vos pages potentiellement très performantes, placez-les plus haut dans votre sitemap pour vous assurer qu'elles sont explorées.

Étape 2 : Acceptez que toutes vos pages de destination n'aient pas besoin d'être classées dans Google

La principale raison pour laquelle tant de sites Web d'entreprise gaspillent leur budget d'exploration est qu'ils permettent à Google d'explorer chaque page de destination de leur site. De nombreux sites Web aiment même mettre toutes leurs pages dans leur application mobile afin que Google puisse toutes les trouver et les explorer. C'est une erreur, car en réalité, toutes nos pages de destination ne seront pas classées.

Quelle est la valeur d'avoir une page de destination dans l'index de Google ? Classement et conversion. Si votre site Web a des pages de destination qui ne tirent pas leur poids en se classant pour plusieurs mots clés ou en convertissant les visiteurs du site en prospects et en revenus, pourquoi même prendre le risque de laisser Google les explorer ?

Les propriétaires de sites d'entreprise et de commerce électronique doivent savoir quelles pages de leurs sites Web sont optimisées pour la conversion et ont les meilleures chances de classement et de conversion. Ensuite, ils doivent tirer parti de tous les avantages possibles pour s'assurer que Google dépense son budget d'exploration sur ces pages très performantes.

Les pages de destination de votre site Web qui ont un classement et un potentiel de conversion élevés valent la peine de dépenser un budget de crawl. Voici quelques conseils pour vous assurer que Googlebot inclut ces pages dans votre budget.

  • Réduisez le nombre de pages de votre plan de site . Concentrez-vous uniquement sur les pages qui ont réellement de bonnes chances de se classer et d'obtenir du trafic organique.
  • Supprimez les pages peu performantes ou inutiles . Supprimez les pages qui n'apportent aucune valeur car elles n'ont pas de classement, de conversion ou d'objectif fonctionnel.
  • Taille du contenu . Élaguez les pages qui ne génèrent pas de trafic organique et redirigez-les vers d'autres pages de destination de votre site qui sont pertinentes et génèrent du trafic. Notez que les redirections consomment un peu de votre budget de crawl, alors essayez de les utiliser avec parcimonie et ne les utilisez jamais deux fois de suite.

Il est difficile pour un propriétaire de site de laisser tomber du contenu, mais il est beaucoup plus facile d'empêcher Google d'explorer certaines pages que d'amener Google à augmenter votre budget d'exploration global. Nettoyer votre site afin que les robots d'exploration de Google soient plus susceptibles de trouver et d'indexer les meilleurs éléments est une priorité absolue si vous souhaitez dépenser votre budget d'exploration à bon escient.

Étape 3 : Utilisez des liens internes pour améliorer les pages les plus performantes pour les robots d'exploration de Google

Une fois que vous avez identifié les pages que Google explore, ajouté les balises robots nécessaires, supprimé ou élagué les pages peu performantes et apporté des ajustements à votre sitemap, les robots d'exploration de Google seront plus enclins à dépenser leur budget sur les bonnes pages de votre site Web.

Mais pour vraiment maximiser ce budget, vos pages doivent avoir ce qu'il faut pour se classer. Les meilleures pratiques de référencement sur la page sont essentielles, mais une stratégie technique plus avancée consiste à utiliser votre structure de liens interne pour élever ces pages potentiellement très performantes.

Tout comme Googlebot n'a qu'un budget d'exploration limité, votre site Web ne dispose que d'un certain montant d'équité en fonction de son empreinte Internet. Il est de votre responsabilité de concentrer vos fonds propres de manière intelligente. Cela signifie diriger l'équité du site vers les pages qui ciblent les mots-clés pour lesquels vous avez de bonnes chances de vous classer et sur celles qui vous apportent du trafic avec les bons types de clients, ceux qui sont susceptibles de convertir et qui ont réellement une valeur économique.

Cette stratégie de référencement est connue sous le nom de sculpture PageRank. Si vous avez un grand site Web avec des milliers de pages de destination, un stratège avancé peut effectuer des expériences de référencement pour optimiser le profil de liaison interne de votre site Web pour une meilleure distribution du PageRank. Si vous êtes un nouveau site Web, vous pouvez prendre une longueur d'avance en incorporant la sculpture PageRank dans l'architecture de votre site et en pensant à l'équité du site avec chaque nouvelle page de destination que vous créez.

Voici deux de mes stratégies préférées pour analyser mes pages afin de déterminer laquelle bénéficierait le plus de la sculpture PageRank.

  • Trouvez les pages de votre site web qui ont un bon trafic mais qui n'ont pas assez de PageRank . Trouvez des moyens d'obtenir plus de liens internes sur ces pages et d'y envoyer plus de PageRank. Les ajouter à l'en-tête ou au pied de page de votre site Web est un excellent moyen de le faire rapidement, mais n'exagérez pas les liens dans votre menu de navigation.
  • Concentrez-vous sur les pages qui ont beaucoup de liens internes, mais qui n'obtiennent pas beaucoup de trafic, recherchent des impressions et se classent pour très peu de mots clés . Les pages recevant beaucoup de liens internes contiennent généralement beaucoup de PageRank. S'ils n'utilisent pas ce PageRank pour amener du trafic organique sur votre site, ils le gaspillent. Il est préférable de déplacer ce PageRank vers des pages qui peuvent réellement déplacer l'aiguille.

Comprendre le rôle que joue chaque lien de votre site Web non seulement dans l'envoi de Googlebot sur votre site Web, mais aussi dans la distribution de votre équité en matière de liens, est la dernière étape de l'optimisation du budget de crawl. Une bonne structure de liens internes peut entraîner des améliorations spectaculaires du classement de vos pages d'argent. En fin de compte, la meilleure façon de dépenser votre budget de crawl est sur les pages de destination qui sont les plus susceptibles de vous rapporter des revenus.

Après avoir mis en œuvre vos modifications, gardez un œil sur le classement des mots-clés pour ces pages améliorées dans un outil Google Search Console. Si le classement s'améliore pour ces pages, cela montre que l'optimisation de votre budget de crawl fonctionne. Ensuite, lorsque vous ajoutez de nouvelles pages à votre site Web, soyez plus sélectif quant à savoir si elles méritent ou non de grignoter votre budget de crawl. Sinon, continuez à diriger les crawlers uniquement vers les pages qui travaillent le plus pour votre marque.