[Webinar Digest] SEO in Orbit : Percer les secrets de l'indexation

Publié: 2019-11-06

Le webinaire Déverrouiller les secrets de l'indexation fait partie de la série SEO in Orbit et a été diffusé le 12 juin 2019. Dans cet épisode, Kevin Indig partage ses réflexions sur l'indexation des pages, comment les pages indexées pour un site influencent l'ensemble du site classements et quelles pages ne doivent pas être indexées. Quelle est la bonne approche vers cette étape intermédiaire entre faire découvrir des pages et les faire apparaître sur les SERP ?

SEO in Orbit est la première série de webinaires qui envoie le SEO dans l'espace. Tout au long de la série, nous avons discuté du présent et de l'avenir du référencement technique avec certains des meilleurs spécialistes du référencement et avons envoyé leurs meilleurs conseils dans l'espace le 27 juin 2019.

Regardez la rediffusion ici :

Présentation de Kevin Indig

Kevin Indig a aidé des startups à acquérir plus de 100 millions d'utilisateurs au cours des 10 dernières années. Il est VP SEO & CONTENT @ G2, mentor pour Growth @ GermanAccelerator, et dirigeait auparavant SEO @ Atlassian et Dailymotion. Sa spécialité est l'acquisition d'utilisateurs, la création de marque et la fidélisation des utilisateurs. Les entreprises avec lesquelles Kevin a travaillé incluent eBay, Eventbrite, Bosch, Samsung, Pinterest, Columbia, UBS et bien d'autres. Il dirige également le bulletin de marketing technique organisé, Tech Bound.

Cet épisode a été animé par Rebecca Berbel, Content Manager chez OnCrawl. Fascinée par la PNL et les modèles de langage machine en particulier, et par les systèmes et leur fonctionnement en général, Rebecca n'est jamais à court de sujets techniques SEO pour s'enthousiasmer. Elle croit en l'évangélisation de la technologie et en l'utilisation des données pour comprendre les performances des sites Web sur les moteurs de recherche.

Définitions

L'une des raisons pour lesquelles il est important de parler d'indexation est qu'il s'agit d'un sujet complexe. De nombreux référenceurs ont du mal avec l'indexation et comment l'influencer.

- Rampant

L'exploration en termes simples est le processus de découverte technique des moteurs de recherche comprenant une page Web et tous ses composants.

Cela aide Google à trouver toutes les URL qu'il peut ensuite revenir en arrière et afficher, puis indexer et éventuellement classer.

– Le processus en 3 étapes de Google

L'exploration fait partie du processus en 3 étapes de Google qui permet de créer des résultats de recherche :

  1. Rampant
  2. Le rendu
  3. Indexage

Ce sont des processus techniquement différents, gérés par différents programmes ou parties du moteur de recherche.

Le classement est potentiellement une quatrième étape dans ce processus.

– Indexation

L'indexation est le processus par lequel Google ajoute des URL à sa longue "liste" de résultats possibles. Si Kevin doit éviter le mot « index » dans une définition de l'indexation, il préférerait parler d'une « liste » métaphorique : Google a une « liste » d'URL qu'il peut utiliser pour classer et afficher les meilleurs résultats pour les utilisateurs. .

– Fichiers journaux

Les serveurs Web conservent un historique chaque fois que quelqu'un ou quelque chose demande une page ou une ressource sur le serveur.

Kevin est vraiment passionné par les fichiers journaux en tant que source de vérité lorsqu'il s'agit de comprendre comment Google explore et rend votre site.

Dans les journaux, nous pouvons trouver des informations de serveur sur la fréquence à laquelle Google visite votre site et ce qu'il y fait, en termes très clairs et simples. Les fichiers journaux contiennent des enregistrements individuels de chaque visite sur le site.

Vous pouvez obtenir une tonne d'informations à partir des fichiers journaux :

  • Erreurs de code d'état spécifiques
  • Problèmes d'exploration
  • Problèmes de rendu
  • Combien de temps Googlebot passe sur votre site
  • Quels Googlebots viennent sur votre site. Par exemple, avec l'index Mobile First, le principal Googlebot utilisé pour l'indexation a récemment été mis à jour.
  • Que la structure technique de votre site soit quelque chose que Google suit, ou si vous avez quelque chose qui peut être optimisé.

Façons de vérifier l'indexation

– Déconseillé : requêtes « site : »

Lorsque Kevin a débuté dans le référencement il y a environ 10 ans, il voyait quelles pages de son site étaient indexées en exécutant des recherches « site : » sur Google. Bien qu'il l'utilise encore parfois, ce n'est plus un moyen fiable de savoir si une URL est indexée.

Plus récemment, il a interrogé John Mueller sur cette stratégie ; il a vérifié que ce n'est plus un moyen recommandé de vérifier ce que Google a ou n'a pas indexé.

– Recommandé : inspection de l'URL de la console de recherche

John Mueller recommande plutôt d'utiliser l'outil d'inspection d'URL dans la console de recherche pour vérifier ce qui a été indexé.

– Recommandé : plans de site XML et rapport de couverture

La soumission d'un plan de site XML dans la Search Console est un moyen de vérifier un lot de vos URL, puis de vérifier le plan de site dans le rapport de couverture dans la console de recherche.

Importance de la distinction entre crawl-render-index

Comme mentionné, il existe un processus en 3 étapes dans lequel Google explore, affiche et indexe une page. Il est très important de distinguer chacune de ces étapes. À mesure que le Web devient plus sophistiqué, Google a dû s'adapter, séparer et améliorer ces processus individuellement.

Différents robots Google

Plusieurs Googlebots sont utilisés par Google pour explorer et afficher des sites Web. Vous disposez de différents types de ressources : images, vidéos, actualités, textes… Google utilise différents Googlebots pour comprendre chaque type de contenu.

Google a annoncé il y a environ un mois qu'il avait mis à jour son moteur de rendu pour qu'il fonctionne sur Googlebot à feuilles persistantes et le dernier moteur Chromium.

Ceci est important, car l'exploration et le rendu sont des étapes nécessaires qui mènent à l'indexation.

Changer les priorités dans le processus de Google

À des fins d'indexation, Google avait l'habitude d'explorer avec le Googlebot de bureau. Cela a été changé; ils utilisent désormais le smartphone Googlebot à des fins d'indexation.

L'indexation Mobile-First sera imposée à partir de juillet 2019 pour tous les nouveaux sites, et arrive pour tous les sites existants connus s'ils n'ont pas déjà été changés.

Crawl : façons dont Google trouve les URL à indexer

Pour pouvoir indexer une page, Google doit la crawler.

Comme première étape du processus menant à l'indexation, pour vous assurer que vos pages sont indexées correctement et rapidement, vous devez vous assurer que votre exploration est "sûre et saine".

Il existe essentiellement trois façons pour Google de trouver des URL :

  1. Liens : c'est sur quoi reposait tout le brevet PageRank - trouver de nouveaux sites grâce à des hyperliens
  2. Plans de site XML
  3. Explorations passées

– Comment Google priorise les URL (Crawl budget)

Google donne la priorité aux sites qu'il explore et à quelle fréquence. C'est ce qu'on appelle souvent le "budget de crawl".

Il y avait un article dans le blog Google Webmaster sur le budget de crawl qui donnait quelques idées sur la façon dont Google hiérarchise les sites à explorer.

– Popularité : backlinks et PageRank

L'un des points établis par cet article est que le PageRank est l'un des principaux moteurs de la vitesse et du volume d'indexation d'un site Web.

Les backlinks, bien sûr, sont une composante majeure du PageRank, et ont donc une influence sur le taux de crawl et l'indexation.

– Codes d'état

Les codes d'état sont également pris en compte. Par exemple, si vous avez beaucoup de pages 404 sur votre site, cela conduira probablement Google à réduire la fréquence des crawls.

Un autre exemple sont les chaînes et les boucles de redirection.

– Hygiène des chantiers

Si votre site est organisé d'une manière qui gaspille beaucoup de budget d'exploration, Google peut réduire le temps qu'il passe sur votre site.

– Vitesse de la page et temps de réponse du serveur

Le budget de crawl est également impacté par la vitesse de la page et le temps de réponse du serveur. Google ne veut pas DDoS votre site ; s'il constate que votre serveur a du mal à fournir des pages et des ressources au rythme auquel il les demande, il s'adaptera à ce que votre serveur peut gérer en termes de crawling.

Rendu : mise à jour de la caféine

La mise à jour de Caffeine publiée il y a quelques années était essentiellement une mise à jour de la structure de rendu de Google.

Indexation : différents clusters pour les types de contenu

Il existe différentes archives d'index que Google utilise pour renvoyer différents résultats. Il est raisonnable d'imaginer qu'il existe différents clusters dans l'index pour les résultats d'actualités, et un autre pour les résultats d'images, etc.

Classement : Algorithmes distincts

Enfin, les URL indexées sont classées, mais il s'agit d'un algorithme totalement différent.

Amélioration de la vitesse d'indexation

Obtenir des pages indexées plus rapidement et obtenir plus de pages indexées sont fortement influencés par le PageRank et donc par les backlinks. Mais les stratégies pour améliorer chacun sont différentes.

Si vous souhaitez que les pages soient indexées plus rapidement, vous souhaitez optimiser les deux premières étapes (exploration et rendu). Cela comprendra des composants tels que :

  • Maillage interne
  • Plans de site
  • Vitesse du serveur
  • Vitesse des pages

Amélioration du nombre de pages indexées

Si vous souhaitez indexer plus de pages, c'est là que l'aspect crawling est le plus important. Vous voudrez faciliter la recherche de toutes vos pages par Google. C'est simple sur un petit site Web avec un millier d'URL, mais c'est beaucoup plus difficile sur un site plus grand avec des millions d'URL.

Par exemple, G2 a une tonne de pages de différents types de pages. L'équipe SEO de Kevin veut s'assurer que Google est capable de trouver toutes les pages, quelle que soit la profondeur d'exploration et quel que soit le nombre de pages de ce type existantes ; c'est un défi majeur qui doit être abordé sous différents angles.

Variation des taux de crawl selon le profil de la page

En fonction du type de page, Kevin trouve souvent différents taux de crawl par Google. Cela dépend souvent du profil de backlink de l'URL et du maillage interne. C'est là qu'il utilise le plus les fichiers journaux.

Il segmente son site par type de page afin de comprendre où le site manque d'efficacité de crawl ou où l'efficacité de crawl est trop élevée.

Relation entre la vitesse de crawl, la vitesse d'indexation et le classement

Kevin a absolument observé des corrélations précises entre le taux de crawl, la vitesse d'indexation et le classement pour chaque type de pages. Cela a été vrai non seulement sur les sites avec lesquels il a travaillé, mais aussi dans la correspondance avec d'autres référenceurs du secteur.

Sans poser de lien de causalité entre le crawl, l'indexation et le classement, des éléments similaires qui pilotent l'indexation semblent également être pris en compte lorsqu'il s'agit de classer une page. Par exemple, si vous avez une tonne de backlinks vers un certain modèle de page pour un type de page donné (exemple : pages de destination), ce que vous trouverez dans vos fichiers journaux, c'est que si Google a un taux de crawl plus élevé sur ces pages à travers votre site, Google indexe également ces pages plus rapidement et classe généralement ces pages plus haut que les autres pages.

Il est difficile de faire des déclarations universelles valables pour tous les sites, mais Kevin encourage tout le monde à vérifier leurs fichiers journaux pour voir si cela est également vrai sur leur propre site. OnCrawl a également constaté que c'était le cas sur de nombreux sites différents qu'ils ont analysés.

Cela fait partie de ce qu'il a essayé de décrire avec le modèle TIPR de liaison interne qu'il a proposé.

Mesurer le taux de crawl

Pour mesurer le taux de crawl, vous souhaitez répondre à la question : à quelle fréquence un Googlebot donné visite-t-il une certaine URL ?

Comment vous "tranchez et coupez" cette autre question. Kevin aime regarder le nombre de visites Googlebot sur une base hebdomadaire. Vous pouvez également le consulter quotidiennement ou mensuellement.

– Se concentrer sur l'avant/après

Plus important que la période que vous utilisez est de regarder les changements dans le taux de crawl. Vous devriez regarder le taux avant d'apporter des modifications et après leur mise en œuvre.

– Se concentrer sur les différences entre les types de pages

Une autre clé pour mesurer le taux de crawl est de regarder où se trouvent les lacunes sur votre site. Au niveau du type de page, où se situent les différences entre les taux de crawl ? Quel type de pages est exploré une tonne ? Quels types de pages sont à peine explorées ?

– Observations courantes dans le comportement de crawl

Certaines observations intéressantes que Kevin a faites dans le passé incluent :

  • URL la plus explorée : robots.txt
  • La plupart du temps passé sur une URL/un groupe d'URL : les sitemaps XML, en particulier lorsqu'ils deviennent un peu plus volumineux

Fouiller dans les fichiers journaux pour trouver des différences de comportement d'exploration entre les types de pages est très révélateur. Recherchez quelles URL sont explorées quotidiennement et quelles URL sont explorées mensuellement. Cela peut vous en dire beaucoup sur l'efficacité de la structure de votre site pour l'exploration (et l'indexation, même s'il y a une étape entre les deux).

Répartition du budget de crawl en fonction du business model

Pour améliorer l'efficacité du crawl, la stratégie consiste généralement à réduire l'attention que Google accorde à certains types de pages et à la rediriger vers des pages plus importantes que le site Web.

La façon dont vous souhaitez gérer cela dépendra de la manière dont les conversions sont gérées sur le site. Kevin distingue deux modèles de site de base : les modèles commerciaux centralisés et décentralisés :

  • Les modèles décentralisés peuvent convertir les utilisateurs sur n'importe quelle page. Un bon exemple est Trello : vous pouvez vous inscrire sur n'importe quelle page. Tous leurs types de pages sont relativement similaires. Étant donné qu'aucune page n'a plus de valeur qu'une autre pour les inscriptions, l'objectif peut être d'avoir un taux d'exploration uniforme sur l'ensemble du site : vous voulez que tous les types de pages soient explorés à peu près au même rythme.
  • Les modèles centralisés pourraient être quelque chose comme Jira. Jira n'a pas un seul type de page que nous pouvons reproduire un million de fois : il n'y a que quelques pages de destination où les gens peuvent s'inscrire. Vous voulez vous assurer que votre budget de crawl sur un site comme celui-ci se concentre autour de vos points de conversion (vos landing pages).

La répartition de votre budget de crawl revient à la question de savoir comment votre site gagne de l'argent et quels types de pages jouent le rôle le plus important à cet égard.

Lutter contre les déchets de crawl

Pour empêcher les Googlebots de dépenser leur budget de crawl sur des pages moins importantes pour les conversions, il existe plusieurs méthodes.

Le meilleur moyen d'ignorer l'exploration est robots.txt :

  • Dans 99,99999% des cas, Google respecte les directives robots.txt.
  • Robots.txt peut aider à bloquer le crawling sur de larges sections de votre site avec du contenu fin ou dupliqué (Exemples classiques : profils d'utilisateurs sur un forum ; URL de paramètres…)

Il existe des cas légitimes où vous pourriez vouloir qu'une page ne soit pas indexée, mais qu'elle aide quand même à explorer. Kevin considérerait que certaines pages de hub entrent dans cette catégorie. C'est là qu'il utiliserait un meta noindex.

Il reconnaît que John Mueller a déclaré que les balises meta noindex sont finalement traitées comme nofollow, mais Kevin n'a jusqu'à présent jamais vu cela se produire sur le terrain. Il admet que cela pourrait être dû au fait que cela prend beaucoup de temps (plus d'un an ou plus). Au lieu de cela, il a tendance à trouver les Googlebots "gourmands" et à rechercher et suivre autant de liens que possible.

Le conseil de Kevin est d'utiliser robots.txt, et de l'utiliser au maximum. Vous pouvez utiliser des caractères génériques et des techniques très sophistiquées pour empêcher certaines choses d'être explorées.

La règle générale à suivre est que plus le contenu est fin, plus il est susceptible d'être un candidat à exclure de l'exploration.

Les pages exclues de l'exploration via robots.txt sont toujours indexables par Google si elles ont des liens internes ou des backlinks pointant vers elles. Si cela se produit, le texte de description dans les résultats de recherche indiquera que Google n'a pas pu explorer la page en raison d'une restriction dans robots.txt. En règle générale, cependant, ces pages ne sont pas bien classées à moins qu'elles n'aient été exclues que récemment dans robots.txt.

Problèmes d'indexation dus à des pages similaires

– Erreurs canoniques

Du point de vue de la programmation, les déclarations canoniques sont extrêmement faciles à se tromper. Kevin a vu le cas à quelques reprises où le canonique a eu un point-virgule (;) au lieu de deux-points (:) et ensuite vous rencontrez des tonnes de problèmes.

Les canoniques sont super sensibles dans certains cas et peuvent amener Google à se méfier de tous vos canoniques, ce qui peut alors être un énorme problème.

L'un des problèmes les plus courants avec les canoniques, cependant, est l'oubli des canoniques.

– Migrations de sites

Les migrations de sites sont souvent une source de problèmes avec les canoniques ; Kevin a vu des problèmes où le site a simplement oublié d'ajouter le nouveau domaine aux canoniques.

Ceci est extrêmement facile à oublier, en particulier lorsque votre CSM a besoin d'un ajustement manuel (plutôt que par programme) pour effectuer le changement lors d'une migration.

Le paramètre par défaut est que le canonique d'une page doit pointer vers lui-même, à moins qu'il n'y ait une raison spécifique de pointer vers une autre URL.

– HTTP à HTTPS

Il s'agit d'une autre erreur canonique courante qui empêche l'indexation de la bonne URL. Le mauvais protocole est parfois utilisé dans le canonique.

– Recherche de la source d'erreur lorsque Google ignore le canonique déclaré

Google choisira parfois son propre canonique. Lorsqu'ils se méfient de votre canonique déclaré, il y a généralement une cause profonde.

Kevin suggère d'éviter les situations dans lesquelles vous pourriez envoyer deux signaux contradictoires à Google :

  • Examinez vos plans de site XML
  • Explorez votre propre site et recherchez les canoniques défectueux
  • Examinez les paramètres des paramètres dans votre console de recherche pour trouver des paramètres en conflit
  • N'utilisez pas noindex et canonicals en même temps

Types de pages qui contribuent au gonflement de l'index

En SEO il y a dix ans, vous vouliez envoyer un maximum de pages à indexer : plus il y a de pages indexées, mieux c'est.

Aujourd'hui, ce n'est plus le cas. Vous ne voulez que des produits de la plus haute qualité dans votre boutique. Vous ne voulez pas de contenu inférieur à la normale dans l'index.

"Index gonflement" est généralement utilisé pour décrire un type de page qui ne fournit aucune valeur. Cela revient souvent à tout type de contenu léger, en particulier les cas où vous multipliez ou amplifiez le nombre de pages existantes sans apporter de valeur substantielle à chaque nouvelle page.

Les cas classiques où vous voudrez peut-être regarder combien de pages d'un type spécifique sont indexées et si elles apportent une valeur supplémentaire incluent :

  • Paramètres
  • Pagination
  • Forums
  • Pages liées à l'annuaire ou pages de porte
  • De nombreuses pages locales (villes) qui ne font pas de distinction entre les services ou le contenu
  • Navigations à facettes

Comment l'indexation affecte un site dans son ensemble

Vous ne voulez pas que les pages de qualité inférieure soient indexées aujourd'hui, car elles affectent la façon dont Google voit et évalue votre site dans son ensemble.

Une grande partie de cela revient au budget d'exploration. Alors que Gary Illyes et John Mueller ont souvent dit que la plupart des sites n'avaient pas à se soucier du budget d'exploration, le public pour le type de discussion que nous avons aujourd'hui est constitué de sites plus grands où cela fait une grande différence.

Vous voulez vous assurer que Google ne trouve que du contenu de haute qualité.

À l'instar de la relation que Kevin observe entre le taux de crawl, l'indexation et le classement, il observe également que prêter attention à la qualité des pages indexées semble payant pour l'ensemble du site. Bien qu'il soit difficile de faire des déclarations universelles, il semble que Google dispose d'une sorte de mesure de la qualité du site qui dépend des pages indexées de ce site. En d'autres termes, si vous avez beaucoup de contenu de mauvaise qualité qui est indexé, cela semble nuire à votre site.

C'est là que le gonflement de l'index est préjudiciable : c'est un moyen de diluer ou d'abaisser le « score » de qualité globale de votre site et cela gaspille votre budget de crawl.

Plans de site XML pour une indexation rapide

L'opinion de Kevin est qu'à mesure que Google est devenu plus intelligent, le nombre de "hacks" a diminué au fil du temps.

Cependant, en ce qui concerne l'indexation, il a découvert qu'une façon d'indexer rapidement quelque chose est d'utiliser un sitemap XML.

G2 a récemment migré vers un nouveau domaine. Ils ont un type de page qui prend beaucoup de temps à réexplorer, donc dans l'index de Google, vous avez toujours vu l'ancien domaine dans les extraits de pages de ce type. Lorsque Kevin a vu que les redirections 301 n'étaient pas prises en compte car elles n'avaient pas encore été crawlées, il a mis toutes les pages de ce type dans un sitemap XML et a fourni le sitemap à Google dans la Search Console.

Cette stratégie peut également être utilisée s'il y a un changement technique important sur le site que Kevin souhaite que Google comprenne le plus rapidement possible.

Importance croissante du référencement technique

Le référencement technique a pris de l'importance au cours des trois dernières années. Souvent, les questions techniques de référencement mettent en évidence des domaines vraiment sous-estimés.

Vous entendez souvent dire que le contenu et les backlinks sont les seules choses dont vous devez vous occuper. Bien que Kevin pense que ce sont des domaines de référencement très percutants, il pense qu'ils peuvent avoir encore plus d'impact si vous avez réussi votre référencement technique.

[Ebook] Crawlabilité

Assurez-vous que vos sites Web répondent aux exigences des moteurs de recherche en matière d'exploration afin d'améliorer les performances de référencement.
Lire l'ebook

Questions et réponses

– Bing et indexation de 10 000 URL/jour

Bing offre aux webmasters la possibilité de soumettre directement jusqu'à 10 000 URL par jour via leurs outils de webmaster pour une indexation plus rapide.

Kevin pense que c'est une direction dans laquelle Google pourrait également se diriger. Même Google, en tant que l'une des entreprises les plus précieuses au monde, doit protéger ses ressources. C'est l'une des raisons pour lesquelles, si vous gaspillez leurs ressources d'exploration, ils s'ajusteront en conséquence.

Que ce type de fonctionnalité soit ou non intéressant pour les webmasters dépendra également de la taille de votre site. Le nombre de sites qui bénéficieraient de la possibilité de soumettre autant d'URL par jour est limité, probablement par milliers ou par dizaines de milliers. Kevin présume que pour ces sites, Google consacre déjà des ressources importantes. Il semble que pour les plus grands sites du Web, Google fasse un travail décent en les indexant, avec les exceptions habituelles, bien sûr.

Il est probablement beaucoup plus facile pour Bing d'implémenter quelque chose à cette échelle : d'une part, leur part de marché est beaucoup plus petite, donc la demande pour cette fonctionnalité est moindre. La taille de leur indice est également probablement beaucoup plus petite, de sorte qu'ils en bénéficieront probablement davantage.

– Lorsque Google ignore robots.txt

Google n'ignore que très rarement robots.txt.

Parfois, ce qui nous amène à supposer que Google ignore robots.txt, c'est que, comme nous en avons déjà parlé, Google peut parfois indexer des pages bloquées par robots.txt, qui peuvent toujours être trouvées de plusieurs autres manières.

Vous pouvez également demander à Google d'ignorer les directives de votre fichier robots.txt si votre syntaxe dans le fichier robots.txt est incorrecte :

  • Caractères erronés
  • Utilisation de balises qui ne fonctionnent pas ou ne devraient pas fonctionner, comme les directives noindex

[Remarque : Kevin cite une étude de cas qui a révélé que Google respectait les directives noindex présentées dans le fichier robots.txt. Cependant, peu de temps après la diffusion de ce webinaire, Google a annoncé la fin de la prise en charge tacite de cette directive dans les fichiers robots.txt, à compter du 1er septembre 2019.]

Cependant, Google est l'une des entreprises qui maintient ses bots à un niveau élevé et n'ignore pas robots.txt.

Astuce

"Le PageRank est le principal moteur de l'indexation de la vitesse et du volume."

Le référencement en orbite est allé dans l'espace

Si vous avez raté notre voyage dans l'espace du 27 juin, rattrapez-le ici et découvrez tous les conseils que nous avons envoyés dans l'espace.