Comment puis-je me débarrasser des pages supplémentaires dans l'index Google ?

Publié: 2023-12-06

Pages Web flottant dans le paysage du cyberespace.

Supposons que vous ayez un site Web de commerce électronique proposant des milliers de produits, chacun présentant des variations de tailles et de couleurs. Vous utilisez le rapport de couverture de l'index de la console de recherche Google pour afficher une liste des pages indexées dans les résultats de recherche Google pour votre site Web.

À votre grande surprise, vous voyez bien plus de pages que ce que le site Web devrait avoir. Pourquoi cela se produit-il et comment s’en débarrasser ?

Je réponds à cette question dans notre série « Ask Us Anything » sur YouTube. Voici la vidéo, puis vous pourrez en savoir plus sur ce problème courant et sa solution ci-dessous.

  • Pourquoi ces pages Web « supplémentaires » apparaissent-elles dans l'index de Google ?
  • Comment puis-je me débarrasser des pages Web « supplémentaires » dans l'index de Google ?
  • Résumé
  • FAQ : Comment puis-je supprimer les pages supplémentaires de l'index Google de mon site Web ?

Pourquoi ces pages Web « supplémentaires » apparaissent-elles dans l'index de Google ?

Ce problème est courant pour les sites Web de commerce électronique. Des pages Web « supplémentaires » peuvent apparaître dans l'index de Google car des URL supplémentaires sont générées sur votre site Web de commerce électronique.

Voici comment procéder : lorsque les internautes utilisent les paramètres de recherche sur un site Web pour spécifier certaines tailles ou couleurs d'un produit, il est courant qu'une nouvelle URL soit automatiquement générée pour ce choix de taille ou de couleur.

Cela provoque une page Web distincte. Même s'il ne s'agit pas d'un produit « distinct », cette page Web peut être indexée comme la page principale du produit, si elle est découverte par Google via un lien.

Lorsque cela se produit et que vous disposez de nombreuses combinaisons de tailles et de couleurs, vous risquez de vous retrouver avec de nombreuses pages Web différentes pour un même produit. Désormais, si Google découvre les URL de ces pages Web, vous risquez de vous retrouver avec plusieurs pages Web dans l'index Google pour un produit.

Comment puis-je me débarrasser des pages Web « supplémentaires » dans l'index de Google ?

À l’aide de la balise canonique, vous pouvez faire en sorte que toutes ces URL de variantes de produits pointent vers la même page de produit d’origine. C'est la bonne façon de gérer le contenu quasi-dupliqué, tel que les changements de couleur.

Voici ce que Google a à dire sur l'utilisation de la balise canonique pour résoudre ce problème :

Une URL canonique est l'URL de la page que Google considère comme la plus représentative d'un ensemble de pages en double sur votre site. Par exemple, si vous avez des URL pour la même page (example.com?dress=1234 et example.com/dresses/1234), Google en choisit une comme canonique. Il n'est pas nécessaire que les pages soient absolument identiques ; des modifications mineures dans le tri ou le filtrage des pages de liste ne rendent pas la page unique (par exemple, tri par prix ou filtrage par couleur d'article) .

Google continue en disant que :

Si vous disposez d'une seule page accessible via plusieurs URL, ou de différentes pages avec un contenu similaire… Google les considère comme des versions en double de la même page. Google choisira une URL comme version canonique et l'explorera, et toutes les autres URL seront considérées comme des URL en double et explorées moins souvent.

Si vous ne dites pas explicitement à Google quelle URL est canonique, Google fera le choix pour vous ou pourra les considérer toutes deux comme ayant le même poids, ce qui pourrait conduire à un comportement indésirable…

Mais que se passe-t-il si vous ne souhaitez pas du tout que ces pages « supplémentaires » soient indexées ? À mon avis, la solution canonique est la voie à suivre dans cette situation.

Mais il existe deux autres solutions que les gens ont utilisées dans le passé pour retirer les pages de l'index :

  1. Bloquer des pages avec robots.txt (non recommandé, et j'expliquerai pourquoi dans un instant)
  2. Utilisez une balise méta robots pour bloquer des pages individuelles

Option Robots.txt

Le problème avec l'utilisation de robots.txt pour bloquer des pages Web est que son utilisation ne signifie pas que Google supprimera les pages Web de l'index.

Selon Google Search Central :

Un fichier robots.txt indique aux robots des moteurs de recherche à quelles URL ils peuvent accéder sur votre site. Ceci sert principalement à éviter de surcharger votre site de requêtes ; ce n'est pas un mécanisme permettant de garder une page Web hors de Google.

De plus, une directive d'interdiction dans robots.txt ne garantit pas que le bot n'explorera pas la page. C'est parce que robots.txt est un système volontaire. Cependant, il serait rare que les principaux robots des moteurs de recherche ne respectent pas vos directives.

Quoi qu’il en soit, ce n’est pas un premier choix optimal. Et Google le déconseille.

Option de balise méta des robots

Voici ce que Google dit à propos de la balise méta robots :

La balise méta robots vous permet d'utiliser une approche granulaire et spécifique à une page pour contrôler la manière dont une page individuelle doit être indexée et présentée aux utilisateurs dans les résultats de recherche Google.

Placez la balise méta robots dans la section <head> d'une page Web donnée. Ensuite, encouragez les robots à explorer cette page via une soumission de plan de site XML ou naturellement (ce qui peut prendre jusqu'à 90 jours).

Lorsque les robots reviendront explorer la page, ils rencontreront la balise méta robots et comprendront la directive de ne pas afficher la page dans les résultats de recherche.

Résumé

Alors pour récapituler :

  • L’utilisation de la balise canonique est la solution la meilleure et la plus courante au problème des pages « supplémentaires » indexées dans Google – un problème courant pour les sites Web de commerce électronique.
  • Si vous ne souhaitez pas du tout que les pages soient indexées, envisagez d'utiliser la balise méta robots pour indiquer aux robots des moteurs de recherche la manière dont vous souhaitez que ces pages soient traitées.

Vous êtes toujours confus ou souhaitez que quelqu'un s'occupe de ce problème pour vous ? Nous pouvons vous aider avec vos pages supplémentaires et les supprimer de l'index Google pour vous. Planifiez une consultation gratuite ici.

FAQ : Comment puis-je supprimer les pages supplémentaires de l'index Google de mon site Web ?

Le problème des pages supplémentaires dans l’index Google de votre site Web peut constituer un obstacle important. Ces pages excédentaires proviennent souvent de la génération de contenu dynamique, comme les variations de produits sur les sites de commerce électronique, créant un index encombré qui affecte les performances de votre site.

Comprendre la cause profonde est crucial. Les sites de commerce électronique, en particulier, sont confrontés à des défis lorsque divers attributs de produits déclenchent la génération de plusieurs URL pour un seul produit. Cela peut conduire à de nombreuses pages indexées, ce qui a un impact sur le référencement et l'expérience utilisateur de votre site.

L'utilisation de la balise canonique est la solution la plus fiable pour résoudre ce problème. La balise canonique signale à Google la version préférée d'une page, consolidant le pouvoir d'indexation sur une URL unique et représentative. Google lui-même recommande cette méthode, soulignant son efficacité dans la gestion des contenus quasi-dupliqués.

Bien que certains puissent envisager d'utiliser robots.txt pour bloquer des pages Web, ce n'est pas optimal. Google interprète le fichier robots.txt comme une directive permettant de contrôler l'accès des robots, et non comme un outil de suppression de l'index. En revanche, la balise méta robots offre une approche plus ciblée, permettant un contrôle précis sur l’indexation de chaque page.

La balise canonique reste la solution incontournable. Cependant, s’il existe une forte préférence pour une suppression totale de l’index, la balise méta du robot peut être un allié stratégique. Équilibrer le désir d’un index rationalisé avec les meilleures pratiques de référencement est la clé pour optimiser efficacement votre présence en ligne.

Maîtriser l'élimination des pages supplémentaires de l'index Google de votre site Web implique une combinaison stratégique de compréhension du problème, de mise en œuvre des meilleures pratiques telles que la balise canonique et d'envisager des alternatives pour des scénarios spécifiques. En adoptant ces stratégies, les webmasters peuvent améliorer le référencement de leur site, améliorer l'expérience utilisateur et maintenir une présence en ligne claire et efficace.

Procédure étape par étape :

  1. Identifiez les pages supplémentaires : effectuez un audit approfondi pour identifier toutes les pages excédentaires dans l'index Google de votre site Web.
  2. Déterminer la cause première : comprenez pourquoi ces pages sont générées, en vous concentrant sur les éléments de contenu dynamiques.
  3. Donner la priorité à la balise canonique : insistez sur l'utilisation de la balise canonique comme solution principale pour le contenu quasi-dupliqué.
  4. Implémenter des balises canoniques : appliquez des balises canoniques à toutes les pages pertinentes, en spécifiant la version préférée pour la consolidation.
  5. Vérifiez les recommandations Google : alignez les stratégies sur les directives de Google, en garantissant la compatibilité et le respect.
  6. Option Évaluer Robots.txt : Comprenez les limites et les inconvénients potentiels avant d’envisager robots.txt.
  7. Déployer la balise méta des robots : utilisez les balises méta des robots de manière stratégique pour contrôler l'indexation sur des pages spécifiques si nécessaire.
  8. Balance SEO Impact : Considérez l’impact de chaque solution sur le référencement et l’expérience utilisateur pour une prise de décision éclairée.
  9. Surveillance régulière : Établir une routine pour surveiller les changements d'indice et évaluer l'efficacité des stratégies mises en œuvre.
  10. Optimisation itérative : Affinez et optimisez en permanence les stratégies basées sur l'évolution de la dynamique du site et des algorithmes de Google.

Continuez à affiner et à adapter ces étapes en fonction des caractéristiques uniques de votre site Web et de l'évolution des paysages SEO.