Les clés pour construire un Robots.txt qui fonctionne
Publié: 2020-02-18Les robots, également connus sous le nom de Crawlers ou Spiders, sont des programmes qui "voyagent" automatiquement sur le Web d'un site Web à l'autre en utilisant les liens comme route. Bien qu'ils aient toujours présenté certaines curiosités, les fichiers robot.txt peuvent être des outils très efficaces. Les moteurs de recherche tels que Google et Bing utilisent des bots pour explorer le contenu du Web. Le fichier robots.txt fournit des conseils aux différents bots quant aux pages qu'ils ne doivent pas explorer sur votre site. Vous pouvez également créer un lien vers votre plan de site XML à partir du fichier robots.txt afin que le bot dispose d'une carte de chaque page qu'il doit explorer.
Pourquoi robots.txt est-il utile ?
robots.txt limite le nombre de pages qu'un robot doit explorer et indexer dans le cas des robots des moteurs de recherche. Si vous souhaitez empêcher Google d'explorer les pages d'administration, vous pouvez les bloquer sur votre robots.txt afin d'essayer de garder une page hors des serveurs de Google.
En plus d'empêcher les pages d'être indexées, robots.txt est idéal pour optimiser le budget de crawl. Le budget d'exploration est le nombre de pages que Google a déterminé qu'il explorera sur votre site. Habituellement, les sites Web avec plus d'autorité et plus de pages ont un budget de crawl plus important que les sites Web avec un faible nombre de pages et une faible autorité. Comme nous ne savons pas combien de budget de crawl est affecté à notre site, nous voulons tirer le meilleur parti de ce temps en permettant à Googlebot d'accéder aux pages les plus importantes au lieu de crawler les pages que nous ne voulons pas indexer.
Un détail très important que vous devez savoir sur robots.txt est que, bien que Google n'explore pas les pages bloquées par robots.txt, elles peuvent toujours être indexées si la page est liée à un autre site Web. Pour empêcher correctement vos pages d'être indexées et d'apparaître dans les résultats de recherche Google, vous devez protéger par mot de passe les fichiers sur votre serveur, utiliser la balise meta noindex ou l'en-tête de réponse, ou supprimer entièrement la page (répondez avec 404 ou 410). Pour plus d'informations concernant le crawl et le contrôle de l'indexation, vous pouvez lire le guide robots.txt d'OnCrawl.
[Étude de cas] Gérer le bot crawling de Google
Corriger la syntaxe Robots.txt
La syntaxe robots.txt peut parfois être un peu délicate, car différents robots interprètent la syntaxe différemment. En outre, certains crawlers non réputés voient les directives robots.txt comme des suggestions et non comme une règle précise qu'ils doivent suivre. Si vous avez des informations confidentielles sur votre site, il est important d'utiliser une protection par mot de passe en plus de bloquer les robots utilisant le fichier robots.txt
Ci-dessous, j'ai énuméré quelques éléments que vous devez garder à l'esprit lorsque vous travaillez sur votre fichier robots.txt :
- Le fichier robots.txt doit résider dans le domaine et non dans un sous-répertoire. Les robots d'exploration ne vérifient pas les fichiers robots.txt dans les sous-répertoires.
- Chaque sous-domaine a besoin de son propre fichier robots.txt :
- Robots.txt est sensible à la casse :
- La directive noindex : lorsque vous utilisez noindex dans le robots.txt, cela fonctionnera de la même manière que disallow. Google arrêtera de crawler la page mais la conservera dans son index. @jroakes et moi avons créé un test où nous avons utilisé la directive Noindex sur l'article /wordpress/filters/ et soumis la page dans Google. Vous pouvez voir sur la capture d'écran ci-dessous que l'URL a été bloquée :
Nous avons fait plusieurs tests dans Google et la page n'a jamais été supprimée de l'index :
Il y a eu une discussion l'année dernière sur la directive noindex fonctionnant dans le robots.txt, supprimant des pages mais Google. Voici un fil où Gary Illyes a déclaré qu'il s'en allait. Sur ce test, nous pouvons voir que la solution de Google est en place, puisque la directive noindex n'a pas supprimé la page des résultats de recherche.
Récemment, il y a eu un autre fil intéressant sur Twitter de Christian Oliveira, où il a partagé plusieurs détails à prendre en considération lorsque vous travaillez sur votre robots.txt.
- Si nous voulons avoir des règles génériques et des règles uniquement pour Googlebot, nous devons dupliquer toutes les règles génériques sous l'ensemble de règles User-agent : Google bot. S'ils ne sont pas inclus, Googlebot ignorera toutes les règles :
- Un autre comportement déroutant est que la priorité des règles (à l'intérieur du même groupe User-agent) n'est pas déterminée par leur ordre, mais par la longueur de la règle.
- Maintenant, lorsque vous avez deux règles, avec la même longueur et un comportement opposé (l'une autorisant le crawl et l'autre l'interdisant), la règle la moins restrictive s'applique :
Pour plus d'exemples, veuillez lire les spécifications robots.txt fournies par Google.
Outils pour tester votre Robots.txt
Si vous souhaitez tester votre fichier robots.txt, plusieurs outils peuvent vous aider, ainsi que quelques dépôts github si vous souhaitez créer le vôtre :
- Distillé
- Google a laissé l'outil de test robots.txt de l'ancienne console de recherche Google ici
- Sur Python
- Sur C++
Exemples de résultats : utilisation efficace d'un fichier Robots.txt pour le commerce électronique
Ci-dessous, j'ai inclus un cas où nous travaillions avec un site Magento qui n'avait pas de fichier robots.txt. Magento ainsi que d'autres CMS ont des pages d'administration et des répertoires avec des fichiers que nous ne voulons pas que Google explore. Ci-dessous, nous avons inclus un exemple de certains des répertoires que nous avons inclus dans le fichier robots.txt :
# # Annuaires généraux de Magento Interdire : / application / Interdire : / téléchargeur / Interdire : / erreurs / Interdire : / inclut / Interdire :/lib/ Interdire : /pkginfo/ Interdire : / shell / Interdire : / var / # # Ne pas indexer la page de recherche et les catégories de liens non optimisés Interdire : /catalog/product_compare/ Interdire : /catalog/category/view/ Interdire : /catalog/product/view/ Interdire : /catalog/product/gallery/ Interdire : /catalogsearch/
L'énorme quantité de pages qui n'étaient pas censées être explorées affectait leur budget d'exploration et Googlebot n'arrivait pas à explorer toutes les pages de produits du site.
Vous pouvez voir sur l'image ci-dessous comment les pages indexées ont augmenté après le 25 octobre, date à laquelle le fichier robots.txt a été implémenté :
En plus de bloquer plusieurs répertoires qui n'étaient pas destinés à être explorés, les robots ont inclus un lien vers les sitemaps. Sur la capture d'écran ci-dessous, vous pouvez voir comment le nombre de pages indexées a augmenté par rapport aux pages exclues :
Il y a une tendance positive sur les pages valides indexées comme indiqué par les barres vertes et une tendance négative sur les pages exclues représentées par les barres grises.
Emballer
L'importance de robots.txt peut parfois être sous-estimée et, comme vous pouvez le voir dans cet article, de nombreux détails doivent être pris en compte lors de la création d'un fichier. Mais le travail porte ses fruits : j'ai montré quelques-uns des résultats positifs que vous pouvez obtenir en configurant correctement un fichier robots.txt.