Une introduction à l'analyse des fichiers journaux SEO
Publié: 2021-05-17L'analyse des journaux est le moyen le plus approfondi d'analyser la façon dont les moteurs de recherche lisent nos sites. Chaque jour, les référenceurs, les spécialistes du marketing numérique et les spécialistes de l'analyse Web utilisent des outils qui affichent des diagrammes sur le trafic, les comportements des utilisateurs et les conversions. Les référenceurs essaient généralement de comprendre comment Google explore leur site via Google Search Console.
Alors… pourquoi un SEO devrait-il analyser d'autres outils pour vérifier si un moteur de recherche lit correctement le site ? Bon, commençons par les bases.
Que sont les fichiers journaux ?
Un fichier journal est un fichier dans lequel le serveur Web écrit une ligne pour chaque ressource du site Web demandée par les robots ou les utilisateurs. Chaque ligne contient des données sur la demande, qui peuvent inclure :
IP de l'appelant, date, ressource requise (page, .css, .js, …), user-agent, temps de réponse, …
Une ligne ressemblera à ceci :
66.249.**.** - - [13/Apr/2021:00:07:31 +0200] "GET /***/x_*** HTTP/1.1" 200 40960 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "www.***.it" "-"
Crawlabilité et possibilité de mise à jour
Chaque page a trois statuts SEO de base :
- rampable
- indexable
- classable
Du point de vue de l'analyse des logs, nous savons qu'une page, pour être indexée, doit être lue par un bot. De même, le contenu déjà indexé par un moteur de recherche doit être re-crawlé pour être mis à jour dans les index du moteur de recherche.
Malheureusement, dans Google Search Console, nous n'avons pas ce niveau de détail : nous pouvons vérifier combien de fois Googlebot a lu une page sur le site au cours des trois derniers mois et à quelle vitesse le serveur Web a répondu.
Comment vérifier si un bot a lu une page ? Bien sûr, en utilisant des fichiers journaux et un analyseur de fichiers journaux.
Pourquoi les référenceurs ont-ils besoin d'analyser les fichiers journaux ?
L'analyse des fichiers journaux permet aux référenceurs (et aux administrateurs système également) de comprendre :
- Exactement ce qu'un bot lit
- Combien de fois le bot le lit
- Combien coûtent les crawls, en termes de temps passé (ms)
Un outil d'analyse des logs permet d'analyser les logs en regroupant les informations par « chemin », par type de fichier ou par temps de réponse. Un excellent outil d'analyse des journaux nous permet également de joindre les informations obtenues à partir des fichiers journaux avec d'autres sources de données telles que Google Search Console (clics, impressions, positions moyennes) ou Google Analytics.
Analyseur de journaux Oncrawl
Que rechercher dans les fichiers journaux ?
L'une des principales informations importantes dans les fichiers journaux est ce qui ne s'y trouve pas. Vraiment, je ne plaisante pas. La première étape pour comprendre pourquoi une page n'est pas indexée ou n'est pas mise à jour vers sa dernière version est de vérifier si le bot (par exemple Googlebot) l'a lue.
Suite à cela, si la page est fréquemment mise à jour, il peut être important de vérifier à quelle fréquence un bot lit la page ou la section du site.
L'étape suivante consiste à vérifier quelles pages sont lues le plus fréquemment par les bots. En les suivant, vous pouvez vérifier si ces pages :
- mérite d'être lu si souvent
- ou sont lus si souvent parce que quelque chose sur la page provoque des changements constants et incontrôlables
Par exemple, il y a quelques mois, un site sur lequel je travaillais avait une fréquence très élevée de lectures de robots sur une URL étrange. Le bot a révélé que cette page provenait d'une URL créée par un script JS, et que cette page était tamponnée avec des valeurs de débogage qui changeaient à chaque chargement de la page… Suite à cette révélation, un bon référenceur peut sûrement trouver la bonne solution pour résoudre ce problème. trou de budget de crawl.
Budget d'exploration
Budget de crawl ? Qu'est-ce que c'est? Chaque site a son budget métaphorique lié aux moteurs de recherche et à leur bot. Oui : Google établit une sorte de budget pour votre site. Ce n'est enregistré nulle part, mais vous pouvez le "calculer" de deux manières :
- vérification du rapport de statistiques d'exploration de la console de recherche Google
- vérifier les fichiers journaux, les filtrer ( les filtrer ) par l'agent utilisateur contenant "Googlebot" ( vous obtiendrez de meilleurs résultats si vous vous assurez que ces agents utilisateurs correspondent aux bonnes adresses IP de Google… )
Le budget de crawl augmente lorsque le site est mis à jour avec du contenu intéressant, ou lorsqu'il met régulièrement à jour du contenu, ou lorsque le site reçoit de bons backlinks.
La façon dont le budget de crawl est dépensé sur votre site peut être gérée par :
- liens internes (follow / nofollow aussi !)
- noindex / canonique
- robots.txt (attention : cela « bloque » le user-agent)
Pages zombies
Pour moi, les « pages zombies » sont toutes les pages qui n'ont pas eu de trafic organique ou de visites de robots pendant une période de temps considérable, mais qui ont des liens internes pointant vers elles.
Ce type de page peut utiliser trop de budget de crawl et peut recevoir inutilement du page rank à cause des liens internes. Cette situation peut être résolue :
- Si ces pages sont utiles pour les utilisateurs qui viennent sur le site, nous pouvons les définir sur noindex et définir les liens internes vers eux comme nofollow ( ou utiliser disallow robots.txt, mais soyez prudent avec cela… )
- Si ces pages ne sont pas utiles pour les utilisateurs qui viennent sur le site, nous pouvons les supprimer (et retourner un code de statut de 410 ou 404) et supprimer tous les liens internes.
Avec Oncrawl, nous pouvons créer un « rapport zombie » basé sur :
- Impressions CGC
- Clics GSC
- AG
Nous pouvons également utiliser les événements du journal pour découvrir les pages zombies : nous pouvons définir un filtre d'événement 0, par exemple. L'un des moyens les plus simples de procéder consiste à créer une segmentation. Dans l'exemple ci-dessous, je filtre toutes les pages avec les critères suivants : pas de hits Googlebot mais avec un Inrank (cela veut dire que ces pages ont des liens internes qui pointent vers elles).
Nous pouvons donc désormais utiliser cette segmentation dans tous les rapports Oncrawl. Cela nous permet d'obtenir des informations à partir de n'importe quel graphique, par exemple : combien de "pages zombies de journal" renvoient un code d'état 200 ?
Pages orphelines
Pour moi, les "pages orphelines" qui méritent d'être examinées attentivement sont toutes les pages qui ont une valeur élevée sur des métriques importantes (session GA, impression GSC, accès au journal, ...) qui n'ont pas de liens internes pointant vers elles pour partager le classement de la page et indiquer l'importance de la page.
Comme pour les « pages zombies », pour créer un rapport basé sur les logs, le mieux est de créer une nouvelle segmentation.
WOW, que de pages avec des sessions et des hits et sans inlinks !
Lors de la vérification d'un rapport basé sur "Zero Follow Inlinks", veuillez faire attention au statut d'exploration : Oncrawl a-t-il pu explorer tout le site, ou seulement quelques pages ? Vous pouvez le voir sur la page principale du projet :
Si la profondeur maximale est atteinte :
- Vérifiez votre configuration d'exploration
- Vérifiez la structure de votre site
Fichiers journaux et Oncrawl
Que propose Oncrawl dans ses tableaux de bord par défaut ?
Journal en direct
Ce tableau de bord est utile pour vérifier les informations clés sur la façon dont les bots lisent vos sites, dès que les bots visitent le site et avant que les informations des fichiers journaux ne soient complètement traitées. Pour en tirer le meilleur parti, je vous recommande de télécharger fréquemment les fichiers journaux : vous pouvez le faire via FTP, via des connecteurs tels que celui d'Amazon S3, ou vous pouvez le faire manuellement via l'interface Web.
Le premier graphique montre la fréquence de lecture de votre site et par quel bot. Dans l'exemple que vous pouvez voir ci-dessous, nous pouvons vérifier les accès de bureau par rapport aux accès mobiles. Dans ce cas, nous avons envoyé à Oncrawl les fichiers journaux filtrés uniquement pour Googlebot :
Il est intéressant de voir à quel point le nombre de lectures mobiles est encore très élevé : est-ce normal ? Cela dépend… Le site que nous analysons est toujours en « mobile-first index » mais ce n'est pas un site entièrement responsive : c'est un site Web à service dynamique (comme l'appelle Google) et Google vérifie toujours les deux versions !
Un autre diagramme intéressant est "Bot hits by page group". Par défaut, Oncrawl crée des groupes basés sur des chemins d'URL. Mais nous pouvons définir des groupes manuellement afin de regrouper les URL qui ont le plus de sens à analyser ensemble.
Comme vous pouvez le voir, le jaune gagne ! Il représente des URL avec un chemin de produit, il est donc normal qu'il ait un impact aussi élevé, d'autant plus que nous avons des campagnes Google Shopping payantes.
Et… oui, nous venons de confirmer que Google utilise le Googlebot standard pour vérifier l'état des produits liés au flux marchand !
Comportement d'exploration
Ce tableau de bord affiche des informations similaires au "journal en direct", mais ces informations ont été entièrement traitées et sont agrégées par jour, semaine ou mois. Ici, vous pouvez définir une période de date (début/fin), qui peut remonter dans le temps aussi loin que vous le souhaitez. Il existe deux nouveaux diagrammes pour approfondir l'analyse des journaux :
- Comportement de crawl : pour vérifier le rapport entre les pages crawlées et les pages nouvellement crawlées
- Fréquence de crawl par jour
La meilleure façon de lire ces diagrammes est de relier les résultats aux actions du site :
- Avez-vous déplacé des pages ?
- Avez-vous mis à jour certaines sections ?
- Avez-vous publié du nouveau contenu ?
Impact sur le référencement
Pour le référencement, il est important de surveiller si les pages optimisées sont lues ou non par les bots. Comme nous l'avons écrit sur les "pages orphelines", il est important de s'assurer que les pages les plus importantes/mises à jour sont lues par les robots afin que les informations les plus récentes soient disponibles pour les moteurs de recherche afin d'être classées.
Oncrawl utilise le concept de « pages actives » pour indiquer les pages qui reçoivent du trafic organique des moteurs de recherche. À partir de ce concept, il montre quelques chiffres de base, tels que :
- Visites SEO
- Pages actives de référencement
- SEO active ratio (la proportion de pages actives parmi toutes les pages crawlées)
- Fresh Rank (le temps moyen qui s'écoule entre le moment où le bot lit la page pour la première fois et la première visite organique)
- Pages actives non explorées
- Pages nouvellement actives
- Fréquence de crawl par jour de pages actives
Comme le veut la philosophie d'Oncrawl, en un seul clic, on peut aller au plus profond du lac d'information, filtré par la métrique sur laquelle on a cliqué ! Par exemple : quelles sont les pages actives non crawlées ? Un clic…
Santé mentale de l'exploration
Ce dernier tableau de bord nous permet de vérifier la qualité du crawl du bo, ou plus exactement, la façon dont le site se présente aux moteurs de recherche :
- Analyse du code d'état
- Analyse du code d'état par jour
- Analyse du code de statut par groupe de pages
- Analyse du temps de réponse
Il est obligatoire pour un bon travail de référencement de :
- réduire le nombre de réponses 301 provenant de liens internes
- supprimer les réponses 404/410 des liens internes
- optimisez le temps de réponse, car la qualité du crawl Googlebot est directement liée au temps de réponse : essayez de réduire de moitié le temps de réponse sur votre site et vous verrez (en quelques jours) que la quantité de pages crawlées doublera.
La science de l'analyse des logs et de l'explorateur de données d'Oncrawl
Jusqu'à présent, nous avons vu les rapports standard d'Oncrawl et comment les utiliser pour obtenir des informations personnalisées via des segmentations et des groupes de pages.
Mais le cœur de l'analyse des journaux est de comprendre comment trouver quelque chose qui ne va pas. Généralement, le point de départ de l'analyse consiste à vérifier les pics et à les comparer au trafic et à vos objectifs :
- pages les plus explorées
- pages les moins explorées
- les ressources les plus explorées (pas les pages)
- fréquences de crawl par type de fichier
- impact des codes d'état 3xx / 4xx
- impact des codes d'état 5xx
- pages explorées plus lentement
- …
Voulez-vous aller plus loin ? Bon… vous devez ajouter des données. Et Oncrawl propose un outil vraiment puissant comme Data Explorer.
Comme vous pouvez le voir dans une capture d'écran précédente (pages actives non crawlées), vous pouvez créer tous les rapports que vous souhaitez en fonction de votre cadre d'analyse.
Par example:
- pires pages de trafic organique avec beaucoup de crawl par les bots
- meilleures pages de trafic organique avec trop de crawl par les bots
- pages plus lentes avec beaucoup d'impressions SERP
- …
Ci-dessous, vous pouvez voir comment j'ai vérifié quelles sont les pages les plus explorées en fonction de leur nombre de sessions SEO :
Plats à emporter
L'analyse des logs n'est pas strictement technique : pour le faire de la meilleure façon possible, nous devons combiner des compétences techniques, des compétences en référencement et des compétences en marketing.
Trop souvent, une analyse est exclue d'une « liste de contrôle SEO » parce que notre client n'a pas accès aux fichiers journaux ou parce que cela peut être une analyse coûteuse.
La réalité est que les logs sont les seules sources pour vraiment vérifier où vont les bots sur nos sites, et pour savoir comment nos serveurs y répondent.
Un outil comme Oncrawl peut réduire considérablement les exigences techniques : il suffit de télécharger les fichiers journaux et de commencer à les analyser !