Maillage interne : comment déterminer les pages les plus importantes à lier ?

Publié: 2021-05-03

Si les liens externes (backlinks) font partie des axes d'amélioration souvent évoqués pour améliorer votre référencement, le maillage interne est souvent négligé, mais il est tout aussi important. En effet, une bonne structure de maillage interne peut faire toute la différence dans des secteurs très concurrentiels.

Si, pour un petit site, définir les pages les plus importantes à lier en premier peut être une tâche relativement facile, qu'en est-il des sites avec des milliers voire des millions de pages ?

Dans l'article d'aujourd'hui, je vais vous expliquer une méthodologie que vous pouvez appliquer à votre projet afin de déterminer les pages prioritaires.

Analyse N-gram de nos mots-clés

Tout d'abord, nous devons comprendre quels mots-clés sont le plus souvent utilisés pour rechercher notre produit ou service. Si vous avez déjà ouvert un rapport Google Search Console, vous aurez probablement remarqué que de nombreuses structures de mots clés peuvent exister. Par exemple, pour l'achat d'un vol entre deux villes différentes, prenons Lyon et Barcelone, les recherches peuvent être :

  • Vol lyon barcelone
  • Vol lyon barcelone
  • Vol pas cher lyon barcelone
  • Etc.

Avoir ce type de pluralité de structures de mots clés n'est pas spécifique à l'industrie du voyage, et vous avez probablement une situation similaire dans votre propre industrie.

Cependant, il est essentiel de savoir quelles sont les structures les plus utilisées afin de pouvoir mener à bien notre analyse. Comment peut-on le faire? Simplement en effectuant une analyse n-gramme (séquence de N mots utilisée comme mot-clé) de nos propres données Google Search Console.

Avant d'expliquer comment procéder, permettez-moi de clarifier une chose : malheureusement, les données de la Google Search Console ne sont pas parfaites.

[Étude de cas] Comment le référencement orienté business augmente le trafic et les conversions

Grâce à une stratégie de référencement gagnante axée sur la gestion du contenu dupliqué, l'amélioration de la structure du site et l'analyse du comportement de Googlebot, carwow a grandi en tant qu'entreprise. Découvrez comment afficher les résultats réels d'une stratégie de référencement basée sur le retour sur investissement de l'entreprise.
Lire l'étude de cas

Limites

Avant de commencer notre analyse, nous devons être conscients que les métriques affichées par l'outil lorsque vous incluez la dimension "requête" ne représentent que 30 à 50 % (le chiffre exact dépendra de votre site) du total affiché si vous incluez la dimension dimension "page", par exemple.

Autrement dit : l'outil souffre d'un échantillonnage dimensionnel. Cela signifie que les métriques retournées par Google Search Console seront différentes selon ce que vous analysez (requêtes, pages…). Je précise également que j'ai obtenu ces données via l'API, c'est-à-dire en interagissant avec toutes les données disponibles, au lieu de passer par l'interface que tout le monde connaît et qui ne permet d'analyser qu'un maximum de 1000 éléments.

Si vous travaillez avec Python, vous pouvez lire la documentation officielle de Google ou, mieux encore, utiliser cette bibliothèque qui vous fera gagner beaucoup de temps. Je l'utilise moi-même régulièrement.

Cela dit, Google Search Console est tout de même plus exhaustif que n'importe quel autre outil tiers tel que SEMrush, SEObserver, Ahrefs ou Sistrix, pour ne citer que les plus connus.

Méthodologie pour obtenir vos n-grammes

Afin d'obtenir vos n-grammes, vous devez suivre cette procédure :

Téléchargez vos données Google Search Console

Il est important de télécharger vos données pour une seule verticale. Comme les n-grammes d'une section Vol et d'une section Train de votre site seront probablement différents, si vous mélangez vos données, vous pourriez obtenir des n-grammes valables uniquement pour la verticale la plus recherchée.

Si votre site est nouveau ou s'il apparaît rarement sur la première page, je vous recommande d'utiliser une source de données supplémentaire.

Supprimer les variables

Dans certains cas, vous devrez peut-être supprimer certains éléments de ces mots clés. Par exemple, supposons que ma liste ne contienne que 4 mots clés :

  • Vol paris rome
  • vol pas cher paris rome
  • Vol lyon barcelone
  • Vol pas cher lyon barcelone

Je souhaite obtenir des n-grammes sous forme de structures, contenant des variables. Ici, par exemple, je veux garder uniquement : le vol {{origin}} {{destination}} et le vol pas cher {{origin}} {{destination}} , sans les villes. Dans votre cas, vous devrez peut-être remplacer le nom de vos produits, la taille, etc… Cela dépendra de votre secteur d'activité.

Calculer les n-grammes et récupérer les volumes de recherche

Vous pouvez utiliser le système que vous préférez : dans mon cas, j'utilise Python, qui a l'avantage d'être simple et de gérer la quantité de données que nous avons sur un ordinateur ordinaire (sans le faire planter).

 #importer des bibliothèques
importer des collections
importer nltk
importer numpy en tant que np
importer des pandas en tant que pd

#créer une liste de mots-clés uniques
list_of_keywords = rapport['requête'].tolist()

#créer une liste de mots contenus dans ces mots clés
list_of_words_in_keywords = [x.split(" ") pour x dans list_of_keywords]

# compter les plus courants
comptes = collections.Compteur()
pour la phrase dans list_of_words_in_keywords :
  counts.update(nltk.ngrams(phrase, 1))
  counts.update(nltk.ngrams(phrase, 2))

Vous pouvez également utiliser la fonction native d'Oncrawl pour analyser votre contenu et découvrir des n-grammes qui n'apparaissent pas (encore) dans Google Search Console.

Ensuite, il vous faudra récupérer les volumes de recherche pour chacune de ces structures, pour obtenir un tableau comme celui ci-dessous. Ce tableau présente les structures les plus courantes : celles qui enregistrent le plus grand nombre d'impressions pour notre secteur.

requête compter impressions
Vol {origine} {destination} 50 167000
Vol pas cher {origine} {destination} 676 30000
Billet {origine} {destination} 300 97000

Bravo d'avoir franchi cette étape. Je peux vous dire que vous voulez savoir à quoi nous utiliserons ces informations. La réponse est dans la partie suivante

[Étude de cas] Comment le référencement orienté business augmente le trafic et les conversions

Grâce à une stratégie de référencement gagnante axée sur la gestion du contenu dupliqué, l'amélioration de la structure du site et l'analyse du comportement de Googlebot, carwow a grandi en tant qu'entreprise. Découvrez comment afficher les résultats réels d'une stratégie de référencement basée sur le retour sur investissement de l'entreprise.
Lire l'étude de cas

Extraction des volumes de recherche

Rappelons que notre objectif est de définir les pages les plus importantes à lier en premier.

Afin de comprendre quelles pages ont le potentiel de trafic le plus élevé, nous devons récupérer les volumes de recherche des différentes structures de mots-clés les plus courantes, pour chaque page. Nous ne prendrons ici en compte que le volume de recherche ; la notion de CTR viendra plus tard !

Vous commencez à comprendre à quoi servait l'étape précédente ? Afin de gagner en efficacité, l'utilisation d'une API est obligatoire. De nombreuses solutions, dont la plupart sont des solutions payantes, existent. Si vous utilisez DataForSEO, obtenir des volumes pour 350 000 mots-clés vous coûtera moins de 40€, on ne parle donc pas non plus d'un investissement conséquent.

A la fin de cette étape, vous aurez un fichier avec le volume potentiel par URL. Il s'agit de la somme des volumes des n-grammes les plus courants calculés à l'étape précédente.

Fusionner les données

A ce stade, nous ne pouvons évidemment pas utiliser ces données pour prioriser les pages les plus importantes de notre site. Pourquoi pas?

Ne mélangeons pas volume et trafic !

Dans certains cas, même si vous êtes en première position, votre CTR peut encore être faible. Cela est souvent dû au nombre d'annonces et de fonctionnalités SERP affichées par Google au-dessus de votre page. Voici un exemple sur une requête météo où le premier élément Google attire fortement l'attention de l'utilisateur bien avant que celui-ci ne puisse atteindre le premier résultat organique.

Limites des n-grammes

L'importance des mots-clés de longue traine peut varier selon le secteur. Les structures qui n'auraient pas été retenues dans un premier temps (ou qui sont cachées par Google Search Console) pourraient néanmoins représenter une part intéressante du potentiel. Il faut donc les inclure.

Importance de chaque page

En tant qu'expert SEO, notre objectif n'est pas de générer du trafic, mais de générer des ventes via les moteurs de recherche. Il est donc crucial, si vous le pouvez, de compléter cette analyse avec les données de votre service commercial. Par exemple, les données sur la marge commerciale peuvent vous aider à déterminer les URL à privilégier.

Reprenons le tableau de la fin de l'étape précédente, et ajoutons d'autres données qu'il peut être utile de mesurer :

  • Exposition potentielle (volume / impressions)
  • Trafic réel (sessions / clics)
  • Revenu (taux de conversion / marge / revenu)

Voici un exemple de présentation de ce tableau :

Pondérer les données

Afin de classer chaque élément de contenu en fonction de son exposition potentielle, de son trafic potentiel et de ses revenus, vous devez décider de la pondération de chacun de ces éléments.

Je ne peux pas proposer de pourcentages standards ; à vous de définir les pourcentages qui conviendront à votre propre situation.

Standardisation

Veuillez noter que nous ne pouvons pas encore définir l'importance de chacune de nos pages. Le résultat que nous obtenons en pondérant les données que nous avons obtenues précédemment n'est pas encore valide.

Explication : Par définition, les impressions seront supérieures aux clics et aux sessions. Cela est particulièrement vrai dans les secteurs où les CTR sont faibles. Sans traitement préalable de nos données, nous risquons de surpondérer les impressions (et de sous-pondérer les sessions).

Comment résoudre ce problème ? En standardisant nos données ! Ce procédé permet de redimensionner les variables numériques afin qu'elles soient comparables sur une échelle commune (source). Grâce à une manipulation mathématique, notre distribution de données quantitatives aura une valeur moyenne de 0 et un écart type de 1.

Si vous êtes curieux, la formule mathématique est la suivante :

X_standard = valeur normalisée
X = valeur initiale
μ = moyenne (moyenne) de notre distribution
σ = écart type de notre distribution

Il est très simple d'appliquer cette formule à vos données :

Appliquez cette formule à toutes les données que vous souhaitez prendre en compte dans votre calcul. Cela éliminera définitivement le problème de la surpondération d'une métrique.

Calcul du score

Une fois que vous avez défini vos poids et calculé vos valeurs standardisées, vous pouvez attribuer un score à chacune de vos URL pour déterminer son importance. Dans cet exemple, nous avons 4 mesures, chacune pondérée de manière égale à 25 %, mais vous pouvez évidemment utiliser d'autres chiffres.

Cette méthodologie permet donc de placer en premier une URL qui est objectivement la meilleure : un volume de recherche moindre, mais des impressions élevées, et surtout un CTR impressionnant.

Grâce à ces informations, vous pourrez définir votre structure de liens internes de manière beaucoup plus complète et pertinente que si vous la basez sur un seul critère, comme le volume de recherche. A vous de faire le lien :

  • Depuis la page d'accueil : les pages les plus importantes
  • D'une catégorie : les pages les plus importantes de la catégorie en question
  • Etc.

Conclusion

La méthodologie n-gram est efficace et a l'avantage d'être applicable à de nombreux projets. Il vous suffit de l'adapter en utilisant les données les plus importantes de votre industrie. Malgré l'utilisation d'un concept mathématique qui peut être nouveau pour certains (la standardisation), il est aussi simple à expliquer et à mettre en pratique avec les outils dont vous disposez.

Il vous fournira les informations nécessaires pour construire votre maillage interne en fonction du potentiel et des résultats de vos pages. Une tâche parfois complexe à obtenir pour les grands chantiers.

Il ne vous reste plus qu'à l'appliquer !