RegEx pour le référencement : 12 utilisations des expressions régulières
Publié: 2024-06-07Les développeurs de sites Web et les spécialistes du marketing de contenu savent que les données sont de l'or. Il peut constituer la base d’informations approfondies que vous utilisez pour réorganiser ou affiner une stratégie numérique.
Mais comment tirer le meilleur parti de vos données ?
Vous disposez probablement d'une console de recherche Google et connaissez ses principales fonctions de requête : "égal à" et "contient". Ceux-ci peuvent vous donner des moyens de regrouper les informations sur les données de manière à pouvoir les utiliser pour créer des rapports significatifs contenant des informations stratégiques.
Et si vous pouviez effectuer des recherches plus puissantes que les simples connecteurs intégrés tels que « égal » et « contient » ? C'est la promesse de RegEx, un outil de codage facile à mettre en œuvre et à utiliser.
Nous allons vous donner ici les bases de RegEx, en quoi il est différent et comment vous pouvez l'utiliser pour améliorer votre jeu de référencement.
Qu'est-ce qu'un RegEx et à quoi ressemble-t-il ?
RegEx est depuis longtemps un secret de Polichinelle parmi les développeurs. Il offre une immense flexibilité dans la façon dont vous recherchez et structurez vos données, vous permettant de personnaliser des rapports avec des informations détaillées qui ne sont pas disponibles uniquement avec les outils intégrés de la console de recherche Google.
RegEx signifie Expression Régulière. C'est un outil de codage qui fait office de fonction de recherche. "Rechercher et remplacer", que presque tous ceux qui ont utilisé un document texte récemment ont probablement utilisé, est en fait une RegEx.
En effet, RegEx est partout, y compris dans les outils que les gens utilisent quotidiennement comme Microsoft Word, Notepad et le moteur de recherche Google. Ainsi, même s'il s'agit de code et qu'il s'intègre parfaitement dans de nombreux langages de programmation, son potentiel et ses fonctionnalités sont faciles à comprendre.
Ses avantages dans le développement de votre stratégie de référencement sont vastes, notamment en vous aidant à identifier les modèles de recherche et à accéder aux données qui se cachent sous la surface de Google Search Console.
Avant de discuter de RegEx en SEO, prenons une minute pour définir une chaîne RegEx et à quoi elle ressemble. Un exemple simple est cette série de caractères :
- /t[aeiou]+/g
Cette RegEx recherche toutes les instances de la lettre « t » suivie d'une voyelle. Imaginons que vous appliquiez ce modèle à la phrase suivante :
- J'ai mangé des toasts assis à la table de Greg.
Le RegEx récupérerait les résultats suivants :
- Je mange un toast en étant assis à la table de Greg.
Il s'agit d'un exemple relativement simple d'application de RegEx. Il peut avoir une séquence de caractères plus longue et plus complexe. Certains symboles fournissent également des « instructions » sur le fonctionnement du RegEx, comme les crochets identifiant la plage de caractères pouvant suivre le « t » dans l'exemple. Les signes de ponctuation, notamment les points d'interrogation et les astérisques, sont également fondamentaux pour les chaînes RegEx.
Pour cet article de blog, nous allons nous concentrer sur un seul attribut des filtres RegEx qu'il est important de connaître avant d'utiliser RegEx pour optimiser vos rapports SEO et vos audits techniques SEO. C'est la différence entre « gourmand » et « paresseux » dans une correspondance d'expression régulière. Dans RegEx, vous pouvez appliquer un code quantificateur qui vous aide à choisir un modèle RegEx « gourmand » ou un modèle RegEx « paresseux ».
Modèle RegEx gourmand
Il peut être facile de voir que les correspondances possibles pour une chaîne de recherche RegEx varient en fonction des paramètres exacts du filtre RegEx. Dans notre exemple, l’expression a récupéré la chaîne de recherche la plus longue possible pour correspondre au modèle. Le "t" suivi de n'importe quelle voyelle que le modèle d'expression régulière conduit à un résultat qui reprend à la fois le "te" dans "ate" ainsi que le "toa" dans "toast".
Étant donné que ce modèle RegEx recherche la chaîne la plus longue possible, il est appelé « gourmand ». En fait, les résultats de « toast » ne seraient pas seulement « toa » mais plus précisément « to » et « toa ». Il est important de savoir que vous obtiendrez ce type de résultats afin que vous puissiez pleinement comprendre vos correspondances de modèles RegEx.
Modèle paresseux
Dans un modèle paresseux, RegEx recherche les correspondances les plus courtes possibles avec une chaîne. Dans notre exemple, un modèle RegEx paresseux ne récupérerait plus « toa » dans « toast » comme résultat distinct ; cela s'arrêterait par « to », car il s'agit de la chaîne la plus courte possible correspondant à la requête RegEx.
Prenons l'exemple d'une recherche RegEx qui recherche la lettre « y », suivie d'un nombre quelconque de caractères, suivi d'un « l ».
- Dans un modèle gourmand, le RegEx récupérerait « crier » et « jaune » dans un ensemble de données incluant ces mots.
- Dans un modèle paresseux, le RegEx ne récupérerait que « yel » dans le même ensemble de données.
Quels sont les avantages de l’utilisation d’expressions régulières ?
RegEx est un outil puissant pour produire des rapports sur vos données de recherche. En examinant en profondeur votre activité numérique, vous pouvez exploiter des informations que vous pouvez utiliser pour optimiser le contenu, effectuer des recherches de mots clés, et bien plus encore. Lorsque vous plongez dans Google Analytics, RegEx peut vous aider à aller au-delà des simples fonctions d'introduction de la plateforme.
Voyons cela en détail : comment Google Analytics et les expressions régulières fonctionnent ensemble pour le référencement et comment une recherche d'expressions régulières Google peut optimiser vos données.
Top 12 des utilisations de RegEx pour l'optimisation des moteurs de recherche
RegEx a ses utilisations évidentes : identifier le contenu en double, par exemple, ainsi que trouver le meilleur texte d'ancrage le plus susceptible de correspondre à une requête de recherche. Mais il existe au moins une douzaine de façons dont RegEx peut vous aider dans votre référencement. Voici quelques-unes des meilleures utilisations de l’expression régulière.
1. Analyse des URL
Il peut sembler étrange de vouloir analyser des URL avec RegEx, mais pensez au scénario du commerce électronique : il est probable que vous ayez des milliers d'URL individuelles qui correspondent toutes à des pages de produits. La possibilité d'analyser en profondeur vos données de conversion et de filtrer les URL spécifiques qui correspondent à l'activité des consommateurs est inestimable.
Vous pouvez utiliser ces données pour identifier les URL que les clients voient et auxquelles ils répondent, ainsi que celles qu'ils ne voient pas. RegEx vous permet d'utiliser des chaînes telles que la catégorie de produit ou le nom dans les URL pour récupérer l'activité de ce groupe d'URL. Vous pouvez également effectuer une analyse intelligente des URL en suivant la liste des URL visitées par un utilisateur pour développer une idée claire du parcours client.
2. Effectuer une analyse des mots clés
Vous pouvez utiliser RegEx pour approfondir les mots-clés que les gens recherchent et utilisent pour trouver et interagir avec votre site. Il s'agit d'un outil puissant qui vous permet d'identifier les recherches de niche, les chaînes à fort taux de conversion et les expressions clés dont vous pouvez exploiter la capacité à générer des conversions avec votre stratégie de contenu.
RegEx vous permet de rechercher des chaînes, en utilisant un modèle gourmand ou paresseux, qui peuvent être difficiles à visualiser à l'aide des simples outils existants de la console de recherche Google « contient » ou « est égal ». Vous trouverez ici des mots-clés à longue traîne très performants mais parfois difficiles à repérer qui peuvent vous aider à stimuler vos ventes.
3. Création de groupes de canaux et d'événements personnalisés
Google aime également proposer des catégories en matière de sources de trafic et d'activités. La plate-forme dispose de groupements de canaux prédéfinis qui vous permettent d'identifier le trafic arrivant sur votre site via ces canaux. Il configure également des événements tels que les « pages vues » que vous pouvez suivre dans le cadre d'une stratégie d'analyse de base.
Avec RegEx, vous pouvez personnaliser toutes ces informations analytiques. Vous pouvez créer un groupe de canaux adapté à votre stratégie, tel que « trafic provenant d'utilisateurs d'applications en Europe continentale ». Les avantages sont clairs : vous pouvez définir vos groupes selon les critères les plus importants pour comprendre le succès de votre stratégie de marketing numérique.
4. Identifier les pages sous-performantes
Vous vous souvenez de notre note sur le site e-commerce aux milliers d'URL ? C'est un état courant pour de nombreux développeurs de sites Web : un long index de pages de sites Web et un besoin d'analyses personnalisables pour voir lesquelles offrent les meilleurs retours. Mais cela ne s'arrête pas là, car certaines URL peuvent contenir des erreurs. Le modèle d'activité des utilisateurs peut être différent de celui des autres pages. Peut-être que les visiteurs ne convertissent pas ou ne cliquent pas vers d'autres pages.
RegEx vous permet de plonger en profondeur dans l'activité liée à chacune de ces pages. Vous pouvez utiliser ces données pour commencer à corriger les erreurs ou pour effectuer une analyse au niveau de la page.
Ceci est utile pour la maintenance continue. Cela peut également être la première étape pour voir si une modification de votre stratégie peut aider à optimiser ce qui fonctionne bien et à remédier à ce qui ne fonctionne pas.
5. Hors références
Vos rapports de trafic dans Google Analytics 4 capturent généralement toutes les sources de référence, mais vous souhaiterez peut-être en fait exclure certaines références de trafic de vos rapports. Disons que vous lancez une campagne de paiement par clic. Le modèle de trafic qui vous aide à suivre les performances de la campagne peut être le suivant :
- URL de l'annonce → URL de confirmation d'achat
Dans cet exemple, l'URL de l'annonce est la source du trafic. Mais le plus souvent, le modèle qui apparaît dans l’analyse est le suivant :
- URL de l'annonce → Passerelle de paiement → URL de confirmation d'achat
Au lieu d'identifier l'URL de l'annonce comme source de référence pour le trafic d'achat, les analyses identifient la passerelle de paiement. Ce n’est évidemment pas idéal d’un point de vue analytique, car vos clients peuvent accéder à la passerelle de paiement à partir de plusieurs sources différentes.
En utilisant les exclusions de référencement, vous pouvez supprimer les sources de référence potentielles, comme la passerelle de paiement dans cet exemple, de vos analyses.
L'exclusion des références est réalisable en utilisant RegEx dans GA4 :
- Recherchez l'option "Configurer les paramètres des balises".
- Choisissez l'option permettant d'exclure les références en fonction de "Le domaine de référence correspond à RegEx".
- Entrez votre chaîne RegEx.
L'avantage d'utiliser RegEx de cette manière est que vous n'avez pas besoin de répertorier plusieurs domaines à exclure dans vos rapports ; vous pouvez simplement identifier la chaîne RegEx.
6. Segmentation des utilisateurs en fonction de leur comportement pour créer des audiences
Tout comme vous utilisez RegEx pour créer des canaux personnalisés, vous pouvez explorer vos données analytiques pour découvrir une image du comportement des utilisateurs. Ce processus, appelé segmentation comportementale, vous permet de diviser les utilisateurs répondant à des critères particuliers en audiences segmentées.
Il s'agit d'une analyse complète qui englobe le parcours client, les canaux fréquentés par ces utilisateurs et les messages auxquels ils répondent. La segmentation de vos audiences vous permet de développer des stratégies de marketing numérique ciblées individuellement pour chaque groupe.
7. Effectuer des contrôles de cohérence de l'index
Tâche souvent laissée aux développeurs, la vérification de la cohérence de l'index garantit que l'index d'un site local correspond à l'index de la base de données associée. RegEx offre une facilité et des fonctionnalités supérieures avec cette tâche, car vous pouvez utiliser des modèles RegEx gourmands ou RegEx paresseux pour identifier toute inadéquation entre les deux et y remédier en conséquence.
8. Évaluation du contenu en identifiant les éléments HTML
Une partie du référencement technique consiste à garantir que le code de votre site Web est facile à explorer pour les moteurs de recherche. Le code doit généralement être bien structuré et bien organisé. Un code trop encombré peut avoir un impact négatif sur le référencement. RegEx peut vous aider à identifier les chaînes de code « maladroites » sur votre site Web afin que vous puissiez le nettoyer lors du processus d'optimisation.
Les développeurs peuvent évaluer la qualité « back-end » du contenu en recherchant les lacunes. Les commandes RegEx peuvent vous aider à identifier les éléments de style de code médiocre, comme les lignes vides redondantes, les espaces blancs manquants ou les longueurs de lignes de code qui pourraient être trop longues.
Il s'agit d'un autre incident dans lequel RegEx est un outil précieux pour gagner du temps lorsque vous avez un site Web comportant des centaines, voire des milliers de pages.
9. Création de redirections intelligentes à partir de fichiers « .Htaccess »
Un fichier « .Htaccess » est un fichier caché qui provoque une redirection automatique d'une page à une autre. Supposons que vous ayez développé deux éléments de contenu autour de votre nouvelle gamme de produits : l'un est un entretien avec votre PDG sur le processus de développement et l'autre est une description des spécifications du produit.
Peut-être souhaitez-vous annuler l'entretien avec le PDG un mois après le lancement. Grâce à RegEx, vous pouvez identifier les chaînes de recherche qui ont conduit les gens vers cet élément de contenu et proposer des redirections intelligentes vers le contenu que vous souhaitez réellement qu'ils voient.
10. Recherche des requêtes des clients après leur achat
Les spécialistes du marketing numérique pourraient supposer que leur travail se termine au point de conversion. Mais les données après achat peuvent offrir un aperçu approfondi des préoccupations et des expériences des clients après l'achat. Ce que pense un client récent peut vous en dire beaucoup sur le fonctionnement du produit et sur la manière dont vous pouvez répondre de manière proactive à ces préoccupations.
Imaginons que vous vendiez un aspirateur à la pointe de la technologie. Vous voudrez peut-être savoir si les gens recherchent des informations sur des termes clés tels que « garantie », « période de retour », « ne fonctionne pas », « pièces de rechange » et « réclamations ».
Une requête RegEx peut vous aider à identifier les termes clés que vos clients pourraient rechercher après l'achat afin que vous puissiez être prêt à répondre. Cette réponse peut prendre la forme d'un ensemble de questions et réponses destinées à votre équipe de service client ou de pages pertinentes de votre site Web fournissant des informations sur les retours et la garantie.
11. Comparaison du trafic de marque et du trafic hors marque
Une question importante pour les spécialistes du marketing numérique est de savoir quel segment d'utilisateurs effectue une recherche par identité de marque par rapport à un produit, un service ou un secteur. Considérez « Coca-Cola » comme la marque, tandis que « boissons gazeuses », « boissons gazeuses », « soda » ou « sucré » sont tous des exemples de termes liés à Coca-Cola. Dans le trafic de recherche, « Coca-Cola » et « soda » sont tous deux des termes clés potentiels, mais l'un est spécifique à la marque et l'autre ne l'est pas.
Les spécialistes du marketing peuvent utiliser RegEx pour faire la distinction entre les visiteurs recherchant la marque et les termes liés à la marque et les visiteurs recherchant des termes non liés à la marque. Dans cet exemple, « Coca-Cola », « Coke » et « Diet Coke » sont tous des termes clés de la marque. Un exemple de rapport RegEx dans Google Search Console qui distingue les types de trafic est une requête RegEx qui « inclut » ou « exclut » les termes de marque que vous spécifiez.
Selon la façon dont vous utilisez RegEx, votre rapport « inclut » peut contenir uniquement ces termes de marque, ou il peut contenir tous les termes. Si vous utilisez un modèle RegEx paresseux, vous ne pouvez capturer que le trafic de marque ; avec un modèle RegEx gourmand, vous pouvez tout capturer.
12. Effectuer une analyse des fichiers journaux
Supposons que vous souhaitiez extraire les termes clés de vos fichiers journaux. RegEx peut vous aider à le faire efficacement, même si les valeurs apparaissent dans chaque ligne de journal dans un ordre différent ou n'apparaissent pas du tout dans chaque ligne de journal. En utilisant RegEx, vous pouvez identifier les journaux pertinents pour votre analyse de données et les utiliser pour créer un rapport cohérent.
Grâce à la flexibilité de RegEx, vous pouvez adopter un modèle paresseux pour éliminer les duplications dans les journaux répétitifs. Par défaut, les modèles RegEx sont gourmands. Utilisez des caractères spéciaux pour limiter vos recherches à un modèle paresseux si nécessaire, par exemple en utilisant « * ? » au lieu de "*". Une astuce consiste à commencer par une simple requête RegEx qui offre de la transparence dans la structure de vos journaux avant d'implémenter un modèle RegEx plus complexe.