[Webinar Digest] SEO in Orbit : Rankbrain, IA, machine learning et l'avenir de la recherche
Publié: 2019-11-13Le webinaire Rankbrain, AI, machine learning and the future of search fait partie de la série SEO in Orbit et a été diffusé le 19 juin 2019. Dans cet épisode, Bill Slawski tire parti de sa connaissance des brevets Google et du fonctionnement de la recherche pour briser décrypter les algorithmes de recherche probables utilisés aujourd'hui et postuler à quoi cela pourrait ressembler sous le capot d'une future version de Google. Rejoignez-nous pendant que nous explorons l'avenir du référencement technique.
SEO in Orbit est la première série de webinaires qui envoie le SEO dans l'espace. Tout au long de la série, nous avons discuté du présent et de l'avenir du référencement technique avec certains des meilleurs spécialistes du référencement et avons envoyé leurs meilleurs conseils dans l'espace le 27 juin 2019.
Regardez la rediffusion ici :
Présentation de Bill Slawski
Expert autodidacte en matière de brevets sur les moteurs de recherche, Bill Slawski est directeur de la portée SEO chez Go Fish Digital et blogueur chez SEO by the Sea. Selon les propres mots de Bill : « Je ne suis pas un informaticien et je ne suis pas un mathématicien. J'ai un diplôme de premier cycle en anglais et un diplôme de jurisdoctor en droit. Je lis les brevets des moteurs de recherche depuis environ 2005, pour en savoir plus sur ce qu'ils ont à dire sur la recherche, les chercheurs et le Web. Beaucoup de ces brevets couvrent des algorithmes qui visent à résoudre des problèmes particuliers, et j'en ai trouvé beaucoup utiles lorsqu'il s'agit d'effectuer du référencement.
Cet épisode a été animé par François Goube, entrepreneur en série, et co-fondateur et PDG d'OnCrawl. Il a fondé plusieurs entreprises et est activement impliqué dans l'écosystème des startups. Passionné par l'analyse sémantique et les moteurs de recherche, il adore analyser les publications scientifiques de Google et intervient régulièrement dans les conférences SEO.
Qu'est-ce que l'IA et l'apprentissage automatique ?
Il existe de nombreuses définitions de l'IA.
Une grande partie du travail de Google se concentre sur les réseaux de neurones, ce qui conduit au fonctionnement de l'apprentissage automatique. Il utilise un ensemble de données qui représente l'ensemble de données idéal, balisé pour souligner certaines caractéristiques à son sujet, qui est utilisé pour former les classificateurs. Ceux-ci sont ensuite lâchés sur d'autres ensembles de données pour analyser et classer les nouvelles informations en fonction de ce qu'ils ont appris de l'ensemble d'échantillons. C'est l'apprentissage automatique.
Zones couvertes par l'IA
– Langage naturel
L'IA peut couvrir différents domaines, comme une meilleure compréhension du langage naturel. Il existe un certain nombre de techniques impliquées, et de nombreuses choses provenant de Google illustrent ce qu'implique l'analyse du langage naturel.
– Réponse aux questions
Un brevet récent (lien) tente de combler les blancs dans les schémas de questions-réponses.
Il explique comment Google pourrait utiliser un graphe de connaissances pour comprendre quelle pourrait être la réponse à une question. Par exemple, s'il manque des informations ou des données incorrectes pour les entités, Google peut essayer d'estimer la réponse en fonction des informations associées à des faits connexes.
Ce qui est intéressant dans ce brevet, ce n'est pas que Google utilise des estimations pour répondre aux questions, mais qu'il fournit les explications de ses estimations.
– Mimer la pensée humaine (réseaux de neurones)
L'apprentissage automatique est basé sur l'IA, sur l'imitation de la façon dont la pensée humaine pourrait fonctionner. Les réseaux d'apprentissage automatique sont appelés réseaux de neurones, car ils sont conçus pour tenter de reproduire le fonctionnement des neurones d'un cerveau.
Rankbrain
- Relation avec le colibri et le contexte des mots
Rankbrain et Hummingbird sont des approches de réécriture de requêtes. Hummingbird a essayé de mieux comprendre le contexte d'une requête en examinant tous les mots d'une requête. Auparavant, Google ne regardait que les mots les uns à côté des autres pour comprendre le contexte ; Colibri regarde au-delà des mots juste à côté les uns des autres. Il pourrait même prendre en compte des phrases complètes dans les requêtes conversationnelles. Hummingbird a essayé d'utiliser tous les mots de la requête ensemble pour comprendre le contexte.
- Réécriture de requêtes dans Rankbrain en utilisant l'approche d'intégration de mots
Contrairement à Hummingbird, Rankbrain utilise une approche d'intégration de mots. Il examine un court passage textuel et est capable de déterminer s'il manque des mots. Pour ce faire, il s'entraîne sur de grands ensembles de données (200 milliards de mots).
– Recherche de mots manquants dans la requête
Par exemple, la requête "New York Times puzzle" peut être correctement interprétée comme manquant le mot "mots croisés". Rankbrain ajoute le mot manquant à la requête et renvoie les résultats du jeu de mots croisés du New York Times au chercheur, puisque c'est probablement ce qu'il veut.
– Pouvez-vous optimiser pour Rankbrain ?
Il est important de noter que vous ne pouvez pas optimiser les pages pour Rankbrain. Certains référenceurs ont écrit des articles disant que vous le pouvez. Cependant, d'après tout ce que Bill a vu sur l'algorithme, cela suggère qu'il s'agit d'un processus de réécriture de requête, et non de quelque chose qui affecte l'évaluation d'une page.
Algorithmes supplémentaires de Google utilisant l'apprentissage automatique
Google n'a pas un seul "algorithme" qui pilote le moteur de recherche. Il a beaucoup d'algorithmes différents qui contribuent à son fonctionnement. Rankbrain est l'un des nombreux.
– Utilisation des scores de qualité dans les catégories
Cela peut signifier, par exemple, que lorsque Google détermine qu'il existe de nombreux résultats de type informationnel pour une requête donnée, au lieu de classer les pages en fonction du score de récupération d'informations ou des évaluations d'autorité comme PageRank, ils peuvent envisager des catégories. À partir de là, ils peuvent attribuer des niveaux de qualité dans les catégories de sites Web. Cela fournira un ensemble de résultats plus diversifié et garantira que des résultats de meilleure qualité peuvent se déplacer plus rapidement vers le haut des résultats.
– Popularité de la page pour les résultats de navigation
Ce type d'algorithme de classement favorise également les pages les plus populaires (pages vers lesquelles les gens ont tendance à aller), notamment pour les résultats de type navigation. Lorsque les internautes savent déjà que la page est quelque chose qu'ils veulent voir, la page aura tendance à se classer très bien dans les paradigmes de niveau de qualité de la catégorie.
– Influence du CTR SERP
Les niveaux de qualité des catégories suggèrent également que les pages qui sont souvent sélectionnées dans les résultats de recherche sont également des pages de haute qualité et se classeraient également très bien dans cette approche de qualité des catégories.
Cependant, bien qu'une approche de score de qualité de catégorie soit définitivement de l'apprentissage automatique, ce n'est pas Rankbrain.
Rankbrain pour répondre aux besoins situationnels des chercheurs
Rankbrain essaie de comprendre ce qui peut manquer dans une requête. L'aspect le plus important de Rankbrain est qu'il tente de répondre aux besoins de la situation des chercheurs : que voulait vraiment dire cette personne lorsqu'elle a tapé la requête dans la boîte ?
Requêtes de mots clés passées par rapport aux requêtes parlées et conversationnelles actuelles
Si nous nous dirigeons vers des requêtes parlées et de type conversation, il y aura plus de mots impliqués que l'approche par mots clés qui était utilisée dans le passé.
En tant que chercheur, vous essayez de deviner quels mots vous devez utiliser pour trouver les informations dont vous avez besoin. Et vous ne devriez pas avoir besoin de faire ce genre de supposition. Si vous demandez ce que vous voulez, Google devrait être en mesure de l'analyser et de déterminer ce que vous vouliez probablement dire. C'est le rôle de Rankbrain.
Approches de traitement du langage naturel
L'une des choses que nous constatons est que Google accorde beaucoup plus d'attention au traitement du langage naturel. On voit apparaître des approches de traitement du langage naturel.
– Appariement neuronal
Danny Sullivan a tweeté un peu à propos de quelque chose qu'il a appelé l'appariement neuronal.
Ces derniers mois, Google a utilisé la correspondance neuronale, la méthode -AI pour mieux connecter les mots aux concepts. Super synonymes, en quelque sorte, et impactant 30% des requêtes. Vous ne savez pas ce qu'est "l'effet feuilleton" pour le rechercher ? On peut mieux s'en rendre compte. pic.twitter.com/Qrwp5hKFNz
– Danny Sullivan (@dannysullivan) 24 septembre 2018
Il a dit que c'est un moyen de mieux comprendre les mots sur les pages et la signification de ces mots dans leur contexte. Il a fourni quelques exemples de la façon dont un mot peut signifier trois ou quatre choses différentes selon la façon dont il est positionné dans une phrase.
– Incorporation de mots
Google a publié des brevets sur l'utilisation d'une approche de type intégration de mots (comme ils l'ont utilisé dans Rankbrain afin de comprendre ces courtes requêtes textuelles) pour de plus longues quantités de texte, comme des pages Web.
– Cadres sémantiques
Un cadre sémantique, c'est quand vous utilisez un langage idéal pour une certaine situation. Dans chaque situation, il y a un certain langage qui est utilisé. Par exemple, les points dans le contexte d'un prêt hypothécaire ou d'un achat immobilier n'ont pas la même signification que les points aux dés ou aux jeux de société.
Si vous comprenez le cadre, vous pouvez mieux comprendre le contexte des mots sur une page.
Cela peut également aider à différencier les mots dont le sens lui-même diffère d'une situation à l'autre. « Cheval », par exemple, ne signifie pas la même chose pour un cavalier et pour un charpentier. D'autres brevets ont également exploré des méthodes supplémentaires pour comprendre les différences contextuelles de sens.
Utilisation de l'apprentissage automatique pour identifier les auteurs en fonction des styles d'écriture
Il est assez facile pour une machine d'identifier le style d'écriture d'un individu. Il existe un parallèle entre cela et les classifications thématiques de contenu en raison de styles standardisés dans des secteurs tels que l'immobilier, le sport, etc.
En tant qu'étudiant en anglais, Bill a analysé la littérature et a examiné les différentes façons dont les auteurs s'exprimaient, et pourquoi.
- L'auteur note le brevet en utilisant la fréquence de citation
Google a un brevet concernant les partitions d'auteur. Pour noter les auteurs, l'un des facteurs pris en considération est la fréquence à laquelle ils sont cités par d'autres auteurs.
– Visionneuse Google Livres N-Gram
Google travaille beaucoup avec les modèles de langage. Ils ont scanné un grand nombre de livres. La visionneuse N-Gram vous permet de voir comment la popularité d'une phrase évolue au fil des ans.
– Brevet Quality Score de N. Panda utilisant des modèles de langage
Le brevet Quality Score de N. Panda parle de l'utilisation de N-grammes et de la création de modèles de langage pour comprendre la qualité des pages Web en fonction de leur comparaison avec d'autres modèles de langage.
Il s'agit d'un excellent exemple d'apprentissage automatique dans la technologie des moteurs de recherche. Nous disposons d'un ensemble de données de pages précédemment notées et nous comparons les nouvelles pages à celles basées sur les données de l'échantillon d'origine. Étant donné que cela est utilisé pour déterminer la qualité, les pages qui contiennent les caractéristiques des pages bien écrites de l'ensemble d'origine obtiendront un score plus élevé.
Ce type de modèle de langage peut également être utilisé pour comprendre le style d'écriture de différents auteurs.
Apprentissage automatique du futur avec des données structurées
L'apprentissage automatique est également évident dans la façon dont Google gère les entités, dans la traduction et dans l'apparition de ce que Cindy Krum a nommé Fraggles.
– Répondez aux passages et renforcez le contenu textuel
Il existe un autre brevet qui parle de passages de réponse, dans lequel Google propose un mécanisme pour utiliser des passages textuels trouvés sur des pages Web pour fournir des réponses aux questions. Cela a été récemment mis à jour pour examiner non seulement les passages textuels, mais également les données structurées qui renforcent le texte.
– Vérification des faits et cohérence
L'utilisation de Schema offre une redondance des informations. Cela donne à Google un moyen de vérifier la cohérence des faits d'information sur une page Web en comparant les informations textuelles avec les informations fournies dans le balisage structuré.
C'est la même chose qui se produit sur Google Maps où Google regarde le nom, l'adresse et le numéro de téléphone.
La cohérence fournit un niveau de confiance que la réponse est plus susceptible d'être correcte.
– Pages FAQ et pages de procédures
Alors que Google introduit la prise en charge de la page FAQ et du schéma pratique, nous les voyons évoluer vers des moyens permettant aux propriétaires de sites de créer un schéma qui reflète ce qu'ils pourraient mettre dans le texte d'une page Web.
Stratégies pour comprendre le contexte sur une page Web
Google a pris d'autres mesures pour essayer de mieux comprendre le contenu des pages Web. Voici quelques-uns:
– Utilisation des bases de connaissances et des termes de contexte
Les brevets de Google ont indiqué qu'ils pourraient examiner des bases de connaissances et collecter des définitions de termes contextuels à partir de ces bases de connaissances. Ils peuvent ensuite rechercher la présence de ces termes contextuels sur une page Web pour aider à déterminer quelle signification dépendante du contexte d'un mot est la plus probable.
Ainsi, une page sur un cheval (un animal) peut contenir des mots comme "selle", tandis que des pages sur d'autres types de chevaux peuvent contenir des mots comme "menuiserie".
– Indexation basée sur des phrases
Une autre approche de l'apprentissage sémantique pour comprendre les sujets sur les pages date de 2004 environ. L'indexation basée sur des phrases est non seulement ancienne, mais elle fait également l'objet d'au moins 20 brevets et a été mise à jour et modifiée à plusieurs reprises. Tout cela indique à Bill que l'indexation basée sur les phrases est quelque chose qui revêt une grande importance dans les algorithmes de Google.
– Construire un index inversé des phrases prédictives de sujet
L'un des brevets associés à l'indexation basée sur les phrases décrit la création d'un index inversé des phrases qui apparaissent sur les pages et qui prédisent les sujets. Un exemple serait des phrases comme "Président des États-Unis", "Secrétaire d'État" ou "Interview de Rose Garden" qui sont prédictives d'un sujet sémantique de "Maison Blanche".
Connaissances du sujet Webmaster dans Schema
Google développe l'utilisation de choses comme Schema, mais la définition du type de choses décrites par Schema est fournie par les webmasters. De cette manière, les webmasters peuvent contribuer à la construction des graphes de connaissances avec les moteurs de recherche.
Par exemple, Google a ajouté "sait à propos" comme aspect de Schema. Cependant, les webmasters sont ceux qui indiquent que les avocats peuvent connaître le droit de l'amirauté ou le droit des brevets, ce qui aide à son tour à remplir le graphique des connaissances.
La représentation automatique des connaissances est un effort collaboratif.
[Étude de cas] Gérer le bot crawling de Google
Recherche en évolution et pratiques de référencement obsolètes
– Mots répétés dans le texte alternatif
Dire à Google qu'une photographie d'une personne doit être nommée deux fois n'aide pas un Google à la comprendre deux fois aussi. Il est même possible que cela diminue l'estimation de la valeur de la page par le moteur de recherche.
– LSI destiné aux petites bases de données statiques
Les fabricants d'outils ne cessent de suggérer que les référenceurs utilisent d'anciennes techniques. Un exemple est l'indexation sémantique latente (LSI), qui a été développée en 1989. Elle était destinée aux petites bases de données statiques qui n'ont pas la taille du Web et ne se développent pas au rythme du Web.
Chaque fois que vous souhaitez utiliser LSI, vous devez disposer de la dernière version de la base de données. Si vous continuez à ajouter des informations au corpus, il doit être exécuté à nouveau. Cela signifie qu'il n'est pas très utile pour le Web.
– TF-IDF fonctionne uniquement avec un accès au corpus complet
TF-IDF (terme fréquence-index document fréquence) est un autre exemple. Cela fonctionne mieux si vous avez accès au corpus complet des informations indexées, dans ce cas le World Wide Web. Vous utilisez TF-IDF lorsque vous voulez savoir quels sont les mots les plus courants et quels sont les mots rares sur l'ensemble du corpus. Mais si vous n'utilisez que le corpus des dix premières pages de classement pour certains termes au lieu de l'ensemble du Web, vous ne pouvez pas établir la fréquence réelle des termes.
Cela peut sérieusement affecter la précision de votre analyse.
Attente des webmasters et capacités de Google : besoin de communication de la part de Google
Malgré les annonces récentes, nous ne savons pas vraiment que le balisage de pagination n'est pas utile aux moteurs de recherche.
Bien que le balisage de pagination ne soit plus utilisé pour gérer le contenu dupliqué sur les pages paginées, nous avons certaines attentes vis-à-vis de Google. Ils doivent être capables de comprendre quand les pages sont dans une série. Des annonces comme celle-ci révèlent la difficulté de savoir à quel point Google est bon ou mauvais dans ce qu'il fait.
Utilisation de mots fréquents
L'astuce technique préférée de Bill consiste à examiner les mots fréquemment associés qui se classent très bien pour certains termes et à s'assurer qu'il les utilise dans le contenu, à la fois dans le corps et dans le texte d'ancrage pointant de sa page vers des pages connexes. Cela tire parti des "hits d'ancrage", qui sont censés être traités par les moteurs de recherche comme des "liens d'experts".
Cette stratégie est tirée de l'indexation par phrase.
– Probabilité statistique de cooccurrence de phrases
Le brevet d'indexation basé sur des phrases a été mis à jour il y a environ deux ans. Cette approche utilise désormais le nombre de termes associés qui apparaissent sur les pages pour classer les pages.
Cependant, si plus qu'un nombre statistiquement probable de termes associés apparaissent sur une page, celle-ci peut être marquée comme spam. Par exemple, si vous récupérez beaucoup de pages sur un sujet et que vous les mettez toutes sur une seule page, vous aurez trop de termes associés pour que cela se produise naturellement.
Cela correspond bien à la façon dont Bill effectue la recherche de mots clés. Il regarde des pages similaires et crée une liste d'expressions ou de mots similaires qui se produisent fréquemment. Il peut essayer d'en utiliser certains sur sa propre page, même s'il n'essaie pas de se classer pour eux. Cela crée un contenu pertinent pour les mots-clés pour lesquels il souhaite se classer.
LSI vs utilisation de synonymes ou de contenu sémantiquement lié
Le battage médiatique autour de LSI est l'un des sujets les moins préférés de Bill, en partie parce que le terme est trompeur. Ce que beaucoup de gens suggèrent lorsque l'on parle de LSI n'a rien à voir avec l'indexation sémantique latente. Au lieu de cela, ils suggèrent simplement d'ajouter des synonymes ou du contenu sémantiquement lié aux pages.
L'index inversé de l'indexation basée sur des phrases et les bases de connaissances qui peuvent fournir des termes contextuels indiquent qu'il existe des termes et des sources vers lesquels vous pouvez vous tourner pour trouver des mots qui pourraient être utiles si vous recherchez strictement des termes concomitants sur un classement élevé. pages pour votre mot-clé.
Les mots qui semblent être des synonymes ne le sont parfois pas, selon l'estimation de Google.
Indexation rapide avec l'outil de soumission d'URL
L'outil de soumission d'URL de la nouvelle version de Google Search Console est un moyen très rapide d'indexer des pages. Bill a vu les mises à jour propagées aux SERP en une minute ou deux.
L'espoir de Bill pour le futur balisage : plus d'informations sur les brevets
Question du public : quel balisage Schema aimeriez-vous voir ajouté à l'avenir ?
Parce qu'il écrit beaucoup sur les brevets, Bill aimerait voir une meilleure façon de saisir les caractéristiques uniques des brevets. Certaines de ces fonctionnalités incluent :
- Classes (ce que le brevet est destiné à traiter)
- Nom du brevet, bien que "l'entité principale de la page" puisse couvrir cette fonctionnalité
Étant donné que Google vous permet déjà de rechercher en fonction des fonctionnalités de Schema, la finalité serait de pouvoir améliorer la recherche de brevets, afin que les gens puissent demander à voir les brevets qui couvrent certaines catégories.
L'Answer Engine Optimization est-il l'avenir de la recherche ?
Question du public : pensez-vous que le SEO deviendra AEO à l'avenir ?
Bill pense que, d'une certaine manière, le référencement a toujours été AEO.
– Anciennes indications de Google comme moteur de réponse
Nous ne vivons pas nécessairement une évolution. Il y a des indications vieilles de 15 ans que Google se dirigeait dans cette direction, par exemple :
- 2004 : Fonctionnalité de dictionnaire permettant aux utilisateurs de rechercher le sens des mots
- 2005 : article de blog « Juste les faits » montrant le premier extrait de code ou la première réponse directe qui n'a pas été satisfait en fournissant dix liens bleus, mais a préféré fournir une réponse textuelle.
– Sergey Brin : brevet d'algorithme pour comprendre les faits et les relations entre les faits
Une autre indication que Google en tant que moteur de réponse n'est pas nouveau est un brevet de Sergey Brin sur un algorithme pour comprendre les faits et les relations entre les faits. Ce brevet comprenait cinq livres, leurs titres, leurs éditeurs, leurs auteurs, etc.
La théorie est qu'un bot explorerait le Web à la recherche de ces livres et...
[Interruption par OK Google]
– Filigranes audio
Il y a aussi le concept de filigranes audio qui tirent parti de l'ultra-haute fréquence. Ils tomberaient en dehors de la portée de l'ouïe humaine, mais les chiens et les ordinateurs seraient capables de les identifier. Cela pourrait permettre à différents fournisseurs de suivre le fait que vous avez entendu une publicité en filigrane et que vous pourriez potentiellement être intéressé par le produit.
Cela existe depuis au moins cinq ans et ce n'est pas quelque chose qui a été discuté dans le référencement.
Astuce
"Il y a beaucoup de désinformation sur des sujets tels que RankBrain, Neural Matching et Machine Learning sur le Web. Certains d'entre eux incluent des faits soigneusement étudiés mélangés à de la désinformation, alors faites attention à ce sur quoi vous vous appuyez.
Le référencement en orbite est allé dans l'espace
Si vous avez raté notre voyage dans l'espace du 27 juin, rattrapez-le ici et découvrez tous les conseils que nous avons envoyés dans l'espace.