Comment fonctionne Google ? L'histoire d'un ingénieur du classement Google #SMX
Publié: 2022-06-12Paul Haahr, ingénieur logiciel chez Google, travaille chez Google depuis plus de 14 ans. Pour deux d'entre eux, il partageait un bureau avec Matt Cutts. Il prend la scène SMX West 2016 pour partager comment Google fonctionne du point de vue d'un ingénieur Google - ou, au moins, partager autant qu'il le peut en 30 minutes. Ensuite, l'analyste des tendances Webmaster Gary Illyes le rejoindra sur scène et les deux répondront aux questions du public SMX avec l'éditeur Search Engine Land Danny Sullivan comme modérateur (passez à la partie Q&A !).

Comment fonctionne Google
Haahr commence par nous dire ce que font les ingénieurs de Google. Leur travail comprend :
- Écrire du code pour les recherches
- Optimisation des métriques
- A la recherche de nouveaux signaux
- Combiner les anciens signaux de nouvelles façons
- Déplacement des résultats avec de bonnes notes vers le haut
- Déplacer les résultats avec de mauvaises notes vers le bas
- Correction des directives de notation
- Développer de nouvelles métriques si nécessaire
Deux parties d'un moteur de recherche :
- A l'avance (avant la requête)
- Traitement des requêtes
Avant la requête
- Explorer le Web
- Analyser les pages crawlées
- Extraire les liens
- Rendre le contenu
- Annoter la sémantique
- Construire un index
L'index
- Comme l'index d'un livre
- Pour chaque mot, une liste des pages sur lesquelles il apparaît
- Divisé en groupes de millions de pages
- Plus les métadonnées par document
Traitement des requêtes
- Compréhension et expansion des requêtes
La requête nomme-t-elle des entités connues ? - Récupération et notation
- Envoyer la requête à tous les fragments
Chaque fragment- Trouve les pages correspondantes
- Calcule un score pour requête + page
- Renvoie la page N supérieure par score
- Combinez toutes les premières pages
- Trier par note
- Envoyer la requête à tous les fragments
- Ajustements après récupération
- Clustering d'hôtes
- Y a-t-il doublon
Signaux de pointage
Un signal est :
- Une information utilisée dans la notation
- Indépendant des requêtes - caractéristique d'une page
- Dépendant de la requête
Métrique
"Si vous ne pouvez pas le mesurer, vous ne pouvez pas l'améliorer" - Lord Kelvin
- Pertinence
- Une page répond-elle utilement à la requête de l'utilisateur
- Indicateur principal du classement
- Qualité
- Quelle est la qualité des résultats que nous montrons
- Délai d'obtention du résultat (plus vite c'est mieux)
Google se mesure avec des expériences en direct :
- Tests A/B sur trafic réel
- Rechercher des changements dans les modèles de clic
- Beaucoup de trafic est dans une expérience ou une autre
À un moment donné, Google a testé 41 bleus différents pour voir lequel était le meilleur.
Google fait également des expériences d'évaluateur humain :
- Afficher les résultats de recherche expérimentale de personnes réelles
- Demandez comment sont les résultats
- Agréger les notes de tous les évaluateurs
- Publier des lignes directrices expliquant les critères pour les évaluateurs
- Les outils prennent en charge cette opération de manière automatisée, similaire à Mechanical Turk
Google juge les pages sur deux facteurs principaux :
- Besoins satisfaits (où le mobile est à l'avant-plan)
- Qualité des pages
Besoins satisfaits :
- Répond entièrement
- Très hautement satisfait
- Très satisfait
- Rencontre modérément
- Répond légèrement
- Ne parvient pas à répondre
Notions de qualité des pages :
- Savoir -faire
- Une autorité
- T résistance à la rouille
Processus de développement des ingénieurs Google :
- Idée
- Répétez jusqu'à ce que vous soyez prêt
- Écrire du code
- Générer des données
- Exécutez des expériences
- Analyser
- Rapport de lancement par un analyste quantitatif
- Lancer l'examen
- Lancement
Qu'est-ce qui ne va pas ?
Il existe deux types de problèmes :
- Des notes systématiquement mauvaises
- Les métriques ne capturent pas les choses qui nous intéressent
Voici un exemple de mauvaise note. Quelqu'un recherche [Engrais pour ferme du Texas] et le résultat de la recherche fournit une carte du siège social du fabricant. Il est très peu probable que ce soit ce qu'ils veulent. Google le détermine grâce à des expériences en direct. Si un évaluateur voit les cartes et les évalue comme « répond parfaitement aux besoins », il s'agit d'un échec au moment de l'évaluation.

Ou, que se passe-t-il si les métriques sont manquantes ? En 2009-2011, il y avait beaucoup de plaintes concernant le contenu de mauvaise qualité. Mais les mesures de pertinence ont continué d'augmenter, en raison des fermes de contenu. Conclusion : Google ne mesurait pas les paramètres dont il avait besoin. Ainsi, la métrique de qualité a été développée en dehors de la pertinence.
Voici le diaporama de Paul Haahr, qui vaut le détour :
Mise à jour 7/19 : La présentation a maintenant été marquée comme privée par l'auteur.
Gary Illyes et Paul Haahr répondent aux questions du public SMX
SMX : Comment RankBrain s'intègre-t-il dans tout cela ?
Haahr : RankBrain peut voir un sous-ensemble des signaux. Je ne peux pas entrer dans trop de détails sur le fonctionnement de RankBrain. Nous comprenons comment cela fonctionne, mais pas autant ce qu'il fait. Il utilise beaucoup de choses que nous avons publiées sur l'apprentissage en profondeur.
Comment RankBrain connaîtrait-il l'autorité d'une page ?
Haahr : Tout dépend de la formation qu'il reçoit. Il voit les requêtes et autres signaux. Je ne peux pas en dire beaucoup plus qui serait utile.
SMX : Lorsque vous êtes connecté à une application Google, vous différenciez-vous par les informations que vous collectez ? Si vous êtes dans Google Now par rapport à Chrome, cela peut-il avoir un impact sur ce que vous voyez ?
Haahr : C'est vraiment une question de savoir si vous êtes connecté ou non. Nous offrons une expérience cohérente. Votre historique de navigation vous suit soit.
Google fournit-il des résultats différents pour les mêmes requêtes à différents moments de la journée ?
Illyes : Je ne suis pas sûr. Dans Maps, par exemple, si nous affichons quelque chose lié aux cartes, nous afficherons les heures. Cela ne change pas ce qui apparaît, à la connaissance de Gary.
SMX : Que se passe-t-il avec Panda et Pingouin ?
Illyes : J'ai renoncé à donner une date ou une chronologie sur Penguin. Nous y travaillons, réfléchissons à la manière de le lancer, mais honnêtement, je ne connais pas de date et je ne veux pas dire de date car je me suis déjà trompé trois ou quatre fois, et c'est mauvais pour les affaires.
SMX : Post-Google Authorship, comment suivez-vous l'autorité de l'auteur ?
Haahr : Là, je ne vais pas entrer dans les détails. Ce que je dirai, c'est que les évaluateurs sont censés examiner cela manuellement pour une page qu'ils voient. Ce que nous mesurons, c'est : sommes-nous capables de faire un bon travail pour servir des résultats que les évaluateurs pensent être de bonnes autorités.
SMX : Cela signifie-t-il que l'autorité est utilisée comme un facteur direct ou indirect ?
Haahr : Je ne dirais ni oui ni non. C'est beaucoup plus compliqué que cela et je ne peux pas donner de réponse directe.
SMX : Lorsque la paternité explicite a pris fin, Google a dit de continuer à avoir des signatures. Devriez-vous vous embêter avec rel=author ?
Illyes : Il y a au moins une équipe qui cherche toujours à utiliser la balise rel=author juste pour les développements futurs. Si j'étais un SEO, je laisserais quand même la balise. Ça ne fait pas de mal de l'avoir. Sur les nouvelles pages, cependant, cela ne vaut probablement pas la peine d'en avoir. Bien que nous puissions l'utiliser pour quelque chose à l'avenir.
SMX : Qu'est-ce que tu lis en ce moment ?
Haahr : Je lis beaucoup de journalisme et très peu de livres. Cependant, je viens de terminer "City on Fire" - c'est à propos de New York dans les années 70. Il y a 900 pages et j'ai été déçu quand il s'est terminé. Je viens de commencer "Ça ne peut pas arriver ici".