So funktioniert Google: Die Geschichte eines Google-Ranking-Ingenieurs #SMX

Veröffentlicht: 2022-06-12

Google Software Engineer Paul Haahr ist seit mehr als 14 Jahren bei Google. Bei zwei von ihnen teilte er sich ein Büro mit Matt Cutts. Er betritt die Bühne der SMX West 2016, um zu zeigen, wie Google aus der Perspektive eines Google-Ingenieurs funktioniert – oder zumindest so viel wie möglich in 30 Minuten zu teilen. Danach wird Webmaster Trends Analyst Gary Illyes zu ihm auf die Bühne stoßen und die beiden werden Fragen aus dem SMX-Publikum beantworten, wobei Search Engine Land Editor Danny Sullivan moderiert (springen Sie zum Frage-und-Antwort-Teil!).

Von links: Google Webmaster Trends Analyst Gary Illyes, Google Software Engineer Paul Haahr und Search Engine Land Editor Danny Sullivan auf der Bühne der SMX West 2016 in San Jose.

So funktioniert Google

Haahr beginnt damit, dass er uns erzählt, was Google-Ingenieure tun. Ihre Aufgabe umfasst:

  • Schreiben von Code für Suchen
  • Metriken optimieren
  • Auf der Suche nach neuen Signalen
  • Alte Signale neu kombinieren
  • Bewegende Ergebnisse mit guten Bewertungen nach oben
  • Ergebnisse mit schlechten Bewertungen nach unten verschieben
  • Bewertungsrichtlinien festlegen
  • Entwicklung neuer Metriken bei Bedarf

Zwei Teile einer Suchmaschine:

  • Im Voraus (vor der Abfrage)
  • Abfrageverarbeitung

Vor der Abfrage

  • Crawlen Sie das Web
  • Analysieren Sie die gecrawlten Seiten
    • Verknüpfungen extrahieren
    • Inhalte rendern
    • Semantik kommentieren
  • Erstellen Sie einen Index

Der Index

  • Wie der Index eines Buches
  • Für jedes Wort eine Liste der Seiten, auf denen es erscheint
  • Aufgeteilt in Gruppen von Millionen von Seiten
  • Plus Metadaten pro Dokument

Abfrageverarbeitung

  • Verständnis und Erweiterung von Abfragen
    Benennt die Abfrage bekannte Entitäten?
  • Abrufen und Zählen
    • Senden Sie die Abfrage an alle Shards
      Jede Scherbe

      • Findet die passenden Seiten
      • Berechnet eine Punktzahl für Abfrage+Seite
      • Sendet die Top-N-Seite nach Punktzahl zurück
    • Kombinieren Sie alle oberen Seiten
    • Nach Punktzahl sortieren
  • Anpassungen nach dem Abruf
    • Host-Clustering
    • Gibt es Doppelungen

Scoring-Signale

Ein Signal ist:

  • Eine Information, die beim Scoring verwendet wird
  • Abfrageunabhängig – Merkmal einer Seite
  • Abfrage abhängig

Metriken

„Was man nicht messen kann, kann man nicht verbessern“ – Lord Kelvin

  • Relevanz
    • Beantwortet eine Seite die Anfrage des Benutzers sinnvoll?
    • Top-Metrik des Rankings
  • Qualität
    • Wie gut sind die Ergebnisse, die wir zeigen
  • Zeit bis zum Ergebnis (schneller ist besser)

Google misst sich mit Live-Experimenten:

  • A/B-Experimente mit echtem Traffic
  • Suchen Sie nach Änderungen in den Klickmustern
  • Viel Verkehr ist in dem einen oder anderen Experiment

Zu einer Zeit testete Google 41 verschiedene Blautöne, um zu sehen, welcher am besten war.

Google führt auch Human-Rater-Experimente durch:

  • Experimentelle Suchergebnisse von echten Personen anzeigen
  • Fragen Sie, wie die Ergebnisse sind
  • Aggregierte Bewertungen aller Bewerter
  • Veröffentlichen Sie Richtlinien, die Kriterien für Bewerter erläutern
  • Tools unterstützen dies auf automatisierte Weise, ähnlich wie Mechanical Turk

Google beurteilt Seiten nach zwei Hauptfaktoren:

  • Erfüllte Bedürfnisse (wobei Mobilgeräte im Mittelpunkt stehen)
  • Seitenqualität

Erfüllte Noten:

  • Vollständig erfüllt
  • Sehr gut erfüllt
  • Sehr trifft
  • Mäßig erfüllt
  • Leicht trifft
  • Kann sich nicht treffen

Konzepte zur Seitenqualität:

  • Fachwissen
  • Eine Authentizität
  • Vertrauenswürdigkeit

Entwicklungsprozess für Google-Ingenieure:

  • Idee
  • Wiederholen bis fertig
    • Code schreiben
    • Daten generieren
    • Experimente durchführen
    • Analysieren
  • Markteinführungsbericht des quantitativen Analysten
  • Überprüfung starten
  • Start

Was geht schief?

Es gibt zwei Arten von Problemen:

  • Systematisch schlechte Bewertungen
  • Metriken erfassen nicht die Dinge, die uns wichtig sind

Hier ist ein Beispiel für eine schlechte Bewertung. Jemand sucht nach [Texas Farm Düngemittel] und das Suchergebnis zeigt eine Karte zum Hauptsitz des Herstellers. Es ist sehr unwahrscheinlich, dass sie das wollen. Google ermittelt dies durch Live-Experimente. Wenn ein Bewerter die Karten sieht und sie als „sehr erfüllt“ bewertet, dann ist dies ein Fehler in Bezug auf die Bewertung.

Oder was ist, wenn die Metriken fehlen? In den Jahren 2009-2011 gab es viele Beschwerden über minderwertige Inhalte. Aber die Relevanzkennzahlen stiegen aufgrund von Content-Farmen weiter an. Schlussfolgerung: Google hat nicht die Metriken gemessen, die sie sein müssten. Daher wurde die Qualitätsmetrik unabhängig von der Relevanz entwickelt.

Hier ist das Slidedeck von Paul Haahr, das einen Blick wert ist:
Update 7/19: Die Präsentation wurde jetzt vom Autor als privat markiert.

Wie Google funktioniert: Die Perspektive eines Ranking-Ingenieurs von Paul Haahr von der Search Marketing Expo – SMX

Gary Illyes und Paul Haahr beantworten Fragen des SMX-Publikums

SMX: Wie passt RankBrain in all das hinein?

Haahr: RankBrain bekommt eine Teilmenge der Signale zu sehen. Ich kann nicht zu sehr ins Detail gehen, wie RankBrain funktioniert. Wir verstehen, wie es funktioniert, aber nicht so sehr, was es tut. Es verwendet viele Dinge, die wir über Deep Learning veröffentlicht haben.

Wie würde RankBrain die Autorität einer Seite kennen?

Haahr: Es ist alles eine Funktion des Trainings, das es bekommt. Es sieht Abfragen und andere Signale. Ich kann nicht viel mehr sagen, was nützlich wäre.

SMX: Wenn Sie in eine Google-App eingeloggt sind, unterscheiden Sie sich nach den gesammelten Informationen? Wenn Sie sich in Google Now im Vergleich zu Chrome befinden, kann sich das auf das auswirken, was Sie sehen?

Haahr: Es ist wirklich eine Frage, ob man eingeloggt ist oder nicht. Wir bieten ein konsistentes Erlebnis. Ihr Browserverlauf folgt Ihnen zu beiden.

Liefert Google zu unterschiedlichen Tageszeiten unterschiedliche Ergebnisse für die gleichen Suchanfragen?

Illyes: Ich bin mir nicht sicher. Wenn wir beispielsweise in Maps etwas anzeigen, das sich auf Karten bezieht, zeigen wir die Stunden an. Es ändert nichts an dem, was auftaucht, soweit Gary weiß.

SMX: Was ist mit Panda und Pinguin los?

Illyes: Ich habe es aufgegeben, ein Datum oder einen Zeitplan für Penguin anzugeben. Wir arbeiten daran und denken darüber nach, wie wir es starten können, aber ich weiß ehrlich gesagt kein Datum und möchte kein Datum nennen, weil ich mich bereits drei- oder viermal geirrt habe und es schlecht fürs Geschäft ist.

SMX: Post-Google Authorship, wie verfolgen Sie die Autorenautorität?

Haahr: Da gehe ich nicht ins Detail. Was ich sagen möchte, ist, dass von den Bewertern erwartet wird, dass sie dies manuell für eine Seite überprüfen, die sie sehen. Was wir messen, ist: Sind wir in der Lage, Ergebnisse zu liefern, die die Bewerter für gute Autoritäten halten?

SMX: Bedeutet das, dass Autorität als direkter oder indirekter Faktor verwendet wird?

Haahr: Ich würde nicht ja oder nein sagen. Es ist viel komplizierter als das und ich kann keine direkte Antwort geben.

SMX: Als die explizite Urheberschaft endete, sagte Google, dass es weiterhin Bylines geben solle. Sollte man sich überhaupt mit rel=author beschäftigen?

Illyes: Es gibt mindestens ein Team, das sich immer noch mit der Verwendung des rel=author-Tags befasst, nur um der zukünftigen Entwicklung willen. Wenn ich ein SEO wäre, würde ich das Tag trotzdem hinterlassen. Es tut nicht weh, es zu haben. Auf neuen Seiten lohnt es sich jedoch wahrscheinlich nicht, es zu haben. Obwohl wir es in der Zukunft für etwas verwenden könnten.

SMX: Was liest du gerade?

Haahr: Ich lese viel Journalismus und sehr wenige Bücher. Allerdings habe ich gerade „City on Fire“ beendet – es geht um New York in den 70ern. Es hat 900 Seiten und ich war enttäuscht, als es zu Ende war. Ich habe gerade mit „It Can’t Happen Here“ begonnen.

Abonnieren Sie den BCI-Blog-Link