Jak działa Google: historia inżyniera rankingu Google #SMX

Opublikowany: 2022-06-12

Inżynier oprogramowania Google Paul Haahr pracuje w Google od ponad 14 lat. Dla dwóch z nich dzielił biuro z Mattem Cuttsem. Wchodzi na scenę SMX West 2016, aby podzielić się tym, jak działa Google z perspektywy inżyniera Google – lub przynajmniej podzielić się jak najwięcej w 30 minut. Następnie na scenie dołączy do niego analityk trendów webmasterów, Gary Illyes, którzy będą odpowiadać na pytania publiczności SMX, moderując je redaktor ds. wyszukiwarek, Danny Sullivan (przejdź do części pytań i odpowiedzi!).

Od lewej: analityk trendów Google dla webmasterów Gary Illyes, inżynier oprogramowania Google Paul Haahr i redaktor ds. wyszukiwarek internetowych Danny Sullivan na scenie SMX West 2016 w San Jose.

Jak działa Google

Haahr otwiera, mówiąc nam, czym zajmują się inżynierowie Google. Ich praca obejmuje:

  • Pisanie kodu do wyszukiwania
  • Optymalizacja metryk
  • Szukasz nowych sygnałów
  • Łączenie starych sygnałów na nowe sposoby
  • Przenoszenie wyników z dobrymi ocenami w górę
  • Przenoszenie wyników ze złymi ocenami w dół
  • Naprawianie wytycznych dotyczących oceny
  • Opracowywanie nowych metryk w razie potrzeby

Dwie części wyszukiwarki:

  • Z wyprzedzeniem (przed zapytaniem)
  • Przetwarzanie zapytań

Przed zapytaniem

  • Przeszukuj sieć
  • Przeanalizuj zindeksowane strony
    • Wyodrębnij linki
    • Renderuj zawartość
    • Opisz semantykę
  • Zbuduj indeks

Indeks

  • Jak indeks książki
  • Dla każdego słowa lista stron, na których się pojawia
  • Podzielone na grupy składające się z milionów stron
  • Plus metadane na dokument

Przetwarzanie zapytań

  • Zrozumienie i rozszerzenie zapytań
    Czy zapytanie zawiera nazwy znanych jednostek?
  • Wyszukiwanie i punktacja
    • Wyślij zapytanie do wszystkich odłamków
      Każdy odłamek

      • Znajduje pasujące strony
      • Oblicza wynik dla zapytania+strony
      • Odsyła górną stronę N według punktów
    • Połącz wszystkie najlepsze strony
    • Sortuj według wyniku
  • Korekty po pobraniu
    • Klastrowanie hostów
    • Czy jest duplikacja?

Sygnały punktacji

Sygnał to:

  • Informacja wykorzystywana w punktacji
  • Niezależność od zapytań – cecha strony
  • Zapytanie zależne

Metryka

„Jeśli nie możesz tego zmierzyć, nie możesz tego poprawić” – Lord Kelvin

  • Znaczenie
    • Czy strona użytecznie odpowiada na zapytanie użytkownika?
    • Najwyższa metryka rankingu
  • Jakość
    • Jak dobre są wyniki, które pokazujemy
  • Czas na wynik (szybciej tym lepiej)

Google mierzy się za pomocą eksperymentów na żywo:

  • Eksperymenty A/B na rzeczywistym ruchu
  • Poszukaj zmian we wzorcach kliknięć
  • W takim czy innym eksperymencie występuje duży ruch

Kiedyś Google przetestowało 41 różnych bluesów, aby zobaczyć, który jest najlepszy.

Google przeprowadza również eksperymenty na ludziach:

  • Pokaż eksperymentalne wyniki wyszukiwania prawdziwych ludzi
  • Zapytaj, jakie są wyniki
  • Zagregowane oceny przez oceniających
  • Opublikuj wytyczne wyjaśniające kryteria dla oceniających
  • Narzędzia wspierają robienie tego w sposób zautomatyzowany, podobnie jak Mechanical Turk

Google ocenia strony pod kątem dwóch głównych czynników:

  • Potrzeby spełnione (gdzie telefon komórkowy jest z przodu i na środku)
  • Jakość strony

Potrzeby spełnione stopnie:

  • W pełni Spełnia
  • Bardzo Wysoce Spełnia
  • Wysoce Spełnia
  • Umiarkowanie Spełnia
  • Lekko Spełnia
  • Nie udało się spotkać

Koncepcje jakości strony:

  • Ekspertyza
  • Autorytetywność
  • Wiarygodność

Proces rozwoju inżyniera Google:

  • Pomysł
  • Powtarzaj, aż będzie gotowy
    • Napisz kod
    • Generuj dane
    • Przeprowadź eksperymenty
    • Analizować
  • Raport o uruchomieniu przez analityka ilościowego
  • Uruchom recenzję
  • Początek

Co się dzieje?

Istnieją dwa rodzaje problemów:

  • Systematycznie złe oceny
  • Metryki nie rejestrują rzeczy, na których nam zależy

Oto przykład złej oceny. Ktoś wyszukuje [nawóz rolniczy w Teksasie], a wynik wyszukiwania wyświetla mapę do siedziby producenta. Jest bardzo mało prawdopodobne, że tego chcą. Google określa to poprzez eksperymenty na żywo. Jeśli oceniający widzi mapy i ocenia je jako potrzeby „Highly Meets”, oznacza to porażkę w momencie oceniania.

A co, jeśli brakuje danych? W latach 2009-2011 było wiele skarg na treści o niskiej jakości. Jednak wskaźniki trafności wciąż rosły ze względu na farmy treści. Wniosek: Google nie mierzyło wymaganych wskaźników. W ten sposób opracowano miernik jakości poza trafnością.

Oto slide deck Paula Haahra, który warto zobaczyć:
Aktualizacja 7/19: Prezentacja została oznaczona przez autora jako prywatna.

Jak działa Google: perspektywa inżyniera rankingu Paul Haahr z Search Marketing Expo – SMX

Gary Illyes i Paul Haahr odpowiadają na pytania publiczności SMX

SMX: Jak RankBrain pasuje do tego wszystkiego?

Haahr: RankBrain widzi podzbiór sygnałów. Nie mogę zagłębiać się w szczegóły dotyczące działania RankBrain. Rozumiemy, jak to działa, ale nie tyle, co robi. Wykorzystuje wiele materiałów, które opublikowaliśmy na temat głębokiego uczenia się.

Skąd RankBrain znał autorytet strony?

Haahr: To wszystko jest funkcją treningu, który otrzymuje. Widzi zapytania i inne sygnały. Nie mogę powiedzieć o wiele więcej, co byłoby przydatne.

SMX: Czy po zalogowaniu się do aplikacji Google rozróżniasz gromadzone informacje? Jeśli korzystasz z Google Now w porównaniu z Chrome, czy to może mieć wpływ na to, co widzisz?

Haahr: To naprawdę pytanie, czy jesteś zalogowany, czy nie. Zapewniamy spójne doświadczenie. Twoja historia przeglądania podąża za Tobą.

Czy Google dostarcza różne wyniki dla tych samych zapytań o różnych porach dnia?

Illyes: Nie jestem pewien. Na przykład w Mapach, jeśli wyświetlimy coś związanego z mapami, pokażemy godziny. Według wiedzy Gary'ego to nie zmienia tego, co się pojawia.

SMX: Co się dzieje z Pandą i Pingwinem?

Illyes: Zrezygnowałem z podawania daty lub osi czasu na Penguin. Pracujemy nad tym, zastanawiamy się, jak to wypuścić, ale szczerze mówiąc nie znam daty i nie chcę mówić o dacie, bo już trzy lub cztery razy się myliłem, a to źle dla biznesu.

SMX: Post-Google Authorship, jak śledzisz autorytet autora?

Haahr: Nie będę wdawał się w żadne szczegóły. Powiem, że oceniający powinni to sprawdzić ręcznie pod kątem strony, którą widzą. To, co mierzymy, to: czy jesteśmy w stanie wykonać dobrą robotę służąc wynikom, które oceniający uważają za dobre autorytety.

SMX: Czy to oznacza, że ​​autorytet jest wykorzystywany jako czynnik bezpośredni lub pośredni?

Haahr: Nie powiedziałbym tak lub nie. To znacznie bardziej skomplikowane i nie mogę udzielić bezpośredniej odpowiedzi.

SMX: Kiedy skończyło się wyraźne autorstwo, Google powiedział, aby nadal mieć bylines. Czy w ogóle powinieneś zawracać sobie głowę rel=author?

Illyes: Jest co najmniej jeden zespół, który wciąż rozważa użycie tagu rel=author tylko ze względu na przyszły rozwój. Gdybym był SEO, nadal zostawiłbym tag. Nie zaszkodzi go mieć. Na nowych stronach jednak chyba nie warto go mieć. Chociaż w przyszłości możemy go użyć do czegoś.

SMX: Co teraz czytasz?

Haahr: Czytam dużo dziennikarstwa i bardzo mało książek. Jednak właśnie skończyłem „City on Fire” – opowiada o Nowym Jorku w latach 70-tych. Jest 900 stron i byłem rozczarowany, kiedy to się skończyło. Właśnie zacząłem „Tu się nie może wydarzyć”.

Subskrybuj link do bloga BCI