Jak działa Google: historia inżyniera rankingu Google #SMX

Opublikowany: 2022-06-12

Inżynier oprogramowania Google Paul Haahr pracuje w Google od ponad 14 lat. Dla dwóch z nich dzielił biuro z Mattem Cuttsem. Wchodzi na scenę SMX West 2016, aby podzielić się tym, jak działa Google z perspektywy inżyniera Google – lub przynajmniej podzielić się jak najwięcej w 30 minut. Następnie na scenie dołączy do niego analityk trendów webmasterów, Gary Illyes, którzy będą odpowiadać na pytania publiczności SMX, moderując je redaktor ds. wyszukiwarek, Danny Sullivan (przejdź do części pytań i odpowiedzi!).

Od lewej: analityk trendów Google dla webmasterów Gary Illyes, inżynier oprogramowania Google Paul Haahr i redaktor ds. wyszukiwarek internetowych Danny Sullivan na scenie SMX West 2016 w San Jose.

Jak działa Google

Haahr otwiera, mówiąc nam, czym zajmują się inżynierowie Google. Ich praca obejmuje:

Pisanie kodu do wyszukiwania
Optymalizacja metryk
Szukasz nowych sygnałów
Łączenie starych sygnałów na nowe sposoby
Przenoszenie wyników z dobrymi ocenami w górę
Przenoszenie wyników ze złymi ocenami w dół
Naprawianie wytycznych dotyczących oceny
Opracowywanie nowych metryk w razie potrzeby

Dwie części wyszukiwarki:

Z wyprzedzeniem (przed zapytaniem)
Przetwarzanie zapytań

Przed zapytaniem

Przeszukuj sieć
Przeanalizuj zindeksowane strony
- Wyodrębnij linki
- Renderuj zawartość
- Opisz semantykę
Zbuduj indeks

Indeks

Jak indeks książki
Dla każdego słowa lista stron, na których się pojawia
Podzielone na grupy składające się z milionów stron
Plus metadane na dokument

Przetwarzanie zapytań

Zrozumienie i rozszerzenie zapytań
Czy zapytanie zawiera nazwy znanych jednostek?
Wyszukiwanie i punktacja
- Wyślij zapytanie do wszystkich odłamków
  Każdy odłamek
  - Znajduje pasujące strony
  - Oblicza wynik dla zapytania+strony
  - Odsyła górną stronę N według punktów
- Połącz wszystkie najlepsze strony
- Sortuj według wyniku
Korekty po pobraniu
- Klastrowanie hostów
- Czy jest duplikacja?

Sygnały punktacji

Sygnał to:

Informacja wykorzystywana w punktacji
Niezależność od zapytań – cecha strony
Zapytanie zależne

Metryka

„Jeśli nie możesz tego zmierzyć, nie możesz tego poprawić” – Lord Kelvin

Znaczenie
- Czy strona użytecznie odpowiada na zapytanie użytkownika?
- Najwyższa metryka rankingu
Jakość
- Jak dobre są wyniki, które pokazujemy
Czas na wynik (szybciej tym lepiej)

Google mierzy się za pomocą eksperymentów na żywo:

Eksperymenty A/B na rzeczywistym ruchu
Poszukaj zmian we wzorcach kliknięć
W takim czy innym eksperymencie występuje duży ruch

Kiedyś Google przetestowało 41 różnych bluesów, aby zobaczyć, który jest najlepszy.

Google przeprowadza również eksperymenty na ludziach:

Pokaż eksperymentalne wyniki wyszukiwania prawdziwych ludzi
Zapytaj, jakie są wyniki
Zagregowane oceny przez oceniających
Opublikuj wytyczne wyjaśniające kryteria dla oceniających
Narzędzia wspierają robienie tego w sposób zautomatyzowany, podobnie jak Mechanical Turk

Google ocenia strony pod kątem dwóch głównych czynników:

Potrzeby spełnione (gdzie telefon komórkowy jest z przodu i na środku)
Jakość strony

Potrzeby spełnione stopnie:

W pełni Spełnia
Bardzo Wysoce Spełnia
Wysoce Spełnia
Umiarkowanie Spełnia
Lekko Spełnia
Nie udało się spotkać

Koncepcje jakości strony:

Ekspertyza
Autorytetywność
Wiarygodność

Proces rozwoju inżyniera Google:

Pomysł
Powtarzaj, aż będzie gotowy
- Napisz kod
- Generuj dane
- Przeprowadź eksperymenty
- Analizować
Raport o uruchomieniu przez analityka ilościowego
Uruchom recenzję
Początek

Co się dzieje?

Istnieją dwa rodzaje problemów:

Systematycznie złe oceny
Metryki nie rejestrują rzeczy, na których nam zależy

Oto przykład złej oceny. Ktoś wyszukuje [nawóz rolniczy w Teksasie], a wynik wyszukiwania wyświetla mapę do siedziby producenta. Jest bardzo mało prawdopodobne, że tego chcą. Google określa to poprzez eksperymenty na żywo. Jeśli oceniający widzi mapy i ocenia je jako potrzeby „Highly Meets”, oznacza to porażkę w momencie oceniania.

A co, jeśli brakuje danych? W latach 2009-2011 było wiele skarg na treści o niskiej jakości. Jednak wskaźniki trafności wciąż rosły ze względu na farmy treści. Wniosek: Google nie mierzyło wymaganych wskaźników. W ten sposób opracowano miernik jakości poza trafnością.

Oto slide deck Paula Haahra, który warto zobaczyć:
Aktualizacja 7/19: Prezentacja została oznaczona przez autora jako prywatna.

Jak działa Google: perspektywa inżyniera rankingu Paul Haahr z Search Marketing Expo – SMX

Gary Illyes i Paul Haahr odpowiadają na pytania publiczności SMX

SMX: Jak RankBrain pasuje do tego wszystkiego?

Haahr: RankBrain widzi podzbiór sygnałów. Nie mogę zagłębiać się w szczegóły dotyczące działania RankBrain. Rozumiemy, jak to działa, ale nie tyle, co robi. Wykorzystuje wiele materiałów, które opublikowaliśmy na temat głębokiego uczenia się.

Skąd RankBrain znał autorytet strony?

Haahr: To wszystko jest funkcją treningu, który otrzymuje. Widzi zapytania i inne sygnały. Nie mogę powiedzieć o wiele więcej, co byłoby przydatne.

SMX: Czy po zalogowaniu się do aplikacji Google rozróżniasz gromadzone informacje? Jeśli korzystasz z Google Now w porównaniu z Chrome, czy to może mieć wpływ na to, co widzisz?

Haahr: To naprawdę pytanie, czy jesteś zalogowany, czy nie. Zapewniamy spójne doświadczenie. Twoja historia przeglądania podąża za Tobą.

Czy Google dostarcza różne wyniki dla tych samych zapytań o różnych porach dnia?

Illyes: Nie jestem pewien. Na przykład w Mapach, jeśli wyświetlimy coś związanego z mapami, pokażemy godziny. Według wiedzy Gary'ego to nie zmienia tego, co się pojawia.

SMX: Co się dzieje z Pandą i Pingwinem?

Illyes: Zrezygnowałem z podawania daty lub osi czasu na Penguin. Pracujemy nad tym, zastanawiamy się, jak to wypuścić, ale szczerze mówiąc nie znam daty i nie chcę mówić o dacie, bo już trzy lub cztery razy się myliłem, a to źle dla biznesu.

SMX: Post-Google Authorship, jak śledzisz autorytet autora?

Haahr: Nie będę wdawał się w żadne szczegóły. Powiem, że oceniający powinni to sprawdzić ręcznie pod kątem strony, którą widzą. To, co mierzymy, to: czy jesteśmy w stanie wykonać dobrą robotę służąc wynikom, które oceniający uważają za dobre autorytety.

SMX: Czy to oznacza, że autorytet jest wykorzystywany jako czynnik bezpośredni lub pośredni?

Haahr: Nie powiedziałbym tak lub nie. To znacznie bardziej skomplikowane i nie mogę udzielić bezpośredniej odpowiedzi.

SMX: Kiedy skończyło się wyraźne autorstwo, Google powiedział, aby nadal mieć bylines. Czy w ogóle powinieneś zawracać sobie głowę rel=author?

Illyes: Jest co najmniej jeden zespół, który wciąż rozważa użycie tagu rel=author tylko ze względu na przyszły rozwój. Gdybym był SEO, nadal zostawiłbym tag. Nie zaszkodzi go mieć. Na nowych stronach jednak chyba nie warto go mieć. Chociaż w przyszłości możemy go użyć do czegoś.

SMX: Co teraz czytasz?

Haahr: Czytam dużo dziennikarstwa i bardzo mało książek. Jednak właśnie skończyłem „City on Fire” – opowiada o Nowym Jorku w latach 70-tych. Jest 900 stron i byłem rozczarowany, kiedy to się skończyło. Właśnie zacząłem „Tu się nie może wydarzyć”.