Jak działa Google: historia inżyniera rankingu Google #SMX
Opublikowany: 2022-06-12Inżynier oprogramowania Google Paul Haahr pracuje w Google od ponad 14 lat. Dla dwóch z nich dzielił biuro z Mattem Cuttsem. Wchodzi na scenę SMX West 2016, aby podzielić się tym, jak działa Google z perspektywy inżyniera Google – lub przynajmniej podzielić się jak najwięcej w 30 minut. Następnie na scenie dołączy do niego analityk trendów webmasterów, Gary Illyes, którzy będą odpowiadać na pytania publiczności SMX, moderując je redaktor ds. wyszukiwarek, Danny Sullivan (przejdź do części pytań i odpowiedzi!).
Jak działa Google
Haahr otwiera, mówiąc nam, czym zajmują się inżynierowie Google. Ich praca obejmuje:
- Pisanie kodu do wyszukiwania
- Optymalizacja metryk
- Szukasz nowych sygnałów
- Łączenie starych sygnałów na nowe sposoby
- Przenoszenie wyników z dobrymi ocenami w górę
- Przenoszenie wyników ze złymi ocenami w dół
- Naprawianie wytycznych dotyczących oceny
- Opracowywanie nowych metryk w razie potrzeby
Dwie części wyszukiwarki:
- Z wyprzedzeniem (przed zapytaniem)
- Przetwarzanie zapytań
Przed zapytaniem
- Przeszukuj sieć
- Przeanalizuj zindeksowane strony
- Wyodrębnij linki
- Renderuj zawartość
- Opisz semantykę
- Zbuduj indeks
Indeks
- Jak indeks książki
- Dla każdego słowa lista stron, na których się pojawia
- Podzielone na grupy składające się z milionów stron
- Plus metadane na dokument
Przetwarzanie zapytań
- Zrozumienie i rozszerzenie zapytań
Czy zapytanie zawiera nazwy znanych jednostek? - Wyszukiwanie i punktacja
- Wyślij zapytanie do wszystkich odłamków
Każdy odłamek- Znajduje pasujące strony
- Oblicza wynik dla zapytania+strony
- Odsyła górną stronę N według punktów
- Połącz wszystkie najlepsze strony
- Sortuj według wyniku
- Wyślij zapytanie do wszystkich odłamków
- Korekty po pobraniu
- Klastrowanie hostów
- Czy jest duplikacja?
Sygnały punktacji
Sygnał to:
- Informacja wykorzystywana w punktacji
- Niezależność od zapytań – cecha strony
- Zapytanie zależne
Metryka
„Jeśli nie możesz tego zmierzyć, nie możesz tego poprawić” – Lord Kelvin
- Znaczenie
- Czy strona użytecznie odpowiada na zapytanie użytkownika?
- Najwyższa metryka rankingu
- Jakość
- Jak dobre są wyniki, które pokazujemy
- Czas na wynik (szybciej tym lepiej)
Google mierzy się za pomocą eksperymentów na żywo:
- Eksperymenty A/B na rzeczywistym ruchu
- Poszukaj zmian we wzorcach kliknięć
- W takim czy innym eksperymencie występuje duży ruch
Kiedyś Google przetestowało 41 różnych bluesów, aby zobaczyć, który jest najlepszy.
Google przeprowadza również eksperymenty na ludziach:
- Pokaż eksperymentalne wyniki wyszukiwania prawdziwych ludzi
- Zapytaj, jakie są wyniki
- Zagregowane oceny przez oceniających
- Opublikuj wytyczne wyjaśniające kryteria dla oceniających
- Narzędzia wspierają robienie tego w sposób zautomatyzowany, podobnie jak Mechanical Turk
Google ocenia strony pod kątem dwóch głównych czynników:
- Potrzeby spełnione (gdzie telefon komórkowy jest z przodu i na środku)
- Jakość strony
Potrzeby spełnione stopnie:
- W pełni Spełnia
- Bardzo Wysoce Spełnia
- Wysoce Spełnia
- Umiarkowanie Spełnia
- Lekko Spełnia
- Nie udało się spotkać
Koncepcje jakości strony:
- Ekspertyza
- Autorytetywność
- Wiarygodność
Proces rozwoju inżyniera Google:
- Pomysł
- Powtarzaj, aż będzie gotowy
- Napisz kod
- Generuj dane
- Przeprowadź eksperymenty
- Analizować
- Raport o uruchomieniu przez analityka ilościowego
- Uruchom recenzję
- Początek
Co się dzieje?
Istnieją dwa rodzaje problemów:
- Systematycznie złe oceny
- Metryki nie rejestrują rzeczy, na których nam zależy
Oto przykład złej oceny. Ktoś wyszukuje [nawóz rolniczy w Teksasie], a wynik wyszukiwania wyświetla mapę do siedziby producenta. Jest bardzo mało prawdopodobne, że tego chcą. Google określa to poprzez eksperymenty na żywo. Jeśli oceniający widzi mapy i ocenia je jako potrzeby „Highly Meets”, oznacza to porażkę w momencie oceniania.
A co, jeśli brakuje danych? W latach 2009-2011 było wiele skarg na treści o niskiej jakości. Jednak wskaźniki trafności wciąż rosły ze względu na farmy treści. Wniosek: Google nie mierzyło wymaganych wskaźników. W ten sposób opracowano miernik jakości poza trafnością.
Oto slide deck Paula Haahra, który warto zobaczyć:
Aktualizacja 7/19: Prezentacja została oznaczona przez autora jako prywatna.
Gary Illyes i Paul Haahr odpowiadają na pytania publiczności SMX
SMX: Jak RankBrain pasuje do tego wszystkiego?
Haahr: RankBrain widzi podzbiór sygnałów. Nie mogę zagłębiać się w szczegóły dotyczące działania RankBrain. Rozumiemy, jak to działa, ale nie tyle, co robi. Wykorzystuje wiele materiałów, które opublikowaliśmy na temat głębokiego uczenia się.
Skąd RankBrain znał autorytet strony?
Haahr: To wszystko jest funkcją treningu, który otrzymuje. Widzi zapytania i inne sygnały. Nie mogę powiedzieć o wiele więcej, co byłoby przydatne.
SMX: Czy po zalogowaniu się do aplikacji Google rozróżniasz gromadzone informacje? Jeśli korzystasz z Google Now w porównaniu z Chrome, czy to może mieć wpływ na to, co widzisz?
Haahr: To naprawdę pytanie, czy jesteś zalogowany, czy nie. Zapewniamy spójne doświadczenie. Twoja historia przeglądania podąża za Tobą.
Czy Google dostarcza różne wyniki dla tych samych zapytań o różnych porach dnia?
Illyes: Nie jestem pewien. Na przykład w Mapach, jeśli wyświetlimy coś związanego z mapami, pokażemy godziny. Według wiedzy Gary'ego to nie zmienia tego, co się pojawia.
SMX: Co się dzieje z Pandą i Pingwinem?
Illyes: Zrezygnowałem z podawania daty lub osi czasu na Penguin. Pracujemy nad tym, zastanawiamy się, jak to wypuścić, ale szczerze mówiąc nie znam daty i nie chcę mówić o dacie, bo już trzy lub cztery razy się myliłem, a to źle dla biznesu.
SMX: Post-Google Authorship, jak śledzisz autorytet autora?
Haahr: Nie będę wdawał się w żadne szczegóły. Powiem, że oceniający powinni to sprawdzić ręcznie pod kątem strony, którą widzą. To, co mierzymy, to: czy jesteśmy w stanie wykonać dobrą robotę służąc wynikom, które oceniający uważają za dobre autorytety.
SMX: Czy to oznacza, że autorytet jest wykorzystywany jako czynnik bezpośredni lub pośredni?
Haahr: Nie powiedziałbym tak lub nie. To znacznie bardziej skomplikowane i nie mogę udzielić bezpośredniej odpowiedzi.
SMX: Kiedy skończyło się wyraźne autorstwo, Google powiedział, aby nadal mieć bylines. Czy w ogóle powinieneś zawracać sobie głowę rel=author?
Illyes: Jest co najmniej jeden zespół, który wciąż rozważa użycie tagu rel=author tylko ze względu na przyszły rozwój. Gdybym był SEO, nadal zostawiłbym tag. Nie zaszkodzi go mieć. Na nowych stronach jednak chyba nie warto go mieć. Chociaż w przyszłości możemy go użyć do czegoś.
SMX: Co teraz czytasz?
Haahr: Czytam dużo dziennikarstwa i bardzo mało książek. Jednak właśnie skończyłem „City on Fire” – opowiada o Nowym Jorku w latach 70-tych. Jest 900 stron i byłem rozczarowany, kiedy to się skończyło. Właśnie zacząłem „Tu się nie może wydarzyć”.