Как работает Google: история Google Ranking Engineer #SMX
Опубликовано: 2022-06-12Инженер-программист Google Пол Хаар работает в Google более 14 лет. Для двоих из них он делил офис с Мэттом Каттсом. Он выходит на сцену SMX West 2016, чтобы рассказать о том, как работает Google с точки зрения инженера Google, или, по крайней мере, поделиться как можно больше за 30 минут. После этого на сцене к нему присоединится аналитик тенденций для веб-мастеров Гэри Иллиес, и они оба ответят на вопросы аудитории SMX, а модератором будет редактор Search Engine Land Дэнни Салливан (перейдите к разделу вопросов и ответов!).

Как работает Google
Хаар начинает с рассказа о том, чем занимаются инженеры Google. В их работу входит:
- Написание кода для поиска
- Оптимизация показателей
- Ищем новые сигналы
- Комбинируя старые сигналы по-новому
- Перемещение результатов с хорошим рейтингом вверх
- Перемещение результатов с плохими оценками вниз
- Исправление рекомендаций по рейтингу
- Разработка новых метрик при необходимости
Две части поисковой системы:
- Заблаговременно (до запроса)
- Обработка запросов
Перед запросом
- Сканировать Интернет
- Анализ просканированных страниц
- Извлечь ссылки
- Рендеринг содержимого
- Аннотировать семантику
- Построить индекс
Индекс
- Как индекс книги
- Для каждого слова список страниц, на которых оно появляется
- Разбиты на группы по миллионам страниц
- Плюс метаданные для каждого документа
Обработка запросов
- Понимание и расширение запросов
Называет ли запрос какие-либо известные объекты? - Поиск и оценка
- Отправить запрос на все шарды
Каждый осколок- Находит совпадающие страницы
- Вычисляет оценку для запроса + страницы
- Отправляет обратно первую N страницу по количеству баллов
- Объедините все верхние страницы
- Сортировать по баллам
- Отправить запрос на все шарды
- Корректировки после извлечения
- Кластеризация узлов
- Есть ли дублирование
Сигналы подсчета очков
Сигнал это:
- Часть информации, используемой при подсчете очков
- Независимый от запроса — особенность страницы
- Зависит от запроса
Метрики
«Если вы не можете что-то измерить, вы не можете это улучшить» — лорд Кельвин.
- Актуальность
- Отвечает ли страница на запрос пользователя
- Главный показатель рейтинга
- Качественный
- Насколько хорошие результаты мы показываем
- Время до результата (чем быстрее, тем лучше)
Google оценивает себя с помощью живых экспериментов:
- A/B-эксперименты на реальном трафике
- Ищите изменения в шаблонах кликов
- Много трафика в том или ином эксперименте
В свое время Google протестировал 41 вид синего, чтобы определить, какой из них лучше.
Google также проводит эксперименты с людьми:
- Показать результаты экспериментального поиска реальных людей
- Спросите, как результаты
- Совокупные рейтинги по оценщикам
- Опубликовать руководство, объясняющее критерии для оценщиков
- Инструменты поддерживают это в автоматическом режиме, подобно Mechanical Turk.
Google оценивает страницы по двум основным факторам:
- Удовлетворение потребностей (где мобильные устройства находятся в центре внимания)
- Качество страницы
Оценки соответствия требованиям:
- Полностью соответствует
- Очень высоко соответствует
- Высоко соответствует
- Умеренно соответствует
- Слегка встречается
- Не удается встретиться
Концепции качества страницы:
- экспертиза
- авторитетность
- Надежность
Процесс разработки инженера Google:
- Идея
- Повторять до готовности
- Написать код
- Генерация данных
- Проводить эксперименты
- Анализировать
- Отчет о запуске от количественного аналитика
- Запустить обзор
- Запуск
Что пойдет не так?
Есть два вида проблем:

- Систематически плохие оценки
- Метрики не отражают то, что нас волнует
Вот пример плохой оценки. Кто-то ищет [фермерское удобрение для Техаса], и в результате поиска отображается карта со штаб-квартирой производителя. Маловероятно, что они этого хотят. Google определяет это с помощью живых экспериментов. Если оценщик видит карты и оценивает их как «высоко отвечающие» потребностям, то это является недостатком при оценке.
Или что делать, если метрики отсутствуют? В 2009-2011 годах было много жалоб на некачественный контент. Но показатели релевантности продолжали расти из-за контент-ферм. Вывод: Google не измерял нужные показатели. Таким образом, метрика качества была разработана отдельно от релевантности.
Вот слайд-презентация Пола Хаара, которую стоит посмотреть:
Обновление от 19 7: Презентация помечена автором как частная.
Гэри Иллиес и Пол Хаар отвечают на вопросы аудитории SMX
SMX: Как RankBrain вписывается во все это?
Хаар: RankBrain видит часть сигналов. Я не могу вдаваться в подробности о том, как работает RankBrain. Мы понимаем, как это работает, но не так хорошо, как это делается. Он использует многое из того, что мы публиковали о глубоком обучении.
Как RankBrain узнает авторитетность страницы?
Хаар: Это все зависит от обучения, которое он получает. Он видит запросы и другие сигналы. Я не могу сказать больше, что было бы полезно.
SMX: когда вы входите в приложение Google, различаете ли вы информацию, которую собираете? Если вы используете Google Now, а не Chrome, может ли это повлиять на то, что вы видите?
Хаар: Вопрос в том, вошли вы в систему или нет. Мы обеспечиваем постоянный опыт. Ваша история посещенных страниц следует за вами либо.
Предоставляет ли Google разные результаты по одним и тем же запросам в разное время дня?
Иллиес: Я не уверен. Например, в Картах, если мы показываем что-то, связанное с картами, мы показываем часы. Насколько известно Гэри, это не меняет того, что появляется.
SMX: Что происходит с Пандой и Пингвином?
Иллиес: Я отказался от указания даты или графика Penguin. Мы над этим работаем, думаем, как запустить, но я, честно говоря, не знаю даты и не хочу говорить дату, потому что ошибся уже раза три-четыре, а это плохо для бизнеса.
SMX: Post-Google Authorship, как вы отслеживаете авторитет автора?
Хаар: Я не буду вдаваться в подробности. Что я скажу, так это то, что оценщики должны просматривать это вручную для страницы, которую они видят. Что мы измеряем, так это то, можем ли мы хорошо справляться с результатами, которые оценщики считают хорошим авторитетом.
SMX: Означает ли это, что власть используется как прямой или косвенный фактор?
Хаар: Я бы не сказал ни да, ни нет. Это гораздо сложнее, и я не могу дать прямого ответа.
SMX: Когда явное авторство закончилось, Google велел сохранить авторство. Стоит ли вообще заморачиваться с rel=author?
Иллиес: Есть по крайней мере одна команда, которая все еще рассматривает возможность использования тега rel=author только ради будущих разработок. Если бы я был оптимизатором, я бы все равно оставил тег. Иметь это не больно. Однако на новых страницах его, вероятно, не стоит иметь. Хотя мы могли бы использовать его для чего-то в будущем.
SMX: Что ты сейчас читаешь?
Хаар: Я читаю много журналистики и очень мало книг. Однако я только что закончил «Город в огне» — это про Нью-Йорк 70-х. Там 900 страниц, и я был разочарован, когда она закончилась. Я только что начал «Этого не может случиться здесь».