Как работает Google: история Google Ranking Engineer #SMX

Опубликовано: 2022-06-12

Инженер-программист Google Пол Хаар работает в Google более 14 лет. Для двоих из них он делил офис с Мэттом Каттсом. Он выходит на сцену SMX West 2016, чтобы рассказать о том, как работает Google с точки зрения инженера Google, или, по крайней мере, поделиться как можно больше за 30 минут. После этого на сцене к нему присоединится аналитик тенденций для веб-мастеров Гэри Иллиес, и они оба ответят на вопросы аудитории SMX, а модератором будет редактор Search Engine Land Дэнни Салливан (перейдите к разделу вопросов и ответов!).

Слева направо: аналитик Google Webmaster Trends Гэри Иллиес, инженер-программист Google Пол Хаар и редактор отдела поисковых систем Дэнни Салливан на сцене SMX West 2016 в Сан-Хосе.

Как работает Google

Хаар начинает с рассказа о том, чем занимаются инженеры Google. В их работу входит:

  • Написание кода для поиска
  • Оптимизация показателей
  • Ищем новые сигналы
  • Комбинируя старые сигналы по-новому
  • Перемещение результатов с хорошим рейтингом вверх
  • Перемещение результатов с плохими оценками вниз
  • Исправление рекомендаций по рейтингу
  • Разработка новых метрик при необходимости

Две части поисковой системы:

  • Заблаговременно (до запроса)
  • Обработка запросов

Перед запросом

  • Сканировать Интернет
  • Анализ просканированных страниц
    • Извлечь ссылки
    • Рендеринг содержимого
    • Аннотировать семантику
  • Построить индекс

Индекс

  • Как индекс книги
  • Для каждого слова список страниц, на которых оно появляется
  • Разбиты на группы по миллионам страниц
  • Плюс метаданные для каждого документа

Обработка запросов

  • Понимание и расширение запросов
    Называет ли запрос какие-либо известные объекты?
  • Поиск и оценка
    • Отправить запрос на все шарды
      Каждый осколок

      • Находит совпадающие страницы
      • Вычисляет оценку для запроса + страницы
      • Отправляет обратно первую N страницу по количеству баллов
    • Объедините все верхние страницы
    • Сортировать по баллам
  • Корректировки после извлечения
    • Кластеризация узлов
    • Есть ли дублирование

Сигналы подсчета очков

Сигнал это:

  • Часть информации, используемой при подсчете очков
  • Независимый от запроса — особенность страницы
  • Зависит от запроса

Метрики

«Если вы не можете что-то измерить, вы не можете это улучшить» — лорд Кельвин.

  • Актуальность
    • Отвечает ли страница на запрос пользователя
    • Главный показатель рейтинга
  • Качественный
    • Насколько хорошие результаты мы показываем
  • Время до результата (чем быстрее, тем лучше)

Google оценивает себя с помощью живых экспериментов:

  • A/B-эксперименты на реальном трафике
  • Ищите изменения в шаблонах кликов
  • Много трафика в том или ином эксперименте

В свое время Google протестировал 41 вид синего, чтобы определить, какой из них лучше.

Google также проводит эксперименты с людьми:

  • Показать результаты экспериментального поиска реальных людей
  • Спросите, как результаты
  • Совокупные рейтинги по оценщикам
  • Опубликовать руководство, объясняющее критерии для оценщиков
  • Инструменты поддерживают это в автоматическом режиме, подобно Mechanical Turk.

Google оценивает страницы по двум основным факторам:

  • Удовлетворение потребностей (где мобильные устройства находятся в центре внимания)
  • Качество страницы

Оценки соответствия требованиям:

  • Полностью соответствует
  • Очень высоко соответствует
  • Высоко соответствует
  • Умеренно соответствует
  • Слегка встречается
  • Не удается встретиться

Концепции качества страницы:

  • экспертиза
  • авторитетность
  • Надежность

Процесс разработки инженера Google:

  • Идея
  • Повторять до готовности
    • Написать код
    • Генерация данных
    • Проводить эксперименты
    • Анализировать
  • Отчет о запуске от количественного аналитика
  • Запустить обзор
  • Запуск

Что пойдет не так?

Есть два вида проблем:

  • Систематически плохие оценки
  • Метрики не отражают то, что нас волнует

Вот пример плохой оценки. Кто-то ищет [фермерское удобрение для Техаса], и в результате поиска отображается карта со штаб-квартирой производителя. Маловероятно, что они этого хотят. Google определяет это с помощью живых экспериментов. Если оценщик видит карты и оценивает их как «высоко отвечающие» потребностям, то это является недостатком при оценке.

Или что делать, если метрики отсутствуют? В 2009-2011 годах было много жалоб на некачественный контент. Но показатели релевантности продолжали расти из-за контент-ферм. Вывод: Google не измерял нужные показатели. Таким образом, метрика качества была разработана отдельно от релевантности.

Вот слайд-презентация Пола Хаара, которую стоит посмотреть:
Обновление от 19 7: Презентация помечена автором как частная.

Как работает Google: взгляд инженера по ранжированию Пол Хаар из Search Marketing Expo – SMX

Гэри Иллиес и Пол Хаар отвечают на вопросы аудитории SMX

SMX: Как RankBrain вписывается во все это?

Хаар: RankBrain видит часть сигналов. Я не могу вдаваться в подробности о том, как работает RankBrain. Мы понимаем, как это работает, но не так хорошо, как это делается. Он использует многое из того, что мы публиковали о глубоком обучении.

Как RankBrain узнает авторитетность страницы?

Хаар: Это все зависит от обучения, которое он получает. Он видит запросы и другие сигналы. Я не могу сказать больше, что было бы полезно.

SMX: когда вы входите в приложение Google, различаете ли вы информацию, которую собираете? Если вы используете Google Now, а не Chrome, может ли это повлиять на то, что вы видите?

Хаар: Вопрос в том, вошли вы в систему или нет. Мы обеспечиваем постоянный опыт. Ваша история посещенных страниц следует за вами либо.

Предоставляет ли Google разные результаты по одним и тем же запросам в разное время дня?

Иллиес: Я не уверен. Например, в Картах, если мы показываем что-то, связанное с картами, мы показываем часы. Насколько известно Гэри, это не меняет того, что появляется.

SMX: Что происходит с Пандой и Пингвином?

Иллиес: Я отказался от указания даты или графика Penguin. Мы над этим работаем, думаем, как запустить, но я, честно говоря, не знаю даты и не хочу говорить дату, потому что ошибся уже раза три-четыре, а это плохо для бизнеса.

SMX: Post-Google Authorship, как вы отслеживаете авторитет автора?

Хаар: Я не буду вдаваться в подробности. Что я скажу, так это то, что оценщики должны просматривать это вручную для страницы, которую они видят. Что мы измеряем, так это то, можем ли мы хорошо справляться с результатами, которые оценщики считают хорошим авторитетом.

SMX: Означает ли это, что власть используется как прямой или косвенный фактор?

Хаар: Я бы не сказал ни да, ни нет. Это гораздо сложнее, и я не могу дать прямого ответа.

SMX: Когда явное авторство закончилось, Google велел сохранить авторство. Стоит ли вообще заморачиваться с rel=author?

Иллиес: Есть по крайней мере одна команда, которая все еще рассматривает возможность использования тега rel=author только ради будущих разработок. Если бы я был оптимизатором, я бы все равно оставил тег. Иметь это не больно. Однако на новых страницах его, вероятно, не стоит иметь. Хотя мы могли бы использовать его для чего-то в будущем.

SMX: Что ты сейчас читаешь?

Хаар: Я читаю много журналистики и очень мало книг. Однако я только что закончил «Город в огне» — это про Нью-Йорк 70-х. Там 900 страниц, и я был разочарован, когда она закончилась. Я только что начал «Этого не может случиться здесь».

Подпишитесь на ссылку блога BCI