[Дайджест вебинара] SEO in Orbit: Rankbrain, искусственный интеллект, машинное обучение и будущее поиска

Опубликовано: 2019-11-13

Вебинар Rankbrain, AI, машинное обучение и будущее поиска является частью серии SEO in Orbit и вышел в эфир 19 июня 2019 года. В этом выпуске Билл Славски использует свои знания о патентах Google и работе поиска, чтобы вниз вероятные поисковые алгоритмы, используемые сегодня, и постулируют, как это могло бы выглядеть под капотом будущей версии Google. Присоединяйтесь к нам, пока мы исследуем будущее технического SEO.

SEO in Orbit — это первая серия вебинаров, отправляющая SEO в космос. На протяжении всей серии мы обсуждали настоящее и будущее технического SEO с некоторыми из лучших специалистов по SEO и 27 июня 2019 года отправили в космос их лучшие советы.

Смотрите повтор здесь:

Представляем Билла Славски

Эксперт-самоучка по патентам поисковых систем, Билл Славски является директором по охвату SEO в Go Fish Digital и блоггером в SEO by the Sea. По словам самого Билла: «Я не компьютерщик и не математик. Имею степень бакалавра по английскому языку и степень доктора юридических наук. Я читаю патенты поисковых систем примерно с 2005 года, чтобы узнать, что они говорят о поиске, поисковиках и Сети. Многие из этих патентов охватывают алгоритмы, направленные на решение конкретных проблем, и я нашел многие из них полезными, когда дело доходит до выполнения SEO».

Этот выпуск вел Франсуа Губ, серийный предприниматель, соучредитель и генеральный директор OnCrawl. Он основал несколько компаний и активно участвует в стартап-экосистеме. Увлеченный семантическим анализом и поисковыми системами, он любит анализировать научные публикации Google и регулярно выступает на конференциях по SEO.

Что такое ИИ и машинное обучение?

Существует множество определений ИИ.

Большая часть работы Google сосредоточена на нейронных сетях, что приводит к тому, как работает машинное обучение. Он использует набор данных, который представляет идеальный набор данных, размеченный, чтобы подчеркнуть определенные его особенности, которые используются для обучения классификаторов. Затем они освобождаются от других наборов данных для анализа и классификации новой информации на основе того, что они узнали из набора образцов. Это машинное обучение.

Области, охваченные ИИ

– Естественный язык

ИИ может охватывать разные области, например лучше понимать естественный язык. Существует ряд задействованных методов, и многие из вещей, предлагаемых Google, иллюстрируют то, что связано с анализом естественного языка.

- Ответ на вопрос

Недавний патент (ссылка) пытается заполнить пробелы в схемах ответов на вопросы.

В нем объясняется, как Google может использовать граф знаний, чтобы понять, каким может быть ответ на вопрос. Например, если информация отсутствует или неверна для объектов, Google может попытаться оценить ответ на основе информации, связанной с соответствующими фактами.

Что интересно в этом патенте, так это не то, что Google использует оценки для ответов на вопросы, а то, что они дают объяснения своим оценкам.

– Имитация человеческого мышления (нейронные сети)

Машинное обучение основано на ИИ, имитирующем то, как может работать человеческое мышление. Сети машинного обучения называются нейронными сетями, потому что они созданы, чтобы попытаться воспроизвести то, как работают нейроны в мозге.

Rankbrain

- Связь с колибри и контекстом слова

И Rankbrain, и Hummingbird представляют собой подходы к переписыванию запросов. Hummingbird пытался лучше понять контекст запроса, просматривая все слова в запросе. Раньше Google смотрел только на слова рядом друг с другом, чтобы понять контекст; Колибри смотрит за слова, расположенные непосредственно рядом друг с другом. Он может даже учитывать полные предложения в разговорных запросах. Hummingbird попытался использовать все слова в запросе вместе, чтобы понять контекст.

– Переписывание запросов в Rankbrain с использованием метода встраивания слов

В отличие от Hummingbird, Rankbrain использует метод встраивания слов. Он исследует короткий текстовый отрывок и может определить, есть ли пропущенные слова. Это достигается путем обучения на больших наборах данных (200 миллиардов слов).

- Поиск пропущенных слов в запросе

Например, запрос «головоломка New York Times» может быть правильно истолкован как отсутствие слова «кроссворд». Rankbrain добавляет в запрос пропущенное слово и возвращает поисковику результаты кроссворда New York Times, так как это, вероятно, то, что они хотят.

– Можно ли оптимизировать для Rankbrain?

Важно отметить, что вы не можете оптимизировать страницы для Rankbrain. Некоторые оптимизаторы написали статьи о том, что вы можете. Однако из всего, что Билл видел об этом алгоритме, следует, что это процесс перезаписи запроса, а не что-то, что влияет на оценку страницы.

Дополнительные алгоритмы Google, использующие машинное обучение

У Google нет единого «алгоритма», управляющего поисковой системой. Он имеет множество различных алгоритмов, которые влияют на то, как он работает. Rankbrain — один из многих.

– Использование показателей качества в категориях

Это может означать, например, что, когда Google определяет, что для данного запроса имеется много результатов информационного типа, вместо ранжирования страниц на основе оценки поиска информации или авторитетных рейтингов, таких как PageRank, они могут учитывать категории. Оттуда они могут дать показатели качества в категориях веб-сайтов. Это обеспечит более разнообразный набор результатов и гарантирует, что результаты более высокого качества могут быстрее перемещаться в верхнюю часть результатов.

– Популярность страницы для навигационных результатов

Этот тип алгоритма ранжирования также отдает предпочтение более популярным страницам (страницам, на которые люди обычно заходят), особенно для результатов навигационного типа. Когда пользователи уже знают, что страница — это то, что они хотят видеть, страница будет иметь тенденцию занимать высокие позиции в парадигмах показателя качества категории.

– Влияние SERP CTR

Показатели качества категории также предполагают, что страницы, которые часто выбираются в результатах поиска, также являются страницами высокого качества и также будут иметь высокий рейтинг при таком подходе к качеству категории.

Однако, несмотря на то, что метод оценки качества категории определенно является машинным обучением, это не Rankbrain.

Rankbrain для удовлетворения ситуационных потребностей поисковиков

Rankbrain пытается понять, чего может не хватать в запросе. Наиболее важным аспектом Rankbrain является то, что он пытается удовлетворить ситуационные потребности искателей: что на самом деле имел в виду этот человек, когда вводил запрос в поле?

Прошлые запросы по ключевым словам в сравнении с текущими устными и диалоговыми запросами

Если мы перейдем к разговорным запросам и запросам типа разговора, будет задействовано больше слов, чем подход с использованием ключевых слов, который использовался в прошлом.

Как поисковик, вы пытаетесь угадать, какие слова вам нужно использовать, чтобы найти нужную информацию. И вам не нужно делать такого рода предположения. Если вы спросите о том, чего хотите, Google сможет проанализировать это и определить, что вы, вероятно, имели в виду. Это роль Rankbrain.

Подходы к обработке естественного языка

Одна из вещей, которую мы видим, это то, что Google уделяет гораздо больше внимания обработке естественного языка. Мы наблюдаем появление подходов к обработке естественного языка.

- Нейронное сопоставление

Дэнни Салливан немного написал в Твиттере о том, что он назвал нейронным соответствием.

Он сказал, что это средство лучшего понимания слов на страницах и значения этих слов в контексте. Он привел несколько примеров того, как одно слово может означать три или четыре разных вещи в зависимости от того, как оно расположено в предложении.

- Встраивание слов

Google выпускает патенты на использование подхода типа встраивания слов (подобного тому, который они использовали в Rankbrain для понимания этих коротких текстовых запросов) для более длинных объемов текста, таких как веб-страницы.

– Семантические фреймы

Семантическая рамка — это когда вы используете язык, идеально подходящий для определенной ситуации. В каждой ситуации используется определенный язык. Например, очки в контексте ипотеки или покупки недвижимости не имеют того же значения, что и очки в игре в кости или в настольных играх.

Если вы понимаете структуру, вы можете лучше понять контекст слов на странице.

Это также может помочь различать слова, само значение которых отличается от ситуации к ситуации. «Лошадь», например, не одно и то же для наездника и плотника. Другие патенты также исследовали дополнительные методы понимания контекстуальных различий в значении.

Использование машинного обучения для идентификации авторов по стилю написания

Машине довольно легко определить стиль письма человека. Существует параллель между этой и тематическими классификациями контента из-за стандартизированных стилей в таких отраслях, как недвижимость, спорт и т. д.

Будучи студентом английского языка, Билл анализировал литературу и изучал, как авторы выражают себя по-разному и почему.

– Автор оценивает патент, используя частоту цитирования

У Google есть патент на авторские оценки. При оценке авторов одним из факторов, принимаемых во внимание, является то, как часто их цитируют другие авторы.

- Программа просмотра Google Книги N-Gram

Google много работает с языковыми моделями. Они отсканировали большое количество книг. Средство просмотра N-Gram позволяет вам увидеть, как популярность фразы меняется с годами.

– Патент N. Panda на показатель качества с использованием языковых моделей.

В патенте Н. Панды на показатель качества говорится об использовании N-грамм и построении языковых моделей для понимания качества веб-страниц на основе их сравнения с другими языковыми моделями.

Это отличный пример машинного обучения в технологии поисковых систем. У нас есть набор данных ранее оцененных страниц, и мы сравниваем новые страницы с теми, которые основаны на данных из исходного выборочного набора. Поскольку это используется для определения качества, страницы, которые содержат характеристики хорошо написанных страниц из исходного набора, получат более высокий балл.

Этот тип языковой модели также можно использовать для понимания стиля письма разных авторов.

Машинное обучение будущего со структурированными данными

Машинное обучение также проявляется в том, как Google управляет сущностями, в переводе и во внешнем виде того, что Синди Крам назвала Fraggles.

– Ответьте на отрывки и подкрепите текстовое содержание

Есть еще один патент, в котором говорится об отрывках ответов, в котором Google предлагает механизм использования текстовых отрывков, найденных на веб-страницах, для предоставления ответов на вопросы. Это недавно было обновлено, чтобы смотреть не только на текстовые отрывки, но и на структурированные данные, которые усиливают текст.

- Проверка фактов и согласованность

Использование схемы обеспечивает избыточность информации. Это дает Google средство проверки согласованности информационных фактов на веб-странице путем сравнения текстовой информации с информацией, представленной в структурированной разметке.

Это то же самое, что происходит на картах Google, где Google просматривает имя, адрес и номер телефона.

Согласованность обеспечивает уровень уверенности в том, что ответ с большей вероятностью будет правильным.

- Страницы часто задаваемых вопросов и страницы с инструкциями

По мере того, как Google представляет страницу часто задаваемых вопросов и поддержку схемы с практическими рекомендациями, мы видим, что они движутся к средствам, позволяющим владельцам сайтов создавать схему, которая отражает то, что они могут поместить в текст на веб-странице.

Стратегии понимания контекста на веб-странице

Google предпринял другие шаги, чтобы попытаться лучше понять содержание веб-страниц. Вот некоторые из них:

– Использование баз знаний и контекстных терминов

В патентах Google указано, что они могут обращаться к базам знаний и собирать определения контекстных терминов из этих баз знаний. Затем они могут искать наличие этих контекстных терминов на веб-странице, чтобы определить, какое контекстно-зависимое значение слова является наиболее вероятным.

Таким образом, страница о лошади (животном) может содержать такие слова, как «седло», тогда как страницы о других типах лошадей могут содержать такие слова, как «плотницкие работы».

– Индексация на основе фраз

Другой подход к семантическому обучению для понимания тем на страницах датируется примерно 2004 годом. Индексация на основе фраз не только устарела, но и является предметом не менее 20 патентов и несколько раз обновлялась и исправлялась. Все это указывает Биллу на то, что индексирование на основе фраз имеет большое значение в алгоритмах Google.

– Построение перевернутого указателя тематических предиктивных фраз

В одном из патентов, связанных с индексированием на основе фраз, описывается построение перевернутого индекса фраз, которые появляются на страницах и позволяют прогнозировать темы. Примером могут служить такие фразы, как «Президент Соединенных Штатов», «Госсекретарь» или «Интервью в Розовом саду», которые предсказывают семантическую тему «Белый дом».

Тематические знания веб-мастера в Schema

Google разрабатывает использование таких вещей, как Schema, но определение типа вещей, описываемых Schema, предоставляется веб-мастерами. Таким образом, веб-мастера могут внести свой вклад в построение графов знаний вместе с поисковыми системами.

Например, Google добавил «знание о» как аспект Schema. Тем не менее, именно веб-мастера указывают, что юристы могут знать о морском праве или патентном праве, что, в свою очередь, помогает заполнить граф знаний.

Представление знаний на основе машин — это совместная работа.

[Пример успеха] Управление сканированием ботов Google

Имея более 26 000 ссылок на продукты, 1001Pneus нуждался в надежном инструменте для мониторинга их эффективности SEO и уверенности в том, что Google выделяет свой краулинговый бюджет на правильные категории и страницы. Узнайте, как успешно управлять краулинговым бюджетом для веб-сайтов электронной коммерции с помощью OnCrawl.
Читать тематическое исследование

Развитие поиска и устаревшие методы SEO

- Повторяющиеся слова в альтернативном тексте

Сообщение Google о том, что фотография человека должна быть названа дважды, не поможет Google понять ее дважды. Возможно даже, что это может снизить оценку поисковой системой ценности страницы.

– LSI предназначена для небольших статических баз данных

Разработчики инструментов продолжают предлагать SEO-специалистам использовать старые методы. Одним из примеров является латентное семантическое индексирование (LSI), которое было разработано в 1989 году. Оно было предназначено для небольших статических баз данных, которые не имеют размера Интернета и не растут со скоростью Интернета.

Каждый раз, когда вы хотите использовать LSI, вам необходимо иметь последнюю версию базы данных. Если вы продолжаете добавлять информацию в корпус, его необходимо запустить снова. Это означает, что это не очень полезно для Интернета.

- TF-IDF работает только с доступом к полному корпусу

Еще одним примером является TF-IDF (частота документа с индексом частоты термина). Лучше всего это работает, если у вас есть доступ ко всему массиву индексируемой информации, в данном случае ко всемирной паутине. Вы используете TF-IDF, когда хотите узнать, какие слова являются наиболее распространенными, а какие редкими во всем корпусе. Но если вы используете только корпус первой десятки страниц ранжирования для определенных терминов, а не всю сеть, вы не сможете установить фактическую частоту терминов.

Это может серьезно повлиять на точность вашего анализа.

Ожидания веб-мастеров и возможности Google: потребность в общении с Google

Несмотря на недавние объявления, мы на самом деле не знаем, что разметка страниц бесполезна для поисковых систем.

Хотя разметка разбивки на страницы больше не используется для управления дублирующимся контентом на страницах с разбивкой на страницы, у нас есть определенные ожидания от Google. Они должны быть в состоянии понять, когда страницы находятся в серии. Объявления, подобные этому, показывают, как трудно понять, насколько хорош или плох Google в том, что они делают.

Использование часто встречающихся слов

Любимый технический трюк Билла — смотреть на часто встречающиеся слова, которые высоко ранжируются по определенным терминам, и следить за тем, чтобы он использовал их в содержании, как в теле, так и в якорном тексте, указывающем со своей страницы на связанные страницы. При этом используются «попадания привязки», которые поисковые системы предположительно рассматривают как «экспертные ссылки».

Эта стратегия основана на индексации на основе фраз.

– Статистическая вероятность совпадения фраз

Патент на индексирование на основе фраз был обновлен около двух лет назад. Этот подход теперь использует количество связанных терминов, отображаемых на страницах, для ранжирования страниц.

Однако, если на странице появляется больше статистически вероятного количества связанных терминов, она может быть помечена как спам. Например, если вы извлечете много страниц по теме и поместите их все на одну страницу, у вас будет слишком много связанных терминов, чтобы это произошло естественным образом.

Это хорошо согласуется с тем, как Билл проводит исследование ключевых слов. Он просматривает похожие страницы и составляет список часто встречающихся похожих фраз или слов. Он может попытаться использовать некоторые из них на своей странице, даже если он не пытается ранжироваться для них. Это создает контент, соответствующий ключевым словам, по которым он хочет ранжироваться.

LSI против использования синонимов или семантически связанного контента

Ажиотаж вокруг LSI — одна из наименее любимых тем Билла, отчасти потому, что этот термин вводит в заблуждение. То, что многие предполагают, говоря о LSI, не имеет ничего общего со скрытой семантической индексацией. Вместо этого они просто предлагают добавлять на страницы синонимы или семантически связанный контент.

Инвертированный индекс фразового индексирования и базы знаний, которые могут предоставить контекстные термины, указывают на то, что существуют термины и источники, к которым вы можете обратиться, чтобы найти слова, которые могут быть полезны, если вы строго ищете совместно встречающиеся термины в высокоранговых терминах. страницы по вашему ключевому слову.

Слова, которые кажутся синонимами, иногда таковыми не являются, по оценке Google.

Быстрое индексирование с помощью инструмента отправки URL

Инструмент отправки URL в новой версии Google Search Console — это действительно быстрый способ проиндексировать страницы. Билл видел, как обновления распространялись в поисковой выдаче в течение минуты или двух.

Надежда Билла на будущую разметку: дополнительная информация о патентах

Вопрос аудитории: Какую разметку Schema вы хотели бы видеть добавленной в будущем?

Поскольку он много пишет о патентах, Билл хотел бы найти лучший способ отразить уникальные особенности патентов. Некоторые из этих функций включают в себя:

  • Классы (на что направлен патент)
  • Название патента, хотя «основной объект страницы» может охватывать эту функцию.

Поскольку Google уже позволяет вам выполнять поиск на основе функций схемы, в конечном итоге можно было бы улучшить поиск патентов, чтобы люди могли запрашивать патенты, охватывающие определенные категории.

Является ли Answer Engine Optimization будущим поиска?

Вопрос аудитории: Как вы думаете, станет ли SEO в будущем УЭО?

Билл считает, что в некотором смысле SEO всегда было AEO.

– Старые указания на Google как на систему ответов

Мы не обязательно проходим через эволюцию. Есть признаки того, что Google движется в этом направлении 15-летней давности, например:

  • 2004: Функция словаря, позволяющая пользователям искать значение слов.
  • 2005: Сообщение в блоге «Только факты», показывающее первый избранный фрагмент или прямой ответ, который не был удовлетворен путем предоставления десяти синих ссылок, но предпочел предоставить текстовый ответ.

– Сергей Брин: патент на алгоритм понимания фактов и взаимосвязей между фактами

Еще одним свидетельством того, что Google как механизм ответов не является чем-то новым, является патент Сергея Брина на алгоритм для понимания фактов и отношений между фактами. Этот патент включал пять книг, их названия, их издателей, их авторов и так далее.

Теория состоит в том, что бот будет сканировать Интернет в поисках этих книг и…

[Прервано OK Google]

- Аудио водяные знаки

Существует также концепция звуковых водяных знаков, использующих сверхвысокие частоты. Они выйдут за пределы диапазона человеческого слуха, но собаки и компьютеры смогут их идентифицировать. Это может позволить различным поставщикам отслеживать тот факт, что вы слышали рекламу с водяным знаком и потенциально можете заинтересоваться продуктом.

Это существует не менее пяти лет, и это не то, что обсуждалось в SEO.

Верхний совет

«В Интернете много дезинформации по таким темам, как RankBrain, Neural Matching и Machine Learning. Некоторые из них содержат тщательно изученные факты, смешанные с дезинформацией, поэтому будьте осторожны с тем, на что вы полагаетесь».

SEO на Орбите ушло в космос

Если вы пропустили наш полет в космос 27 июня, поймайте его здесь и узнайте все советы, которые мы отправили в космос.