[Дайджест вебинара] SEO in Orbit: раскрываем секреты индексации

Опубликовано: 2019-11-06

Веб-семинар « Раскрытие секретов индексации» является частью серии SEO in Orbit и вышел в эфир 12 июня 2019 года. В этом выпуске Кевин Индиг делится своими мыслями о проиндексации страниц и о том, как страницы, проиндексированные для сайта, влияют на весь сайт. ранжирование и какие страницы не должны быть проиндексированы. Каков правильный подход к этому промежуточному шагу между обнаружением страниц и их появлением в поисковой выдаче?

SEO in Orbit — это первая серия вебинаров, отправляющая SEO в космос. На протяжении всей серии мы обсуждали настоящее и будущее технического SEO с некоторыми из лучших специалистов по SEO и 27 июня 2019 года отправили в космос их лучшие советы.

Смотрите повтор здесь:

Представляем Кевина Индига

Кевин Индиг помог стартапам привлечь более 100 миллионов пользователей за последние 10 лет. Он является вице-президентом по SEO и контенту @ G2, наставником по росту @ GermanAccelerator, а ранее руководил SEO @ Atlassian и Dailymotion. Его специализация — привлечение пользователей, построение бренда и удержание пользователей. Компании, с которыми работал Кевин, включают eBay, Eventbrite, Bosch, Samsung, Pinterest, Columbia, UBS и многие другие. Он также ведет кураторский информационный бюллетень по техническому маркетингу Tech Bound.

Этот выпуск был организован Ребеккой Бербель, контент-менеджером OnCrawl. Очарованная НЛП и машинными моделями языка в частности, а также системами и тем, как они работают в целом, Ребекка никогда не теряет интерес к техническим темам SEO. Она верит в евангелизацию технологий и использование данных для понимания эффективности веб-сайта в поисковых системах.

Определения

Одна из причин, по которой важно говорить об индексировании, заключается в том, что это сложная тема. Многие SEO-специалисты борются с индексацией и с тем, как на нее повлиять.

– Ползание

Простыми словами, сканирование — это технический процесс обнаружения поисковыми системами понимания веб-страницы и всех ее компонентов.

Это помогает Google найти все URL-адреса, которые он может затем просмотреть и отобразить, а затем проиндексировать и, в конечном итоге, ранжировать.

– 3-этапный процесс Google

Сканирование — это часть трехэтапного процесса Google, который позволяет создавать результаты поиска:

  1. Ползание
  2. Рендеринг
  3. Индексация

Это технически разные процессы, выполняемые разными программами или частями поисковой системы.

Ранжирование потенциально является четвертым шагом в этом процессе.

– Индексация

Индексация — это процесс добавления Google URL-адресов в длинный «список» возможных результатов. Если Кевину нужно избегать слова «индексировать» в определении индексации, он предпочел бы говорить о метафорическом «списке»: у Google есть «список» URL-адресов, которые он может использовать для ранжирования и показа пользователям наилучших результатов. .

- Лог-файлы

Веб-серверы хранят историю каждый раз, когда кто-то или что-то запрашивает страницу или ресурс на сервере.

Кевин действительно увлечен файлами журналов как источником правды, когда дело доходит до понимания того, как Google сканирует и отображает ваш сайт.

В журналах мы можем найти информацию сервера о том, как часто Google посещает ваш сайт и что он там делает, в очень простой и понятной форме. Лог-файлы содержат отдельные записи о каждом посещении сайта.

Вы можете получить массу информации из лог-файлов:

  • Определенные ошибки кода состояния
  • Проблемы со сканированием
  • Проблемы с рендерингом
  • Сколько времени робот Googlebot проводит на вашем сайте
  • Какие роботы Google заходят на ваш сайт. Например, в случае индекса Mobile First недавно был обновлен основной робот Google, используемый для индексации.
  • Является ли ваша техническая структура сайта чем-то, за чем следует Google, или у вас есть что-то, что можно оптимизировать.

Способы проверки индексации

– Не рекомендуется: запросы «сайт:».

Когда Кевин начинал заниматься SEO около 10 лет назад, он видел, какие страницы на его сайте были проиндексированы, выполняя поиск «сайт:» в Google. Хотя он все еще иногда использует это, это уже не надежный способ узнать, проиндексирован ли URL-адрес.

Совсем недавно он спросил об этой стратегии Джона Мюллера; он подтвердил, что это больше не рекомендуемый способ проверить, что Google проиндексировал, а что нет.

– Рекомендуется: проверка URL-адреса Search Console.

Вместо этого Джон Мюллер рекомендует использовать инструмент проверки URL в Search Console, чтобы проверить, что было проиндексировано.

– Рекомендуется: XML-карты сайта и отчет о покрытии.

Отправка XML-карты сайта в Search Console — это один из способов проверить группу ваших URL-адресов, а затем проверить карту сайта в отчете о покрытии в Search Console.

Важность различия между индексом сканирования

Как уже упоминалось, существует трехэтапный процесс, в ходе которого Google сканирует, отображает и индексирует страницу. Очень важно различать каждый из этих шагов. По мере того, как сеть становится все более сложной, Google приходится адаптироваться, разделяя и улучшая эти процессы по отдельности.

Различные роботы Google

Google использует несколько роботов Google для сканирования и отображения веб-сайтов. У вас есть разные типы ресурсов: изображения, видео, новости, текст… Google использует разных роботов Google для понимания каждого типа контента.

Google объявил около месяца назад, что они обновили свой движок рендеринга, чтобы он работал на вечнозеленом роботе Googlebot и новейшем движке Chromium.

Это важно, так как сканирование и рендеринг являются необходимыми шагами, ведущими к индексации.

Изменение приоритетов в процессе Google

В целях индексации Google сканировал с помощью настольного робота Googlebot. Это было изменено; теперь они используют смартфон Googlebot для целей индексации.

Индексация Mobile-First будет введена с июля 2019 года для всех новых сайтов и будет применяться для всех известных существующих сайтов, если они еще не были переключены.

Сканирование: способы, которыми Google находит URL-адреса для индексации

Чтобы проиндексировать страницу, Google должен ее просканировать.

В качестве первого шага в процессе, ведущем к индексации, чтобы убедиться, что ваши страницы индексируются правильно и быстро, вам необходимо убедиться, что сканирование выполняется «надежно и надежно».

Существует три основных способа, которыми Google находит URL-адреса:

  1. Ссылки: на этом был основан весь патент PageRank — поиск новых сайтов по гиперссылкам.
  2. XML-карты сайта
  3. Прошлые обходы

– Как Google приоритизирует URL-адреса (краулинговый бюджет)

Google отдает приоритет тому, какие сайты он сканирует и как часто. Это часто называют «краулинговым бюджетом».

В блоге Google для веб-мастеров была статья о краулинговом бюджете, в которой было дано несколько идей о том, как Google определяет приоритеты сайтов для сканирования.

– Популярность: обратные ссылки и PageRank

Один из пунктов, установленных в этой статье, заключается в том, что PageRank является основным фактором, определяющим скорость и объем индексации веб-сайта.

Обратные ссылки, конечно же, являются основным компонентом PageRank и, следовательно, влияют на скорость сканирования и индексацию.

– Коды состояния

Коды состояния также учитываются. Например, если на вашем сайте много страниц с ошибкой 404, это, скорее всего, приведет к тому, что Google уменьшит частоту сканирования.

Другим примером являются цепочки перенаправлений и циклы.

– Гигиена сайта

Если ваш сайт организован таким образом, что краулинговый бюджет расходуется впустую, Google может сократить время, затрачиваемое на ваш сайт.

– Скорость страницы и время отклика сервера

Бюджет сканирования также зависит от скорости страницы и времени отклика сервера. Google не хочет атаковать ваш сайт; если он увидит, что ваш сервер испытывает трудности с предоставлением страниц и ресурсов с той скоростью, с которой он их запрашивает, он приспособится к тому, что ваш сервер может обрабатывать с точки зрения сканирования.

Рендеринг: обновление кофеина

Обновление Caffeine, вышедшее несколько лет назад, было в основном обновлением структуры рендеринга Google.

Индексация: разные кластеры для типов контента

Существуют разные архивы индексов, которые Google использует для получения разных результатов. Разумно представить, что в индексе есть разные кластеры для результатов новостей, еще один кластер для результатов изображений и т. д.

Ранжирование: Отдельные алгоритмы

Наконец, ранжируются проиндексированные URL-адреса, но это совершенно другой алгоритм.

Улучшение скорости индексации

Как ускорение индексации страниц, так и увеличение индексации страниц сильно зависят от PageRank и, следовательно, от обратных ссылок. Но стратегии улучшения каждого из них разные.

Если вы хотите, чтобы страницы индексировались быстрее, вы должны оптимизировать первые два шага (сканирование и рендеринг). Сюда будут входить такие компоненты, как:

  • Внутренняя перелинковка
  • карты сайта
  • Скорость сервера
  • Скорость страницы

Увеличение количества проиндексированных страниц

Если вы хотите проиндексировать больше страниц, то аспект сканирования важнее. Вы захотите упростить для Google поиск всех ваших страниц. Это просто на маленьком веб-сайте с тысячей URL-адресов, но гораздо сложнее на более крупном сайте с миллионами URL-адресов.

Например, в G2 есть множество страниц разных типов. SEO-команда Кевина хочет убедиться, что Google сможет найти все страницы, независимо от глубины сканирования и количества существующих страниц этого типа; это серьезная проблема, к которой нужно подходить с разных сторон.

Изменение скорости сканирования в зависимости от профиля страницы

В зависимости от типа страницы Кевин часто находит разные скорости сканирования Google. Это часто зависит от профиля обратной ссылки URL и внутренних ссылок. Именно здесь он находит наибольшее применение лог-файлов.

Он сегментирует свой сайт по типам страниц, чтобы понять, где сайту не хватает эффективности сканирования, а где эффективность сканирования слишком высока.

Связь между скоростью сканирования, скоростью индексации и рейтингом

Кевин наблюдал абсолютно определенные корреляции между скоростью сканирования, скоростью индексации и рейтингом для каждого типа страниц. Это верно не только для сайтов, с которыми он работал, но и для переписки с другими SEO-специалистами в отрасли.

Не устанавливая причинно-следственной связи между сканированием, индексированием и ранжированием, похоже, что аналогичные элементы, которые стимулируют индексирование, также принимаются во внимание, когда дело доходит до ранжирования страницы. Например, если у вас есть множество обратных ссылок на определенный шаблон страницы для данного типа страницы (например, целевые страницы), в ваших файлах журналов вы обнаружите, что если у Google более высокая скорость сканирования этих страниц в вашем сайт, Google также индексирует эти страницы быстрее и обычно ранжирует эти страницы выше, чем другие страницы.

Трудно делать универсальные утверждения, применимые ко всем сайтам, но Кевин призывает всех проверять свои файлы журналов, чтобы убедиться, что это верно и для их собственного сайта. OnCrawl также обнаружил, что это имеет место на многих сайтах, которые они проанализировали.

Это часть того, что он пытался обрисовать в модели внутренних ссылок TIPR, которую он придумал.

Измерение скорости сканирования

Чтобы измерить скорость сканирования, вам нужно ответить на вопрос: как часто данный робот Googlebot посещает определенный URL-адрес?

Как вы «нарезаете и режете» это другой вопрос. Кевин любит смотреть на количество обращений робота Google за неделю. Вы также можете просматривать его ежедневно или ежемесячно.

- Сосредоточение внимания на до/после

Более важным, чем период, который вы используете, является просмотр изменений скорости сканирования. Вы должны смотреть на ставку до внесения изменений и после их реализации.

– Сосредоточение внимания на различиях между типами страниц

Еще одним ключом к измерению скорости сканирования является поиск пробелов на вашем сайте. На уровне типа страницы, где разница между скоростями сканирования? Какой тип страниц сканируется в тонне? Какие типы страниц почти не сканируются?

– Общие наблюдения за поведением при сканировании

Вот некоторые интересные наблюдения, сделанные Кевином в прошлом:

  • Наиболее просматриваемый URL: robots.txt.
  • Больше всего времени тратится на URL-адрес/группу URL-адресов: XML-карты сайта, особенно когда они становятся немного больше.

Копаться в файлах журналов, чтобы найти различия в поведении сканирования между типами страниц, очень интересно. Посмотрите, какие URL-адреса сканируются ежедневно, а какие URL-адреса сканируются ежемесячно. Это может многое рассказать вам о том, насколько эффективна структура вашего сайта для сканирования (и индексации, даже если между ними есть промежуточный шаг).

Распределение краулингового бюджета в зависимости от бизнес-модели

Чтобы повысить эффективность сканирования, стратегия обычно заключается в том, чтобы уменьшить внимание, которое Google уделяет некоторым типам страниц, и перенаправить его на страницы, которые более важны, чем веб-сайт.

То, как вы хотите справиться с этим, будет зависеть от того, как конверсии обрабатываются на сайте. Кевин различает две основные модели сайта: централизованную и децентрализованную бизнес-модели:

  • Децентрализованные модели могут конвертировать пользователей на любой странице. Хороший пример — Trello: зарегистрироваться можно на любой странице. Все их типы страниц относительно похожи. Поскольку ни одна страница не является более ценной для регистрации, чем другая, целью может быть равномерная скорость сканирования по всему сайту: вы хотите, чтобы все типы страниц сканировались примерно с одинаковой скоростью.
  • Централизованные модели могут быть чем-то вроде Jira. В Jira нет ни одного типа страницы, который мы могли бы воспроизвести миллион раз: есть всего несколько целевых страниц, на которых люди могут зарегистрироваться. Вы хотите убедиться, что ваш краулинговый бюджет на подобном сайте сконцентрирован вокруг ваших точек конверсии (ваших целевых страниц).

То, как вы хотите распределить свой краулинговый бюджет, зависит от того, как ваш сайт зарабатывает деньги и какие типы страниц играют в этом наиболее важную роль.

Устранение потерь при сканировании

Чтобы роботы Googlebot не тратили краулинговый бюджет на страницы, которые менее важны для конверсий, существует несколько способов.

Лучший способ пропустить сканирование — robots.txt:

  • В 99,99999% случаев Google соблюдает директивы robots.txt.
  • Robots.txt может помочь заблокировать сканирование больших разделов вашего сайта с недостаточным или дублирующимся контентом (классические примеры: профили пользователей на форуме, URL-адреса параметров…)

Есть законные случаи, когда вы можете захотеть, чтобы страница не индексировалась, но все же помогала при сканировании. Кевин считает, что некоторые узловые страницы попадают в эту категорию. Здесь он использовал бы мета-noindex.

Он признает, что Джон Мюллер сказал, что мета-теги noindex в конечном итоге рассматриваются как nofollow, но Кевин до сих пор никогда не видел, чтобы это происходило на местах. Он признает, что это может быть связано с тем, что для этого требуется очень много времени (более года или дольше). Вместо этого он считает роботов Google «жадными» и ищет и переходит по как можно большему количеству ссылок.

Кевин советует использовать robots.txt и использовать его в полной мере. Вы можете использовать подстановочные знаки и некоторые очень сложные методы, чтобы защитить определенные вещи от сканирования.

Эмпирическое правило, которому следует следовать, заключается в том, что чем тоньше контент, тем больше вероятность того, что он станет кандидатом на исключение из сканирования.

Страницы, исключенные из сканирования через robots.txt, по-прежнему могут быть проиндексированы Google, если на них есть внутренние или обратные ссылки, указывающие на них. Если это произойдет, в тексте описания в результатах поиска будет указано, что Google не удалось просканировать страницу из-за ограничения в файле robots.txt. Однако, как правило, эти страницы не имеют высокого рейтинга, если только они недавно не были исключены из файла robots.txt.

Проблемы с индексацией из-за похожих страниц

– Канонические ошибки

С программной точки зрения канонические объявления очень легко ошибиться. Кевин несколько раз видел случай, когда в каноническом языке была точка с запятой (;) вместо двоеточия (:), и тогда вы сталкиваетесь с массой проблем.

В некоторых случаях канонические файлы очень чувствительны и могут привести к тому, что Google не будет доверять всем вашим каноническим файлам, что может стать огромной проблемой.

Однако одна из наиболее распространенных проблем с каноническими символами — это забытые канонические символы.

- Миграции сайта

Миграция сайтов часто является источником проблем с каноническими файлами; Кевин видел проблемы, когда сайт просто забывал добавить новый домен в канонические.

Об этом очень легко забыть, особенно когда вашему CSM требуется ручная (а не программная) настройка для внесения изменений во время миграции.

По умолчанию канонический URL-адрес страницы должен указывать на саму себя, если нет особой причины указывать на другой URL-адрес.

- HTTP в HTTPS

Это еще одна распространенная каноническая ошибка, которая препятствует индексации правильного URL. Неправильный протокол иногда используется в каноническом.

– Поиск источника ошибки, когда Google игнорирует заявленный канонический

Google иногда выбирает свой собственный канонический. Когда они не доверяют вашему объявленному каноническому, обычно есть первопричина.

Кевин предлагает избегать ситуаций, когда вы отправляете в Google два противоречивых сигнала:

  • Изучите свои XML-карты сайта
  • Просканируйте свой собственный сайт и найдите неисправные канонические файлы.
  • Просмотрите настройки параметров в Search Console, чтобы найти конфликтующие настройки.
  • Не используйте noindex и canonicals одновременно

Типы страниц, которые способствуют раздуванию индекса

В SEO десять лет назад вы хотели отправить в индекс как можно больше страниц: чем больше страниц проиндексировано, тем лучше.

Сегодня это уже не так. Вам нужны только самые качественные вещи в вашем магазине. Вы не хотите, чтобы какой-либо некачественный контент был в индексе.

«Раздувание индекса» обычно используется для описания типа страницы, которая не представляет никакой ценности. Это часто возвращается к любому виду тонкого контента, особенно к случаям, когда вы умножаете или увеличиваете количество существующих страниц, не обеспечивая существенной ценности на каждой новой странице.

Классические случаи, когда вам может понадобиться посмотреть, сколько страниц определенного типа проиндексировано и предоставляют ли они дополнительную ценность, включают:

  • Параметры
  • Пагинация
  • Форумы
  • Страницы каталога или дорвеи
  • Обширные локальные (городские) страницы, не делающие различий между услугами или контентом.
  • Многогранная навигация

Как индексация влияет на сайт в целом

Вы не хотите, чтобы сегодня страницы индексировались некачественно, потому что они влияют на то, как Google видит и оценивает ваш сайт в целом.

Большая часть этого уходит на краулинговый бюджет. Хотя Гэри Иллиес и Джон Мюллер часто говорят, что большинству сайтов не нужно беспокоиться о краулинговом бюджете, аудитория для того типа обсуждения, который мы проводим сегодня, — это более крупные сайты, где это имеет большое значение.

Вы хотите убедиться, что Google находит только высококачественный контент.

Как и взаимосвязь, которую Кевин наблюдает между скоростью сканирования, индексированием и ранжированием, он также отмечает, что внимание к качеству проиндексированных страниц, похоже, окупается для всего сайта. Хотя сложно делать универсальные заявления, похоже, что у Google есть своего рода метрика качества сайта, которая зависит от проиндексированных страниц этого сайта. Другими словами, если у вас есть много некачественного контента, который индексируется, это может повредить вашему сайту.

Вот где раздувание индекса вредно: это способ разбавить или понизить общую «оценку» качества сайта и растратить ваш краулинговый бюджет.

XML-карты сайта для быстрой индексации

По мнению Кевина, по мере того, как Google становился умнее, количество «взломов» со временем сокращалось.

Однако, говоря об индексации, он обнаружил, что одним из способов быстро проиндексировать что-либо является использование XML-карты сайта.

Недавно G2 мигрировал на новый домен. У них один тип страниц, который долго пересканируется, поэтому в индексе Google вы все равно видели старый домен в сниппетах для страниц этого типа. Когда Кевин увидел, что редиректы 301 не учитываются, потому что они еще не просканированы, он поместил все страницы этого типа в карту сайта XML и предоставил карту сайта Google в консоли поиска.

Эту стратегию также можно использовать, если на сайте произошли серьезные технические изменения, которые Кевин хочет, чтобы Google понял как можно быстрее.

Растущее значение технического SEO

Техническое SEO приобрело известность за последние три года. Часто технические SEO-вопросы подчеркивают области, которые действительно недооцениваются.

Часто вы слышите, что контент и обратные ссылки — это единственное, о чем вам нужно позаботиться. Хотя Кевин считает, что это очень важные области SEO, он считает, что они могут оказать еще большее влияние, если вы правильно проведете техническое SEO.

[Электронная книга] Сканируемость

Убедитесь, что ваши веб-сайты соответствуют требованиям поисковых систем для сканирования, чтобы повысить эффективность SEO.
Читать электронную книгу

вопросы и ответы

– Bing и индексация 10 000 URL-адресов в день

Bing предлагает веб-мастерам возможность напрямую отправлять до 10 000 URL-адресов в день через свои инструменты для веб-мастеров для более быстрого индексирования.

Кевин считает, что это направление, в котором может двигаться и Google. Даже Google, как одна из самых ценных компаний в мире, должна охранять свои ресурсы. Это одна из причин, почему, если вы тратите их ресурсы сканирования, они соответствующим образом приспосабливаются.

Полезны ли такие функции для веб-мастеров, также зависит от размера вашего сайта. Количество сайтов, которые выиграют от возможности отправлять такое количество URL-адресов в день, ограничено — возможно, исчисляется тысячами или десятками тысяч. Кевин предполагает, что для этих сайтов Google уже выделяет значительные ресурсы. Кажется, что для крупнейших сайтов в Интернете Google делает достойную работу по их индексации, за обычными исключениями, конечно.

Bing, вероятно, гораздо проще внедрить что-то такого масштаба: во-первых, их доля на рынке намного меньше, поэтому спрос на эту функцию меньше. Размер их индекса также, вероятно, намного меньше, поэтому они, вероятно, получат больше пользы.

– Когда Google игнорирует robots.txt

Google очень редко игнорирует robots.txt.

Иногда нас заставляет предположить, что Google игнорирует robots.txt, потому что, как мы говорили ранее, Google иногда может индексировать страницы, заблокированные robots.txt, которые все еще можно найти несколькими другими способами.

Вы также можете заставить Google игнорировать директивы в файле robots.txt, если ваш синтаксис в файле robots.txt неверен:

  • Ошибочные символы
  • Использование тегов, которые не работают или не должны работать, например директивы noindex.

[Примечание: Кевин цитирует тематическое исследование, которое показало, что Google соблюдает директивы noindex, представленные в файле robots.txt. Однако вскоре после того, как этот веб-семинар вышел в эфир, Google объявил о прекращении молчаливой поддержки этой директивы в файлах robots.txt с 1 сентября 2019 года.]

Тем не менее, Google является одной из компаний, которые держат своих ботов на высоком уровне и не игнорируют robots.txt.

Верхний совет

«PageRank является основным фактором, определяющим скорость и объем индексации».

SEO на Орбите ушло в космос

Если вы пропустили наш полет в космос 27 июня, поймайте его здесь и узнайте все советы, которые мы отправили в космос.