Как оптимизировать краулинговый бюджет

Опубликовано: 2017-07-05

В мае мы провели вебинар на французском языке о краулинговом бюджете Google. На своем втором вебинаре с OnCrawl Эрле Альбертон, бывший руководитель отдела SEO в Orange & Sosh (французский интернет-провайдер), а ныне менеджер по работе с клиентами OnCrawl, представляет концепцию краулингового бюджета, рекомендации по его оптимизации, чего следует избегать и т. д. Практика примеры иллюстрируют эту концепцию, недавно подтвержденную командой Google.

Что Google говорит о краулинговом бюджете

В середине января Google разместил в своем блоге статью, в которой говорилось: «У нас нет единого термина, который бы описывал все, что внешне означает «краулинговый бюджет». Другими словами, то, что мы, SEO-специалисты, считаем краулинговым бюджетом.

Веб-гигант также указывает, что если ваши новые страницы обычно сканируются в день их публикации, то вам не нужно беспокоиться о краулинговом бюджете. В нем также говорится, что если на сайте меньше нескольких тысяч URL-адресов, он будет сканироваться правильно, поскольку краулинговый бюджет обычно зарезервирован для сайтов с большим объемом… Это и правильно, и неправильно, потому что все сайты в Google Search Console имеют краулинговый бюджет. Мы можем легко увидеть это в метриках Google.

В этой статье мы также узнаем, что Google пытается достичь «предела скорости сканирования», который ограничивает максимальную скорость выборки для данного сайта. Мы можем видеть, что, например, когда время загрузки слишком велико, Google сокращает свой бюджет почти в 2 раза. При этом существуют факторы, которые могут повлиять на бюджет сканирования, такие как плохая архитектура (система, коды состояния, внутренняя структура). ), плохой и/или дублирующийся контент, ловушки для пауков и т. д.

Как работает краулинговый бюджет Google?

Сканирование Google представляет собой набор простых шагов, которые выполняются рекурсивно для каждого сайта. Вот график из Google, где мы видим, что сканирование начинается с обращения к текстовому роботу, а затем разделяется на набор URL-адресов, которые составляются в виде списка. Послесловие Google пытается получить их, сравнивая с URL-адресами, которые он уже знает, в дополнение к тем, которые у него уже есть в резервной копии.

Его цель - исчерпывающе и точно заполнить свой индекс. Мы видим, что даже если сайт на JavaScript, Google будет отправлять сканеры третьего уровня. Вы все равно должны быть осторожны с сайтами JavaScript, так как они потребляют много ресурсов ботов и отправляются в среднем только раз в квартал. Нам нужно переосмыслить наш метод, чтобы Google имел доступ к страницам за пределами навигации JavaScript.

Затем Google проверит статус обновления страницы (сравнение с контентом, проиндексированным ранее), чтобы оценить, является ли страница важной или менее важной. Действительно, Google необходимо оптимизировать свои ресурсы сканирования, потому что он не может сканировать каждую страницу всех веб-сайтов. Это называется важностью страницы… это очень важный показатель, который мы подробно рассмотрим ниже!

Факт: если Google оптимизирует, то только потому, что на это есть причина.

Бюджет сканирования зависит от:

  • способность сайта быстро отвечать;
  • Вменяемость сайта — 4xx, 5xx, 3xx (когда на сайте появляются ошибки 404 или 500, это влияет на краулинговый бюджет, поскольку он всегда будет дважды проверять, были ли внесены исправления);
  • Качество контента – семантика и полнота;
  • Разнообразие анкоров (страница считается важной, когда на нее поступает много ссылок. С InRank OnCrawl вы можете проанализировать все это целиком);
  • Популярность страницы – внешняя и внутренняя;
  • Факторы оптимизации — упростите сканирование (уменьшите размер изображения, вместимость css, js, gif, шрифтов и т. д.)

[Пример успеха] Увеличьте краулинговый бюджет на стратегически важных страницах

Большая часть трафика Manageo поступает из органического поиска. Этот трафик в основном зависит от поиска с длинным хвостом, что создает необходимость одновременной оптимизации для миллионов ключевых слов. Бюджет сканирования быстро стал проблемой.
Читать тематическое исследование

Ключевые компоненты Google Page Importance

Определение важности страницы отличается от PageRank:

  • Расположение страницы на сайте – глубина по скорости сканирования;
  • Page Rank: TF/CF страницы – Majestic;
  • Внутренний рейтинг страницы — InRank OnCrawl;
  • Тип документа: PDF, HTML, TXT (PDF обычно является окончательным качественным документом, поэтому его много сканируют);
  • Включение в sitemap.xml;
  • Количество внутренних ссылок:
  • Качество/важность анкора;
  • Качественный контент: количество слов, мало дубликатов (Google будет наказывать похожий контент, если страницы слишком близки по содержанию);
  • Важность «домашней» страницы.

Как спланировать сканирование важных URL-адресов

Планирование URL-адресов: какие страницы Google хочет посещать и как часто?

В приведенном выше примере (наблюдение за частотой сканирования одного и того же сайта) Google не сканирует с одинаковой частотой разные группы. Мы видим, что когда Google сканирует часть сайта, влияние ранжирования становится заметным быстро.

Дополнительная информация о краулинговом бюджете Google

  • 100% веб-сайтов Google Search Console имеют данные сканирования;
  • Мы можем следить за его поведением при сканировании благодаря анализу журнала, который помогает быстро обнаружить отклонения в поведении бота;
  • Плохая внутренняя структура (пагинация, страницы-сироты, ловушки для пауков) может помешать Google сканировать нужные страницы;
  • Бюджет сканирования напрямую связан с ранжированием.

Скорость страницы в первую очередь

Наиболее важным фактором является время загрузки страницы, поскольку оно играет решающую роль в краулинговом бюджете. Действительно, сегодня мы живем в мобильном мире. Таким образом, ваш лучший актив — это время загрузки страницы, позволяющее оптимизировать краулинговый бюджет и SEO. С мобильной революцией время загрузки является важным фактором в оценке качества сайта. Его способность быстро реагировать — особенно для мобильных устройств и индексации мобильных устройств в первую очередь.

Чтобы оптимизировать его, мы можем использовать решения CDN (сеть доставки контента), такие как Cloudflare. Эти решения позволяют роботам Google максимально приближаться к ресурсам и максимально быстро загружать страницы.

Google постоянно проверяет способность сайта быстро реагировать. Архитектура и качество кодирования сильно влияют на нотацию Google.

Время загрузки

Это первый фактор распределения краулингового бюджета!

Что касается сервера , вам необходимо:

  • Избегайте перенаправлений;
  • Разрешить сжатие;
  • Улучшить время отклика.

Выше пример с сайтом Manageo , у которого был линейный краулинговый бюджет и где мы можем видеть линейное увеличение. В мае наблюдается снижение количества просматриваемых страниц в день и, как следствие, изменение скорости сайта. Google видит, что сайт отвечает медленнее, поэтому вдвое сокращает краулинговый бюджет. Чтобы все это исправить, приходится оптимизировать свои коды на стороне сервера, уменьшать редиректы, использовать сжатие и так далее.

Спереди вам необходимо:

  • Использовать кеширование браузера
  • Уменьшите размер ресурсов (оптимизация изображения, используйте CDN/отложенную загрузку/удалите JS, которые блокируют отображение;
  • Используйте асинхронные сценарии.

Падение качества = отсутствие любви = отсутствие бюджета

Необходимо проверить коды состояния, отправляемые обратно роботам Google, чтобы убедиться, что ИС чиста. Это единственный способ для Google проверить качество вашего кода и чистоту архитектуры.

Отслеживание их эволюции с течением времени гарантирует, что обновления кода будут оптимизированы для SEO. Google много тратит на ресурсы (css, img, js), поэтому убедитесь, что они безупречны.

Уникальный и богатый контент

Чем важнее страница, тем богаче ее текст. Как показано выше, количество страниц, просканированных и не просканированных Google, связано с количеством слов на странице. Поэтому ваши страницы должны улучшаться и обновляться как можно чаще.

Остерегайтесь канонических ссылок и дублированного контента

Google потратит в два раза больше бюджета, если две похожие страницы не указывают на один и тот же канонический URL. Таким образом, каноническое управление может стать критически важным для сайтов с фасетами или внешними ссылками с queryString.

Управление контентом в почти дублирующемся и каноническом виде становится важным аспектом оптимизации краулингового бюджета.

Внутренняя структура и распределение InRank

Страницы, генерирующие SEO-посещения, считаются активными. Это те, которые находятся на вершине архитектуры сайта. С другой стороны, здесь мы видим, что на странице 15 появляется группа страниц. Возможно, ваши пользователи ищут эти страницы гораздо чаще, чем вы думали, и вам потребуется обновить архитектуру, чтобы улучшить их рейтинг.

Как известно, чем глубже страницы, тем меньше их будет посещать Google!

Хорошо ли расположены мои денежные страницы?

Совет: если вы хотите оптимизировать глубину определенных групп страниц, не стесняйтесь создавать html-планы сайта, имея в виду страницы, которые имеют решающее значение для управления глубиной.

Google сравнит страницы вашей структуры с просканированными и активными. Тем не менее, было бы в ваших интересах решить проблему потерянных страниц, на которые Google излишне тратит бюджет, и исправить архитектуру сайта, чтобы возвращать ссылки на активные, но неструктурированные страницы.

Иногда страницы больше не получают ссылок, их называют страницами-сиротами. С другой стороны, Google о них не забыл. Он продолжит посещать их. Они больше не получают ссылок, поэтому теряют важность, но на правом графике некоторые страницы-сироты продолжают получать SEO-посещения. Что вам нужно знать, так это то, как их быстро идентифицировать и исправить проблемы связывания, которые есть в архитектуре. Это отличный способ оптимизировать краулинговый бюджет.

Ошибки, которых следует избегать

  • Robots.txt в 404;
  • Sitemap.xml и sitemap.html устарели;
  • 50x/40x/программные ошибки 404;
  • наличие цепочек перенаправлений;
  • канонические ошибки;
  • Дублированный контент (нижний колонтитул) / почти дублированный / HTTP против HTTPS;
  • Слишком долгое время отклика;
  • Слишком важна тяжесть страницы;
  • AMP/ошибки. Этот протокол широко используется Google, особенно для сайтов электронной коммерции (не только медиа-сайтов);
  • Плохая внутренняя ссылка + Rel=nofollow;
  • Использование JS без какой-либо другой альтернативы.

Выводы

Чтобы оптимизировать краулинговый бюджет, вам необходимо:

  • Знайте свои финансовые страницы и знайте реакцию Google;
  • Улучшить время загрузки;
  • Оптимизируйте внутреннюю перелинковку: поместите все страницы с деньгами вверху структуры;
  • Исправьте потерянные страницы;
  • Добавьте текст на свои страницы денег;
  • Обновите на полную катушку свои денежные страницы – свежесть;
  • Уменьшите плохой контент и дубликаты;
  • Оптимизируйте свои каноники, изображения, вес ресурсов;
  • Избегайте цепных перенаправлений;
  • Отслеживайте свои журналы и реагируйте на отклонения (ознакомьтесь с этим примером использования от Manageo во время SEOcamp Lyon по этой теме).

Чтобы оптимизировать краулинговый бюджет, вам нужно точно отслеживать поисковый робот Google.

Некоторые моменты пути Google на вашем сайте важнее других, поэтому вам нужно знать, как их оптимизировать.

Чтобы оптимизировать краулинговый бюджет, необходимо правильно управлять миграцией HTTPS (HTTP2).

Вы должны быть в состоянии следить и контролировать его. Попросите своих ИТ-специалистов перейти на HTTP2 с помощью HTTPS.
OnCrawl помогает вам ежедневно отслеживать краулинговый бюджет Google и быстро находить исправления и структурные изменения для повышения эффективности SEO.

Начните бесплатную 14-дневную пробную версию

Узнайте сами, почему Oncrawl является самой признанной платформой для SEO с технической точки зрения и данных на рынке! Кредитная карта не требуется и никаких условий: всего 14 дней полнофункциональной пробной версии.
Начать пробную версию