Отчет Google Crawl Stats и анализ файла журнала: кто победит?

Опубликовано: 2020-12-22

24 ноября Google выпустил новую версию своего отчета о статистике сканирования в Search Console. Это обновление предоставляет вам данные, которые вы можете использовать для устранения проблем со сканированием и проверки работоспособности вашего сайта.

В предыдущей версии указывается только количество просканированных страниц в день, загруженных килобайт в день, время, потраченное на загрузку страниц в день.

В этой новой версии та же информация доступна с обновленным внешним видом, чтобы соответствовать остальной части Search Console:

Но это не останавливаться на достигнутом. Google предоставляет гораздо больше информации о том, как они сканируют ваш сайт. И с таким количеством информации, доступной непосредственно из Google, возникает вопрос: нужны ли нам еще файлы журналов?

Давайте начнем с рассмотрения самого нового отчета.

Все, что вам нужно знать об отчете статистики сканирования Google Search Console

Где можно найти новый отчет о статистике сканирования?

Новый отчет о статистике сканирования автоматически доступен всем, у кого есть учетная запись Google Search Console.

Войдите в Search Console и перейдите в «Настройки» на левой боковой панели. Затем нажмите «Статистика сканирования».

Что нового в отчете о статистике сканирования?

Чтобы помочь вам сориентироваться в обширной новой информации, мы рекомендуем пошаговое руководство Томека Рудзки в Твиттере:

Томек выделяет новые данные и варианты использования SEO для каждого из них:

  • Хосты с наибольшим количеством обращений роботом Googlebot: найдите поддомены, которые Google чаще всего сканирует.
  • Коды состояния, возвращенные роботу Googlebot: узнайте, какой процент вашего краулингового бюджета используется ответами, отличными от 200 (то есть: перенаправлениями, отсутствующими страницами и ошибками).
  • Тип файла: узнайте, как часто робот Googlebot запрашивает файлы ресурсов, такие как файлы CSS, файлы JavaScript и изображения.
  • Цель визита робота Googlebot: узнать, открывает ли Google новый контент или обновляет контент, о котором он уже знает.
  • Разделение запросов, сделанных роботом Googlebot для смартфонов и роботом Googlebot для настольных компьютеров: подтвердите, готов ли ваш сайт к полному переходу на Mobile-First Indexing в марте 2021 года.
  • Образец просканированных URL-адресов: получите представление о некоторых недавно просканированных URL-адресах на вашем сайте.
  • Состояние хоста: новая метрика, показывающая, были ли в последнее время проблемы с вашим сервером. Например, при этом учитывается доступность файла robots.txt и разрешение DNS.

Три самые важные вещи, которые нам больше всего нравятся в отчете о статистике сканирования

Отчет о статистике сканирования предлагает слишком много преимуществ, чтобы перечислить их все, особенно если у вас нет доступа к файлам журналов. Но вот наша тройка лидеров:

1. Этот отчет предназначен для всех.
Он предоставляет удобную для чтения высокоуровневую статистику сканирования Googlebot. Понятно, когда дела идут хорошо, а когда есть проблемы, которые, возможно, необходимо решить. В некоторых случаях он идет еще дальше: например, он предоставляет подсказки, такие как зеленый/желтый/красный индикаторы состояния для состояния хоста.

Даже если вы новичок в отслеживании ботов и краулингового бюджета, вы не должны теряться при просмотре этих отчетов.

2. Документация отличная.
Документация не только отвечает на 99 % ваших вопросов, но также дает рекомендации и советы по работоспособности серверов, красным флажкам, управлению частотой сканирования и основам борьбы с ботами Google.

3. Данные о причинах запросов Googlebot
Мы можем отслеживать Googlebot, но многие выводы о том, почему Google посещает страницу, приходится делать на основе ограниченных данных. Раздел «Сканирование по назначению» и запросы на отрисовку, отображаемые в разделе «Загрузка ресурсов страницы», дают недвусмысленный ответ на некоторые из наших вопросов. Теперь мы точно знаем, обнаруживает ли Google страницу, обновляет ли ее или загружает ресурс в отдельном втором проходе для отображения страницы.

[Пример успеха] Управление сканированием ботов Google

Имея более 26 000 ссылок на продукты, 1001Pneus нуждался в надежном инструменте для мониторинга их эффективности SEO и уверенности в том, что Google выделяет свой краулинговый бюджет на правильные категории и страницы. Узнайте, как успешно управлять краулинговым бюджетом для веб-сайтов электронной коммерции с помощью OnCrawl.
Читать тематическое исследование

В чем разница между информацией, доступной в файлах журналов, и отчетом о статистике сканирования?

Статистика сканирования доступна только роботам Googlebot.

Статистика сканирования: 0
Журналы: 1

Файлы журналов вашего сервера записывают каждый запрос к любым файлам и ресурсам, составляющим ваш веб-сайт, независимо от того, от кого они исходят. Это означает, что журналы могут рассказать вам не только о Googlebot.

Однако отчет Google о статистике сканирования (естественно!) ограничивается собственной активностью Google на вашем сайте.

Вот некоторые сведения, которые можно получить из файлов журналов, которые не отображаются в статистике сканирования:

  • Информация о других поисковых системах, таких как Bing. Вы можете увидеть, как они сканируют ваш сайт, а также посмотреть, как их поведение отличается от поведения Googlebot или совпадает с ним:

  • Информация о том, какие инструменты (и конкуренты) пытаются просканировать ваш сайт. Поскольку доступная информация не ограничивается роботом Googlebot, вы также можете увидеть, активны ли другие боты на вашем сайте.
  • Информация о ссылающихся страницах. Это может помочь вам найти больше информации о ваших самых активных обратных ссылках. В HTTPS последняя посещенная страница или «страница перехода» также записывается с каждым запросом.
  • Информация об органическом трафике… и не только о трафике от Google! С помощью ссылающихся страниц вы можете определить трафик со страниц результатов поисковых систем и лучше понять, как эти посетители взаимодействуют с вашим сайтом. Такую информацию можно использовать для подтверждения или исправления чисел, предоставляемых вашим решением Analytics, если вы его используете.
  • Выявление потерянных страниц. Поскольку ваши журналы содержат все URL-адреса, запрошенные посетителями, любые «активные» страницы с трафиком ботов или людей, которые не связаны со структурой вашего сайта, будут отображаться в ваших журналах. Сравнивая список URL-адресов в ваших файлах журналов со списком URL-адресов в структуре вашего сайта, полученным при сканировании, будет легко обнаружить страницы-сироты.

Полная и актуальная?

Статистика сканирования: 0
Журналы: 2

Являются ли ваши данные полными и актуальными? Ваши логи есть. И ваша статистика сканирования может быть такой.

Многие люди быстро заметили разницу в 20-40% между отчетом Google Search Console и их файлами журналов: отчет Crawl Stats занижает активность Googlebot на данный момент. Это известная проблема в статистике сканирования, но не в ваших журналах!

Кроме того, как и для всей информации в Search Console, может быть задержка между последней доступной датой данных и сегодняшней датой. До сих пор мы видели разницу до восьми дней в отчете Crawl Stats.

С другой стороны, вы можете использовать свои лог-файлы для мониторинга в режиме реального времени: никаких задержек!

Агрегированные и полные списки просканированных URL-адресов

Статистика сканирования: 0
Журналы: 3

Статистика сканирования предоставляет сводные данные по всем вашим URL-адресам. Отчет эквивалентен информационной панели. Когда вы будете искать список URL-адресов, стоящих за данной метрикой, вы увидите список «примеров». Например, у вас может быть несколько сотен примеров ваших запросов размером 4,56 КБ для файлов изображений:

Однако в файлах журналов у вас есть полный список URL-адресов, стоящих за любой метрикой. Вы можете видеть ВСЕ запросы в своих логах, а не только образец.

Фильтрация по регионам, датам, URL-адресам…

Статистика сканирования: 0
Журналы: 4

Чтобы быть действительно полезным, статистика сканирования может выиграть от более широких фильтров, которые применяются ко всем запросам, а не только к образцам:

Было бы здорово иметь больше гибкости для:

  • Изменить диапазон дат, который мы рассматриваем
  • Сосредоточьтесь на заданном географическом регионе с помощью поиска по IP-адресу
  • Улучшенный фильтр по группам URL
  • Применение параметров фильтра к графикам

Все это и многое другое можно сделать в лог-файлах.

Информация о роботе Googlebot

Статистика сканирования: 1
Журналы: 4

Как мы видели, Google использует отчет о статистике сканирования, чтобы предоставить информацию о цели сканирования:

    • Обновление против обнаружения

  • Ресурсы страницы (вторичная выборка)

Эту информацию невозможно найти где-либо еще, как бы внимательно вы ни смотрели на данные в своих лог-файлах.

Легкий доступ

Статистика обхода: 2
Журналы: 4

Доступ к отчету о статистике сканирования прост: статистика сканирования автоматически доступна всем, у кого есть доступ к Search Console.

Технически файлы журналов также должны быть доступны любому веб-мастеру. Но это часто не так. Часто команды разработчиков, ИТ-отделы или компании-клиенты не понимают важности предоставления доступа к файлам журналов. В таких регионах, как ЕС, где законы о конфиденциальности ограничивают доступ к «личным данным», таким как IP-адреса, доступ к файлам журналов может представлять собой юридическую проблему. Вы можете использовать определенные инструменты, такие как OnCrawl, которые не хранят конфиденциальную информацию.

Если у вас есть доступ к файлам журналов, есть бесплатные инструменты для анализа данных и несколько проприетарных форматов. Другими словами, файлы журналов — довольно демократичный источник данных… как только вы их получите.

Это факт: у многих оптимизаторов проблемы с доступом к логам. Таким образом, хотя теоретически файлы журналов обеспечивают легкий доступ к данным, в данном случае речь идет об отчете о статистике сканирования, который доступен в два клика из бесплатного инструмента Google.

Анализатор журнала сканирования

Анализ файла журнала для мониторинга ботов и оптимизации краулингового бюджета. Выявляйте проблемы со здоровьем сайта и повышайте частоту сканирования.
Учить больше

Недоступно (пока) для интеграции в другие инструменты и анализы

Статистика обхода: 2
Журналы: 5

Google Search Console позволяет экспортировать и загружать информацию, доступную через веб-интерфейс отчета Crawl Stats Report. Однако это означает, что загруженная информация имеет те же ограничения, что и экранные версии.

Кроме того, статистика сканирования (пока?) недоступна через API, поэтому может быть сложно подключить эту информацию к автоматизированным процессам для составления отчетов и анализа или даже создать ее резервную копию для более широкого просмотра исторических данных.

С файлами журналов хранение, доступ и повторное использование обычно зависят от вас. Это значительно упрощает использование файлов журналов при объединении с другими источниками данных, такими как отслеживание рейтинга, данные сканирования или данные аналитики. Их также легче интегрировать в потоки отчетности, информационных панелей и визуализации данных.

Окончательный победитель: лог-файлы!

С пятью баллами против всего двух баллов за отчет Crawl Stats файлы журналов являются здесь явным победителем, если вы хотите получить полное представление о том, как поисковые системы взаимодействуют с вашим сайтом.

Но давайте проясним: обновленный отчет Crawl Stats предоставляет много новой информации: коды состояния, типы файлов, поддомены (для свойств домена), сведения о состоянии хоста и многое другое. Это дает вам более детальную информацию и полезные данные, чтобы понять, как сканируется ваш веб-сайт, и теперь вы можете отслеживать изменения в шаблонах сканирования.

Это будет огромным шагом вперед для людей, которые не могут получить доступ к файлам журналов своих клиентов или своих клиентов.

Однако это еще не все плюсы!

Недостатком нового отчета является то, что, несмотря на то, что это хорошая информационная панель для мониторинга Googlebot и отличное дополнение к анализу файла журнала, он во многих отношениях ограничен. Не забывайте, что только ваши файлы журналов покажут вам все ваши запросы по URL, а не совокупную тенденцию.

Кроме того, в отчете GSC существует известная проблема, из-за которой некоторые запросы в данный момент не учитываются, а данные могут занять — на момент написания этой статьи — до недели, прежде чем они появятся в отчете «Статистика сканирования». (Однако мы надеемся, что Google работает над этими проблемами, и они скоро исчезнут!)

Вот что мы рекомендуем: используйте этот отчет, чтобы узнать, что именно искать в ваших файлах журналов. А затем погрузитесь в анализ журнала!