Отчет Google Crawl Stats и анализ файла журнала: кто победит?
Опубликовано: 2020-12-2224 ноября Google выпустил новую версию своего отчета о статистике сканирования в Search Console. Это обновление предоставляет вам данные, которые вы можете использовать для устранения проблем со сканированием и проверки работоспособности вашего сайта.
В предыдущей версии указывается только количество просканированных страниц в день, загруженных килобайт в день, время, потраченное на загрузку страниц в день.
В этой новой версии та же информация доступна с обновленным внешним видом, чтобы соответствовать остальной части Search Console:
Но это не останавливаться на достигнутом. Google предоставляет гораздо больше информации о том, как они сканируют ваш сайт. И с таким количеством информации, доступной непосредственно из Google, возникает вопрос: нужны ли нам еще файлы журналов?
Давайте начнем с рассмотрения самого нового отчета.
Все, что вам нужно знать об отчете статистики сканирования Google Search Console
Где можно найти новый отчет о статистике сканирования?
Новый отчет о статистике сканирования автоматически доступен всем, у кого есть учетная запись Google Search Console.
Войдите в Search Console и перейдите в «Настройки» на левой боковой панели. Затем нажмите «Статистика сканирования».
Что нового в отчете о статистике сканирования?
Чтобы помочь вам сориентироваться в обширной новой информации, мы рекомендуем пошаговое руководство Томека Рудзки в Твиттере:
Новая статистика сканирования GSC потрясающая!
Первый снимок экрана похож на предыдущую версию отчета, но в других отчетах есть скрытые жемчужины.
1/н pic.twitter.com/oCNzMhnGsQ— Томек Рудзки (@TomekRudzki) 24 ноября 2020 г.
Томек выделяет новые данные и варианты использования SEO для каждого из них:
- Хосты с наибольшим количеством обращений роботом Googlebot: найдите поддомены, которые Google чаще всего сканирует.
- Коды состояния, возвращенные роботу Googlebot: узнайте, какой процент вашего краулингового бюджета используется ответами, отличными от 200 (то есть: перенаправлениями, отсутствующими страницами и ошибками).
- Тип файла: узнайте, как часто робот Googlebot запрашивает файлы ресурсов, такие как файлы CSS, файлы JavaScript и изображения.
- Цель визита робота Googlebot: узнать, открывает ли Google новый контент или обновляет контент, о котором он уже знает.
- Разделение запросов, сделанных роботом Googlebot для смартфонов и роботом Googlebot для настольных компьютеров: подтвердите, готов ли ваш сайт к полному переходу на Mobile-First Indexing в марте 2021 года.
- Образец просканированных URL-адресов: получите представление о некоторых недавно просканированных URL-адресах на вашем сайте.
- Состояние хоста: новая метрика, показывающая, были ли в последнее время проблемы с вашим сервером. Например, при этом учитывается доступность файла robots.txt и разрешение DNS.
Три самые важные вещи, которые нам больше всего нравятся в отчете о статистике сканирования
Отчет о статистике сканирования предлагает слишком много преимуществ, чтобы перечислить их все, особенно если у вас нет доступа к файлам журналов. Но вот наша тройка лидеров:
1. Этот отчет предназначен для всех.
Он предоставляет удобную для чтения высокоуровневую статистику сканирования Googlebot. Понятно, когда дела идут хорошо, а когда есть проблемы, которые, возможно, необходимо решить. В некоторых случаях он идет еще дальше: например, он предоставляет подсказки, такие как зеленый/желтый/красный индикаторы состояния для состояния хоста.
Даже если вы новичок в отслеживании ботов и краулингового бюджета, вы не должны теряться при просмотре этих отчетов.
2. Документация отличная.
Документация не только отвечает на 99 % ваших вопросов, но также дает рекомендации и советы по работоспособности серверов, красным флажкам, управлению частотой сканирования и основам борьбы с ботами Google.
3. Данные о причинах запросов Googlebot
Мы можем отслеживать Googlebot, но многие выводы о том, почему Google посещает страницу, приходится делать на основе ограниченных данных. Раздел «Сканирование по назначению» и запросы на отрисовку, отображаемые в разделе «Загрузка ресурсов страницы», дают недвусмысленный ответ на некоторые из наших вопросов. Теперь мы точно знаем, обнаруживает ли Google страницу, обновляет ли ее или загружает ресурс в отдельном втором проходе для отображения страницы.
[Пример успеха] Управление сканированием ботов Google
В чем разница между информацией, доступной в файлах журналов, и отчетом о статистике сканирования?
Статистика сканирования доступна только роботам Googlebot.
Статистика сканирования: 0
Журналы: 1
Файлы журналов вашего сервера записывают каждый запрос к любым файлам и ресурсам, составляющим ваш веб-сайт, независимо от того, от кого они исходят. Это означает, что журналы могут рассказать вам не только о Googlebot.
Однако отчет Google о статистике сканирования (естественно!) ограничивается собственной активностью Google на вашем сайте.
Вот некоторые сведения, которые можно получить из файлов журналов, которые не отображаются в статистике сканирования:
- Информация о других поисковых системах, таких как Bing. Вы можете увидеть, как они сканируют ваш сайт, а также посмотреть, как их поведение отличается от поведения Googlebot или совпадает с ним:
Logflare очень полезен. Интересно наблюдать за разным поведением роботов Googlebot при сканировании по сравнению с ботами Bingbot в живых журналах. Googlebot видит 301, а затем следующий возвращенный URL-адрес является перенаправленным на URL-адрес, но Bingbot, похоже, этого не делает. Просто видит 301 и уходит куда-то еще
— Дон Андерсон (@dawnieando) 22 января 2020 г.
- Информация о том, какие инструменты (и конкуренты) пытаются просканировать ваш сайт. Поскольку доступная информация не ограничивается роботом Googlebot, вы также можете увидеть, активны ли другие боты на вашем сайте.
- Информация о ссылающихся страницах. Это может помочь вам найти больше информации о ваших самых активных обратных ссылках. В HTTPS последняя посещенная страница или «страница перехода» также записывается с каждым запросом.
- Информация об органическом трафике… и не только о трафике от Google! С помощью ссылающихся страниц вы можете определить трафик со страниц результатов поисковых систем и лучше понять, как эти посетители взаимодействуют с вашим сайтом. Такую информацию можно использовать для подтверждения или исправления чисел, предоставляемых вашим решением Analytics, если вы его используете.
- Выявление потерянных страниц. Поскольку ваши журналы содержат все URL-адреса, запрошенные посетителями, любые «активные» страницы с трафиком ботов или людей, которые не связаны со структурой вашего сайта, будут отображаться в ваших журналах. Сравнивая список URL-адресов в ваших файлах журналов со списком URL-адресов в структуре вашего сайта, полученным при сканировании, будет легко обнаружить страницы-сироты.
Полная и актуальная?
Статистика сканирования: 0
Журналы: 2
Являются ли ваши данные полными и актуальными? Ваши логи есть. И ваша статистика сканирования может быть такой.
Многие люди быстро заметили разницу в 20-40% между отчетом Google Search Console и их файлами журналов: отчет Crawl Stats занижает активность Googlebot на данный момент. Это известная проблема в статистике сканирования, но не в ваших журналах!
Кроме того, как и для всей информации в Search Console, может быть задержка между последней доступной датой данных и сегодняшней датой. До сих пор мы видели разницу до восьми дней в отчете Crawl Stats.
С другой стороны, вы можете использовать свои лог-файлы для мониторинга в режиме реального времени: никаких задержек!
Агрегированные и полные списки просканированных URL-адресов
Статистика сканирования: 0
Журналы: 3
Статистика сканирования предоставляет сводные данные по всем вашим URL-адресам. Отчет эквивалентен информационной панели. Когда вы будете искать список URL-адресов, стоящих за данной метрикой, вы увидите список «примеров». Например, у вас может быть несколько сотен примеров ваших запросов размером 4,56 КБ для файлов изображений:
Однако в файлах журналов у вас есть полный список URL-адресов, стоящих за любой метрикой. Вы можете видеть ВСЕ запросы в своих логах, а не только образец.
Фильтрация по регионам, датам, URL-адресам…
Статистика сканирования: 0
Журналы: 4
Чтобы быть действительно полезным, статистика сканирования может выиграть от более широких фильтров, которые применяются ко всем запросам, а не только к образцам:
Было бы здорово иметь больше гибкости для:
- Изменить диапазон дат, который мы рассматриваем
- Сосредоточьтесь на заданном географическом регионе с помощью поиска по IP-адресу
- Улучшенный фильтр по группам URL
- Применение параметров фильтра к графикам
Все это и многое другое можно сделать в лог-файлах.
Информация о роботе Googlebot
Статистика сканирования: 1
Журналы: 4
Как мы видели, Google использует отчет о статистике сканирования, чтобы предоставить информацию о цели сканирования:
- Обновление против обнаружения
- Ресурсы страницы (вторичная выборка)
Эту информацию невозможно найти где-либо еще, как бы внимательно вы ни смотрели на данные в своих лог-файлах.
Легкий доступ
Статистика обхода: 2
Журналы: 4
Доступ к отчету о статистике сканирования прост: статистика сканирования автоматически доступна всем, у кого есть доступ к Search Console.
Технически файлы журналов также должны быть доступны любому веб-мастеру. Но это часто не так. Часто команды разработчиков, ИТ-отделы или компании-клиенты не понимают важности предоставления доступа к файлам журналов. В таких регионах, как ЕС, где законы о конфиденциальности ограничивают доступ к «личным данным», таким как IP-адреса, доступ к файлам журналов может представлять собой юридическую проблему. Вы можете использовать определенные инструменты, такие как OnCrawl, которые не хранят конфиденциальную информацию.
Если у вас есть доступ к файлам журналов, есть бесплатные инструменты для анализа данных и несколько проприетарных форматов. Другими словами, файлы журналов — довольно демократичный источник данных… как только вы их получите.
Это факт: у многих оптимизаторов проблемы с доступом к логам. Таким образом, хотя теоретически файлы журналов обеспечивают легкий доступ к данным, в данном случае речь идет об отчете о статистике сканирования, который доступен в два клика из бесплатного инструмента Google.
Анализатор журнала сканирования
Недоступно (пока) для интеграции в другие инструменты и анализы
Статистика обхода: 2
Журналы: 5
Google Search Console позволяет экспортировать и загружать информацию, доступную через веб-интерфейс отчета Crawl Stats Report. Однако это означает, что загруженная информация имеет те же ограничения, что и экранные версии.
Кроме того, статистика сканирования (пока?) недоступна через API, поэтому может быть сложно подключить эту информацию к автоматизированным процессам для составления отчетов и анализа или даже создать ее резервную копию для более широкого просмотра исторических данных.
С файлами журналов хранение, доступ и повторное использование обычно зависят от вас. Это значительно упрощает использование файлов журналов при объединении с другими источниками данных, такими как отслеживание рейтинга, данные сканирования или данные аналитики. Их также легче интегрировать в потоки отчетности, информационных панелей и визуализации данных.
Окончательный победитель: лог-файлы!
С пятью баллами против всего двух баллов за отчет Crawl Stats файлы журналов являются здесь явным победителем, если вы хотите получить полное представление о том, как поисковые системы взаимодействуют с вашим сайтом.
Но давайте проясним: обновленный отчет Crawl Stats предоставляет много новой информации: коды состояния, типы файлов, поддомены (для свойств домена), сведения о состоянии хоста и многое другое. Это дает вам более детальную информацию и полезные данные, чтобы понять, как сканируется ваш веб-сайт, и теперь вы можете отслеживать изменения в шаблонах сканирования.
Это будет огромным шагом вперед для людей, которые не могут получить доступ к файлам журналов своих клиентов или своих клиентов.
Однако это еще не все плюсы!
Плюсы и минусы новой статистики сканирования GSC: https://t.co/bjpG7QjeVt
Плюсы:
+Обновлены показатели данных
+ Лучший UX (низкая планка TBH)
+Загружаемые данные о просканированных URL-адресах!
+Разбивка запросов на сканирование
+Отмечены важные проблемы хостаМинусы:
-Нет фильтров для диапазонов дат
-Нет параметров фильтра для изменения графиков— Мика Фишер-Киршнер (@micahfk) 24 ноября 2020 г.
Недостатком нового отчета является то, что, несмотря на то, что это хорошая информационная панель для мониторинга Googlebot и отличное дополнение к анализу файла журнала, он во многих отношениях ограничен. Не забывайте, что только ваши файлы журналов покажут вам все ваши запросы по URL, а не совокупную тенденцию.
Кроме того, в отчете GSC существует известная проблема, из-за которой некоторые запросы в данный момент не учитываются, а данные могут занять — на момент написания этой статьи — до недели, прежде чем они появятся в отчете «Статистика сканирования». (Однако мы надеемся, что Google работает над этими проблемами, и они скоро исчезнут!)
Вот что мы рекомендуем: используйте этот отчет, чтобы узнать, что именно искать в ваших файлах журналов. А затем погрузитесь в анализ журнала!