Google 크롤링 통계 보고서 대 로그 파일 분석: 승자는 무엇입니까?
게시 됨: 2020-12-2211월 24일 Google은 새 버전의 Search Console 크롤링 통계 보고서를 발표했습니다. 이 업데이트는 크롤링 문제를 디버그하고 사이트 상태를 확인하는 데 사용할 수 있는 데이터를 제공합니다.
이전 버전은 하루에 크롤링된 페이지 수, 하루에 다운로드한 킬로바이트, 하루에 페이지를 다운로드하는 데 소요된 시간만 나타냅니다.
이 새 버전에서는 나머지 Search Console과 일치하도록 업데이트된 모양과 느낌으로 동일한 정보를 사용할 수 있습니다.
하지만 여기서 그치지 않습니다. Google은 사이트를 크롤링하는 방법에 대해 훨씬 더 많은 정보를 제공합니다. 그리고 Google에서 직접 얻을 수 있는 정보가 너무 많기 때문에 여전히 로그 파일이 필요합니까?
새 보고서 자체부터 살펴보겠습니다.
Google Search Console 크롤링 통계 보고서에 대해 알아야 할 모든 것
새로운 크롤링 통계 보고서는 어디에서 찾을 수 있습니까?
새로운 크롤링 통계 보고서는 Google Search Console 계정이 있는 모든 사용자에게 자동으로 제공됩니다.
Search Console에 로그인하고 왼쪽 사이드바에서 "설정"으로 이동합니다. 그런 다음 "크롤링 통계"를 클릭하십시오.
새로운 크롤링 통계 보고서의 내용은 무엇입니까?
광범위한 새 정보에서 길을 찾는 데 도움이 되도록 Twitter에서 Tomek Rudzki의 연습을 권장합니다.
새로운 GSC 크롤링 통계가 굉장합니다!
첫 번째 스크린샷은 이전 버전의 보고서와 유사하지만 다른 보고서에는 숨겨진 보석이 있습니다.
1/n pic.twitter.com/oCNzhnGsQ— Tomek Rudzki(@TomekRudzki) 2020년 11월 24일
Tomek은 각각에 대한 새로운 데이터 및 SEO 사용 사례를 강조합니다.
- Googlebot 조회수가 가장 많은 호스트: Google에서 가장 자주 크롤링하는 하위 도메인을 찾습니다.
- Googlebot에 반환된 상태 코드: 200이 아닌(즉, 리디렉션, 누락된 페이지 및 오류) 응답에 사용된 크롤링 예산의 비율을 확인합니다.
- 파일 유형: Googlebot이 CSS 파일, JavaScript 파일 및 이미지와 같은 리소스 파일을 요청하는 빈도를 이해합니다.
- Googlebot 방문 목적: Google이 새로운 콘텐츠를 발견하고 있는지 아니면 이미 알고 있는 콘텐츠를 새로고침하는지 알아보세요.
- 스마트폰 Googlebot의 요청과 데스크톱 Googlebot의 요청 간 분할: 사이트가 2021년 3월에 Mobile-First Indexing으로 완전히 전환할 준비가 되었는지 확인합니다.
- 크롤링된 URL 샘플: 사이트에서 최근에 크롤링된 URL에 대해 알아보세요.
- 호스트 상태: 서버에 최근에 문제가 발생했는지 보여주는 새로운 측정항목입니다. 예를 들어, 여기에는 robots.txt 가용성과 DNS 확인이 고려됩니다.
크롤링 통계 보고서에서 가장 좋아하는 세 가지
특히 로그 파일에 액세스할 수 없는 경우 크롤링 통계 보고서에서 제공하는 이점이 너무 많아 일일이 나열하기가 어렵습니다. 그러나 여기에 우리의 상위 3가지가 있습니다.
1. 이 보고서는 모든 사람을 위한 것입니다.
읽기 쉬운 고급 Googlebot 크롤링 통계를 제공합니다. 일이 잘 될 때와 해결해야 할 문제가 있을 때 명확합니다. 예를 들어 호스트 상태에 대한 녹색/노란색/빨간색 상태 표시기와 같은 힌트를 제공합니다.
봇 및 크롤링 예산 추적을 처음 사용하는 경우에도 이러한 보고서를 볼 때 길을 잃지 않아야 합니다.
2. 문서가 훌륭합니다.
이 문서는 질문의 99%에 대한 답변을 제공할 뿐만 아니라 서버 상태, 위험 신호, 크롤링 빈도 관리 및 기본 googlebot 랭글링에 대한 모범 사례와 팁도 제공합니다.
3. Googlebot 요청의 "이유"에 대한 데이터
Googlebot을 추적할 수 있지만 Google이 페이지를 방문하는 이유에 대한 많은 결론은 제한된 데이터를 기반으로 해야 합니다. 목적별 크롤링 섹션과 "페이지 리소스 로드" 아래에 표시되는 렌더링 요청은 일부 질문에 대한 명확한 답변을 제공합니다. 이제 Google이 페이지를 검색하는지, 페이지를 업데이트하는지, 페이지를 렌더링하기 위해 별도의 두 번째 단계에서 리소스를 다운로드하는지 확실히 알 수 있습니다.
[사례 연구] Google의 봇 크롤링 관리
로그 파일에 있는 정보와 크롤링 통계 보고서의 차이점은 무엇입니까?
크롤링 통계는 Googlebot으로 제한됩니다.
크롤링 통계: 0
로그: 1
서버의 로그 파일은 출처에 관계없이 웹사이트를 구성하는 모든 파일 및 리소스에 대한 모든 요청을 기록합니다. 즉, 로그는 Googlebot 이상의 정보를 제공할 수 있습니다.
그러나 Google의 크롤링 통계 보고서는 (당연히!) 귀하의 사이트에서 Google 자체 활동으로 제한됩니다.
다음은 크롤링 통계에 표시되지 않는 로그 파일에서 얻을 수 있는 몇 가지 정보입니다.
- Bing과 같은 다른 검색 엔진에 대한 정보. 그들이 귀하의 사이트를 크롤링하는 방법을 볼 수 있을 뿐만 아니라 그들의 행동이 Googlebot의 행동과 어떻게 다르거나 일치하는지 확인할 수 있습니다.
Logflare는 매우 유용합니다. 라이브 로그에서 Bingbot과 비교하여 Googlebot의 다양한 크롤링 동작을 확인하는 것이 흥미로웠습니다. Googlebot은 301을 보고 반환된 다음 URL은 URL로 리디렉션되지만 Bingbot은 그렇게 하지 않는 것 같습니다. 301을 보고 다른 곳으로 갑니다.
— 던 앤더슨(@dawnieando) 2020년 1월 22일
- 사이트를 크롤링하려는 도구(및 경쟁업체)에 대한 정보입니다. 사용 가능한 정보는 Googlebot에 국한되지 않으므로 사이트에서 다른 봇이 활성화되어 있는지 확인할 수도 있습니다.
- 참조 페이지에 대한 정보입니다. 이것은 가장 활동적인 백링크에 대한 자세한 정보를 찾는 데 도움이 될 수 있습니다. HTTPS에서는 마지막으로 방문한 페이지 또는 "참조 페이지"도 각 요청과 함께 기록됩니다.
- Google의 트래픽뿐만 아니라 자연적인 트래픽에 대한 정보입니다! 추천 페이지를 사용하면 검색 엔진 결과 페이지의 트래픽을 식별하고 이러한 방문자가 귀하의 사이트와 상호 작용하는 방식을 더 잘 볼 수 있습니다. 이러한 종류의 정보는 Analytics 솔루션에서 제공하는 숫자를 확인하거나 수정하는 데 사용할 수 있습니다(사용하는 경우).
- 고아 페이지 식별. 로그에는 방문자가 요청한 모든 URL이 포함되어 있으므로 사이트 구조에서 연결되지 않은 봇 또는 인적 트래픽이 있는 "활성" 페이지가 로그에 표시됩니다. 로그 파일의 URL 목록을 크롤링의 사이트 구조에 있는 URL 목록과 비교하면 분리된 페이지를 쉽게 찾을 수 있습니다.
완전하고 최신 상태입니까?
크롤링 통계: 0
로그: 2
데이터가 완전하고 최신 상태입니까? 귀하의 로그입니다. 크롤링 통계가 있을 수 있습니다.
많은 사람들이 Google Search Console 보고서와 로그 파일 사이에 20-40%의 차이가 있음을 빠르게 알아차렸습니다. 크롤링 통계 보고서는 현재 Googlebot 활동을 과소보고합니다. 이것은 크롤링 통계에서는 알려진 문제이지만 로그에는 없습니다!
또한 Search Console의 모든 정보와 마찬가지로 사용 가능한 마지막 데이터 날짜와 오늘 날짜 사이에 시차가 있을 수 있습니다. 지금까지 크롤링 통계 보고서에서 최대 8일 간의 차이를 확인했습니다.
반면에 실시간 모니터링을 위해 로그 파일을 사용할 수 있습니다. 지연이 없습니다!
크롤링된 URL의 전체 목록과 집계
크롤링 통계: 0
로그: 3
크롤링 통계는 모든 URL에 대한 집계 데이터를 제공합니다. 보고서는 대시보드와 동일합니다. 주어진 메트릭 뒤에 있는 URL 목록을 찾으려면 "예시" 목록이 표시됩니다. 예를 들어, 이미지 파일에 대한 4.56K 요청의 수백 가지 예가 있을 수 있습니다.
그러나 로그 파일에는 모든 메트릭 뒤에 있는 URL의 전체 목록이 있습니다. 샘플뿐만 아니라 로그에서 모든 요청을 볼 수 있습니다.
지역, 날짜, URL 필터링…
크롤링 통계: 0
로그: 4
크롤링 통계는 실제로 유용하기 위해 샘플뿐만 아니라 모든 요청에 적용되는 광범위한 필터의 이점을 얻을 수 있습니다.
다음과 같은 유연성이 있으면 좋을 것입니다.
- 보고 있는 기간 변경
- IP 조회를 통해 지정된 지리적 지역에 집중
- URL 그룹별로 더 나은 필터링
- 그래프에 필터 옵션 적용
로그 파일에서 이 모든 작업과 훨씬 더 많은 작업을 수행할 수 있습니다.
Googlebot 관련 정보
크롤링 통계: 1
로그: 4
지금까지 살펴본 바와 같이 Google은 크롤링 통계 보고서를 사용하여 크롤링 목적에 대한 정보를 제공합니다.
- 새로 고침 대 검색
- 페이지 리소스(보조 가져오기)
이 정보는 로그 파일에 있는 데이터를 아무리 똑똑하게 살펴봐도 다른 곳에서는 찾을 수 없습니다.
쉬운 접근성
크롤링 통계: 2
로그: 4
크롤링 통계 보고서에 대한 액세스는 간단합니다. 크롤링 통계는 Search Console에 액세스할 수 있는 모든 사람이 자동으로 사용할 수 있습니다.
기술적으로 로그 파일은 모든 웹마스터도 사용할 수 있어야 합니다. 그러나 이것은 종종 그렇지 않습니다. 종종 개발 팀, IT 팀 또는 클라이언트 회사는 로그 파일에 대한 액세스 제공의 중요성을 이해하지 못합니다. 개인 정보 보호법이 IP 주소와 같은 "개인 식별 데이터"에 대한 액세스를 제한하는 EU와 같은 지역에서는 로그 파일에 대한 액세스가 법적 문제를 제기할 수 있습니다. 민감한 정보를 저장하지 않는 OnCrawl과 같은 특정 도구를 사용할 수 있습니다.
로그 파일에 액세스할 수 있게 되면 데이터를 분석할 수 있는 무료 도구가 제공되며 독점 형식은 거의 없습니다. 다시 말해, 로그 파일은 일단 손에 넣으면 꽤 민주적인 데이터 소스입니다.
사실: 많은 SEO가 로그에 액세스하는 데 문제가 있습니다. 따라서 이론적으로 로그 파일은 데이터에 대한 쉬운 액세스를 제공하지만 이 파일의 요점은 Google의 무료 도구에서 두 번의 클릭으로 사용할 수 있는 크롤링 통계 보고서로 이동합니다.
온크롤 로그 분석기
(아직) 다른 도구 및 분석에 통합할 수 없음
크롤링 통계: 2
로그: 5
Google Search Console을 사용하면 크롤링 통계 보고서의 웹 인터페이스를 통해 사용 가능한 정보를 내보내고 다운로드할 수 있습니다. 그러나 다운로드한 정보에는 화면상의 버전과 동일한 제한 사항이 있습니다.
또한 크롤링 통계는 API를 통해 (아직?) 사용할 수 없으므로 보고 및 분석을 위해 이 정보를 자동화된 프로세스에 연결하거나 기록 데이터를 더 광범위하게 보기 위해 백업하는 것이 어려울 수 있습니다.
로그 파일의 저장, 액세스 및 재사용은 일반적으로 귀하에게 달려 있습니다. 따라서 순위 추적, 크롤링 데이터 또는 분석 데이터와 같은 다른 데이터 소스와 병합할 때 로그 파일을 훨씬 더 쉽게 사용할 수 있습니다. 또한 보고, 대시보드 및 데이터 시각화 흐름에 더 쉽게 통합할 수 있습니다.
최종 승자: 로그 파일!
크롤링 통계 보고서의 경우 5~2포인트에 불과하므로 검색 엔진이 사이트와 상호 작용하는 방식에 대한 완전한 통찰력을 원한다면 로그 파일이 확실한 승자입니다.
하지만 분명히 합시다. 업그레이드된 크롤링 통계 보고서는 상태 코드, 파일 형식, 하위 도메인(도메인 속성용), 호스트 상태 세부정보 등 많은 새로운 정보를 제공합니다. 웹사이트가 크롤링되는 방식을 이해하기 위해 보다 세분화된 통찰력과 실행 가능한 데이터를 제공하고 이제 크롤링 패턴의 변경 사항을 추적할 수 있습니다.
자신이나 클라이언트의 로그 파일에 액세스할 수 없는 사람들에게는 큰 진전이 될 것입니다.
그러나 모든 것이 장점은 아닙니다!
새로운 GSC 크롤링 통계의 장단점: https://t.co/bjpG7QjeVt
장점:
+업그레이드된 데이터 측정항목
+더 나은 UX(낮은 막대 TBH)
+크롤링된 URL의 다운로드 가능한 데이터!
+크롤링 요청 분석
+중요한 호스트 문제가 언급됨단점:
- 날짜 범위에 대한 필터 없음
- 그래프를 변경하는 필터 옵션이 없습니다.— Micah Fisher-Kirshner(@micahfk) 2020년 11월 24일
새 보고서의 단점은 Googlebot 모니터링을 위한 훌륭한 대시보드이자 로그 파일 분석을 보완하는 훌륭한 추가 기능이지만 여러 면에서 제한적이라는 점입니다. 잊지 마세요. 로그 파일에만 집계 추세가 아니라 URL당 모든 요청이 표시됩니다.
또한 GSC 보고서에는 현재 일부 요청이 집계되지 않고 데이터가 크롤링 통계 보고서에 표시되기까지 최대 일주일이 소요될 수 있는 알려진 문제가 있습니다. (그러나 우리는 Google이 이러한 문제를 해결하기 위해 노력하고 있으며 곧 사라질 것이라고 믿습니다!)
권장 사항은 다음과 같습니다. 이 보고서를 사용하여 로그 파일에서 정확히 무엇을 찾아야 하는지 알 수 있습니다. 그런 다음 로그 분석에 뛰어드십시오!