SEO 로그 파일 분석 소개

게시 됨: 2021-05-17

로그 분석은 검색 엔진이 당사 사이트를 읽는 방식을 분석하는 가장 철저한 방법입니다. SEO, 디지털 마케팅 담당자 및 웹 분석 전문가는 매일 트래픽, 사용자 행동 및 전환에 대한 다이어그램을 표시하는 도구를 사용합니다. SEO는 일반적으로 Google이 Google Search Console을 통해 사이트를 크롤링하는 방법을 이해하려고 합니다.
그렇다면... SEO가 다른 도구를 분석하여 검색 엔진이 사이트를 올바르게 읽고 있는지 확인해야 하는 이유는 무엇입니까? 자, 기본부터 시작하겠습니다.

로그 파일이란 무엇입니까?

로그 파일은 봇이나 사용자가 요청한 웹사이트의 모든 단일 리소스에 대해 서버 웹이 행을 작성하는 파일입니다. 각 행에는 다음을 포함할 수 있는 요청에 대한 데이터가 포함됩니다.
발신자 IP, 날짜, 필요한 리소스(페이지, .css, .js, …), 사용자 에이전트, 응답 시간, …
행은 다음과 같이 표시됩니다.
66.249.**.** - - [13/Apr/2021:00:07:31 +0200] "GET /***/x_*** HTTP/1.1" 200 40960 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "www.***.it" "-"

크롤링 및 업데이트 가능성

모든 페이지에는 세 가지 기본 SEO 상태가 있습니다.

크롤링 가능한
인덱싱 가능
순위를 매길 수 있는

로그 분석 관점에서 우리는 페이지가 인덱싱되기 위해 봇이 읽어야 한다는 것을 알고 있습니다. 마찬가지로 검색 엔진에 의해 이미 인덱싱된 콘텐츠는 검색 엔진의 인덱스에서 업데이트되도록 다시 크롤링되어야 합니다.
안타깝게도 Google Search Console에는 이러한 수준의 세부 정보가 없습니다. Googlebot이 지난 3개월 동안 사이트에서 페이지를 읽은 횟수와 웹 서버가 응답한 속도를 확인할 수 있습니다.
봇이 페이지를 읽었는지 어떻게 확인할 수 있습니까? 물론 로그 파일과 로그 파일 분석기를 사용하여.

SEO가 로그 파일을 분석해야 하는 이유는 무엇입니까?

로그 파일 분석을 통해 SEO(및 시스템 관리자)는 다음을 이해할 수 있습니다.

봇이 읽는 내용
봇이 읽는 빈도
소요 시간(ms) 측면에서 크롤링 비용

로그 분석 도구를 사용하면 "경로", 파일 유형 또는 응답 시간별로 정보를 그룹화하여 로그를 분석할 수 있습니다. 또한 훌륭한 로그 분석 도구를 사용하면 로그 파일에서 얻은 정보를 Google Search Console(클릭수, 노출수, 평균 게재순위) 또는 Google Analytics와 같은 다른 데이터 소스와 결합할 수 있습니다.

온크롤 로그 분석기

봇 모니터링 및 크롤링 예산 최적화를 위한 로그 파일 분석. 사이트 상태 문제를 감지하고 크롤링 빈도를 개선합니다.

더 알아보기

로그 파일에서 무엇을 찾아야 합니까?

로그 파일의 주요 정보 중 하나는 로그 파일에 없는 정보입니다. 농담이 아니에요. 페이지가 인덱싱되지 않거나 최신 버전으로 업데이트되지 않은 이유를 이해하는 첫 번째 단계는 봇(예: Googlebot)이 페이지를 읽었는지 확인하는 것입니다.
이에 따라 페이지가 자주 업데이트되는 경우 봇이 페이지 또는 사이트 섹션을 읽는 빈도를 확인하는 것이 중요할 수 있습니다.
다음 단계는 봇이 가장 자주 읽는 페이지를 확인하는 것입니다. 추적하여 다음 페이지를 확인할 수 있습니다.

자주 읽을 가치가 있습니다
또는 페이지의 무언가가 지속적이고 통제 불가능한 변경을 야기하기 때문에 너무 자주 읽힙니다.

예를 들어, 몇 달 전에 내가 작업하고 있던 사이트에서 이상한 URL에 대한 봇 읽기 빈도가 매우 높았습니다. 봇은 이 페이지가 JS 스크립트에 의해 생성된 URL에서 가져온 것임을 밝혔고 이 페이지에는 페이지가 로드될 때마다 변경된 일부 디버깅 값이 찍혀 있다고 밝혔습니다… 크롤링 예산 구멍.

크롤링 예산

크롤링 예산? 그것은 무엇입니까? 모든 사이트에는 검색 엔진 및 해당 봇과 관련된 비유적인 예산이 있습니다. 예: Google은 사이트에 대한 일종의 예산을 설정합니다. 이것은 어디에도 기록되지 않지만 두 가지 방법으로 "계산"할 수 있습니다.

Google Search Console 크롤링 통계 보고서 확인
로그 파일을 확인하고 "Googlebot"을 포함하는 사용자 에이전트로 로그 파일을 grepping( 필터링 )합니다( 이 사용자 에이전트가 올바른 Google IP와 일치하는지 확인하면 최상의 결과를 얻을 수 있습니다… )

사이트가 흥미로운 콘텐츠로 업데이트되거나 정기적으로 콘텐츠가 업데이트되거나 사이트가 좋은 백링크를 수신하면 크롤링 예산이 늘어납니다.
크롤링 예산이 사이트에서 사용되는 방식은 다음을 통해 관리할 수 있습니다.

내부 링크(팔로우/노팔로우도!)
NOINDEX / 표준
robots.txt(주의: 사용자 에이전트를 "차단")

좀비 페이지

저에게 "좀비 페이지"는 상당한 기간 동안 유기적 트래픽이나 봇 방문이 없었지만 이를 가리키는 내부 링크가 있는 모든 페이지입니다.
이러한 유형의 페이지는 크롤링 예산을 너무 많이 사용할 수 있으며 내부 링크로 인해 불필요하게 페이지 순위를 받을 수 있습니다. 이 상황은 다음과 같이 해결할 수 있습니다.

이 페이지가 사이트를 방문하는 사용자에게 유용하다면 noindex로 설정하고 내부 링크를 nofollow로 설정할 수 있습니다( 또는 disallow robots.txt를 사용하지만 이 점에 주의하세요… )
이러한 페이지가 사이트를 방문하는 사용자에게 유용하지 않은 경우 해당 페이지를 제거하고(상태 코드 410 또는 404 반환) 모든 내부 링크를 제거할 수 있습니다.

Oncrawl을 사용하면 다음을 기반으로 "좀비 보고서"를 만들 수 있습니다.

GSC 노출수
GSC 클릭수
GA 세션

또한 로그 이벤트를 사용하여 좀비 페이지를 발견할 수 있습니다. 예를 들어 0 이벤트 필터를 정의할 수 있습니다. 이를 수행하는 가장 쉬운 방법 중 하나는 Segmentation을 만드는 것입니다. 아래 예에서는 다음 기준으로 모든 페이지를 필터링합니다. Googlebot 조회수는 없지만 Inrank가 있습니다(이는 이러한 페이지에 해당 페이지를 가리키는 내부 링크가 있음을 의미함).

이제 모든 Oncrawl 보고서에서 이 세분화를 사용할 수 있습니다. 이를 통해 모든 그래픽에서 통찰력을 얻을 수 있습니다. 예를 들어 200 상태 코드를 반환하는 "로그 좀비 페이지"가 몇 개입니까?

고아 페이지

저에게 있어 주의 깊게 살펴볼 가치가 있는 "고아 페이지"는 페이지 순위를 공유하기 위해 해당 페이지를 가리키는 내부 링크가 없는 중요한 측정항목(GA 세션, GSC 노출, 로그 조회수 등)에서 높은 가치를 지닌 모든 페이지입니다. 페이지 중요도를 나타냅니다.
"좀비 페이지"와 마찬가지로 로그 기반 보고서를 생성하는 가장 좋은 방법은 새로운 세분화를 생성하는 것입니다.

와우, 세션과 조회수가 있고 인링크가 없는 페이지가 얼마나 많습니까!
"제로 팔로우 인링크"에 기반한 보고서를 확인할 때 크롤링 상태에 주의하십시오. Oncrawl이 모든 사이트를 크롤링할 수 있었습니까, 아니면 몇 페이지만 크롤링할 수 있었습니까? 프로젝트의 메인 페이지에서 이것을 볼 수 있습니다:

최대 수심에 도달한 경우:

크롤링 구성 확인
사이트 구조 확인

로그 파일 및 온크롤링

Oncrawl은 기본 대시보드에서 무엇을 제공합니까?

라이브 로그

이 대시보드는 봇이 사이트를 방문하는 즉시 그리고 로그 파일의 정보가 완전히 처리되기 전에 봇이 사이트를 읽는 방법에 대한 주요 정보를 확인하는 데 유용합니다. 이를 최대한 활용하려면 로그 파일을 자주 업로드하는 것이 좋습니다. FTP를 통해 업로드하거나 Amazon S3용 커넥터와 같은 커넥터를 통해 업로드하거나 웹 인터페이스를 통해 수동으로 업로드할 수 있습니다.
첫 번째 차트는 사이트를 읽는 빈도와 봇을 보여줍니다. 아래에서 볼 수 있는 예에서 데스크톱 대 모바일 액세스를 확인할 수 있습니다. 이 경우 Googlebot에 대해서만 필터링된 로그 파일을 Oncrawl에 보냈습니다.

모바일 읽기의 양이 어떻게 여전히 매우 높은지 확인하는 것은 흥미롭습니다. 정상입니까? 상황에 따라 다릅니다... 우리가 분석하는 사이트는 여전히 "모바일 우선 색인"에 있지만 완전 반응형 웹사이트는 아닙니다. 동적 제공 웹사이트(Google에서 부름)이고 Google은 여전히 두 버전을 모두 확인합니다!
또 다른 흥미로운 다이어그램은 "페이지 그룹별 봇 조회수"입니다. 기본적으로 Oncrawl은 URL 경로를 기반으로 그룹을 만듭니다. 그러나 함께 분석하기에 가장 적합한 URL을 그룹화하기 위해 그룹을 수동으로 설정할 수 있습니다.

보시다시피 노란색이 이깁니다! 제품 경로가 있는 URL을 나타내므로 특히 Google 유료 쇼핑 캠페인이 있기 때문에 이렇게 큰 영향을 미치는 것은 정상입니다.
그리고... 예, Google에서 표준 Googlebot을 사용하여 판매자 피드와 관련된 제품 상태를 확인한다는 것을 방금 확인했습니다!

크롤링 동작

이 대시보드는 "라이브 로그"와 유사한 정보를 표시하지만 이 정보는 완전히 처리되었으며 일, 주 또는 월별로 집계됩니다. 여기에서 날짜 기간(시작/종료)을 설정할 수 있으며 원하는 만큼 시간을 되돌릴 수 있습니다. 로그 분석에 대한 추가 정보를 제공하는 두 개의 새로운 다이어그램이 있습니다.

크롤링 동작: 크롤링된 페이지와 새로 크롤링된 페이지 간의 비율 확인
일일 크롤링 빈도

이 다이어그램을 읽는 가장 좋은 방법은 결과를 사이트 작업에 연결하는 것입니다.

페이지를 이동했습니까?
일부 섹션을 업데이트했습니까?
새로운 콘텐츠를 게시했습니까?

SEO 영향

SEO의 경우 최적화된 페이지를 봇이 읽는지 여부를 모니터링하는 것이 중요합니다. "고아 페이지"에 대해 썼듯이 가장 중요한/업데이트된 페이지를 봇이 읽도록 하여 검색 엔진에서 순위를 매길 수 있도록 가장 업데이트된 정보를 사용할 수 있도록 하는 것이 중요합니다.
Oncrawl은 "활성 페이지"라는 개념을 사용하여 검색 엔진에서 유기적 트래픽을 수신하는 페이지를 나타냅니다. 이 개념에서 시작하여 다음과 같은 몇 가지 기본 숫자를 보여줍니다.

SEO 방문
SEO 활성 페이지
SEO 활성 비율(크롤링된 모든 페이지 중 활성 페이지의 비율)
신선한 순위(봇이 페이지를 처음 읽은 시점부터 자연적 첫 번째 방문까지 걸리는 평균 시간)
크롤링되지 않은 활성 페이지
새로 활성화된 페이지
활성 페이지의 일일 크롤링 빈도

Oncrawl의 철학과 마찬가지로 클릭 한 번으로 클릭한 메트릭으로 필터링된 정보 레이크로 깊숙이 들어갈 수 있습니다! 예: 크롤링되지 않은 활성 페이지는 무엇입니까? 한 번의 클릭…

탐색 정신

이 마지막 대시보드를 사용하면 bo의 크롤링 품질, 더 정확하게는 사이트가 검색 엔진에 얼마나 잘 표시되는지 확인할 수 있습니다.

상태 코드 분석
요일별 상태코드 분석
페이지 그룹별 상태 코드 분석
응답 시간 분석

좋은 SEO 작업을 위해서는 다음이 필수입니다.

내부 링크의 301 응답 수 줄이기
내부 링크에서 404/410 응답 제거
Googlebot 크롤링 품질은 응답 시간과 직접 관련이 있으므로 응답 시간을 최적화하십시오. 사이트의 응답 시간을 절반으로 줄이려고 하면 크롤링된 페이지의 양이 두 배로 늘어나는 것을 (며칠 내) 알 수 있습니다.

로그 분석의 과학 및 Oncrawl의 데이터 탐색기

지금까지 표준 Oncrawl 보고서와 이를 사용하여 세분화 및 페이지 그룹을 통해 사용자 지정 정보를 얻는 방법을 살펴보았습니다.
그러나 로그 분석의 핵심은 잘못된 것을 찾는 방법을 이해하는 것입니다. 일반적으로 분석의 시작점은 피크를 확인하고 트래픽 및 목표와 비교하는 것입니다.

가장 많이 크롤링된 페이지
최소 크롤링 페이지
대부분의 크롤링된 리소스(페이지 아님)
파일 유형별 크롤링 빈도
3xx / 4xx 상태 코드의 영향
5xx 상태 코드의 영향
느린 크롤링 페이지
…

더 깊이 들어가시겠습니까? 좋습니다. 데이터를 추가해야 합니다. 그리고 Oncrawl은 Data Explorer와 같은 정말 강력한 도구를 제공합니다.
이전 스크린샷(크롤링되지 않은 활성 페이지)에서 볼 수 있듯이 분석 프레임워크를 기반으로 원하는 모든 보고서를 만들 수 있습니다.
예를 들어:

봇에 의한 크롤링이 많은 최악의 유기적 트래픽 페이지
봇에 의한 크롤링이 너무 많은 최고의 자연 트래픽 페이지
SERP 노출이 많은 느린 페이지
…

아래에서 SEO 세션 수와 관련하여 가장 많이 크롤링된 페이지를 확인하는 방법을 확인할 수 있습니다.

테이크아웃

로그 분석은 엄격하게 기술적인 것이 아닙니다. 가능한 최선의 방법으로 수행하려면 기술, SEO 기술 및 마케팅 기술을 결합해야 합니다.
고객이 로그 파일에 액세스할 수 없거나 비용이 많이 드는 분석이 될 수 있기 때문에 분석이 "SEO 체크리스트"에서 제외되는 경우가 너무 많습니다.
현실은 로그가 우리 사이트에서 봇이 어디로 가고 있는지 실제로 확인하고 서버가 이에 어떻게 응답하는지 알 수 있는 유일한 소스라는 것입니다.
Oncrawl과 같은 도구는 기술 요구 사항을 크게 줄일 수 있습니다. 로그 파일을 업로드하고 분석을 시작하기만 하면 됩니다!

무료 평가판 시작