크롤링 예산을 최적화하는 방법

게시 됨: 2017-07-05

5월에 Google의 크롤링 예산에 대해 프랑스어로 웹 세미나를 개최했습니다. OnCrawl과의 두 번째 웨비나에서는 Orange & Sosh(프랑스 인터넷 제공업체)의 전 SEO 책임자이자 현재 OnCrawl의 고객 성공 관리자인 Erle Alberton이 크롤링 예산 개념, 최적화를 위한 모범 사례, 피해야 할 사항 등에 대해 소개합니다. 예는 최근 Google 팀에서 확인된 이 개념을 설명합니다.

크롤링 예산에 대한 Google의 의견

1월 중순 Google은 블로그 에 "크롤링 예산"이 외부적으로 나타내는 모든 것을 설명하는 단일 용어가 없습니다. ” 즉, 우리 SEO가 크롤링 예산으로 고려하는 것입니다.

웹 거인은 또한 새 페이지가 일반적으로 게시 당일에 크롤링된다면 크롤링 예산에 대해 걱정할 필요가 없다고 말합니다. 또한 사이트에 URL이 수천 개 미만인 경우 크롤링 예산이 일반적으로 대용량 사이트에 할당되기 때문에 올바르게 크롤링된다고 명시되어 있습니다. 이는 Google Search Console의 모든 사이트에 크롤링 예산이 있기 때문에 옳기도 하고 그르기도 합니다. Google 측정항목에서 이를 쉽게 확인할 수 있습니다.

우리는 또한 이 기사에서 Google이 주어진 사이트에 대한 최대 가져오기 속도를 제한하는 "크롤링 속도 제한"을 달성하려고 한다는 것을 알게 되었습니다. 예를 들어 로딩 시간이 너무 길면 Google은 예산을 거의 2로 줄입니다. 즉, 나쁜 아키텍처(시스템, 상태 코드, 내부 구조)와 같은 크롤링 예산에 영향을 줄 수 있는 요소가 있습니다. ), 불량 및/또는 중복 콘텐츠, 스파이더 트랩 등

Google의 크롤링 예산은 어떻게 작동합니까?

Google의 크롤링은 각 사이트에 대해 재귀적으로 작동하는 일련의 간단한 단계입니다. 다음은 크롤링이 txt 로봇에 대한 적중으로 시작된 다음 목록으로 컴파일된 URL 집합으로 분리되는 Google의 그래프입니다. 이후 Google은 백업에 이미 있는 URL 외에 이미 알고 있는 URL과 비교하면서 가져오기를 시도합니다.

그 목표는 인덱스를 철저하고 정확하게 완성하는 것입니다. 사이트가 JavaScript로 되어 있더라도 Google은 3단계 크롤러를 보냅니다. JavaScript 사이트는 많은 봇 리소스를 소비하고 평균적으로 분기에 한 번만 전송되기 때문에 여전히 주의해야 합니다. Google이 JavaScript 탐색 외부의 페이지에 액세스할 수 있도록 방법을 재고해야 합니다.

그런 다음 Google은 페이지 업데이트 상태(이전에 색인이 생성된 콘텐츠와 비교)를 확인하여 페이지가 중요한지 덜 중요한지 평가합니다. 실제로 Google은 모든 웹사이트의 모든 페이지를 크롤링할 수 없기 때문에 크롤링 리소스를 최적화해야 합니다. 이를 페이지 중요도라고 합니다... 따라야 할 매우 중요한 점수이며 아래에서 자세히 살펴보겠습니다!

사실: Google이 최적화하면 이유가 있기 때문입니다.

크롤링 예산은 다음에 따라 달라집니다.

  • 신속하게 응답할 수 있는 사이트의 능력
  • 사이트의 온전성 - 4xx, 5xx, 3xx(사이트에 404 또는 500이 있기 시작하면 크롤링 예산이 영향을 받습니다. 수정 사항이 있는지 항상 다시 확인하기 때문입니다.)
  • 콘텐츠의 품질 – 의미 체계 및 완전성;
  • Anchor의 다양성(페이지는 많은 링크를 수신할 때 중요한 것으로 간주됩니다. OnCrawl의 InRank 를 사용하면 전체를 분석할 수 있습니다);
  • 페이지 인기도 – 외부 및 내부;
  • 최적화 가능한 요소 – 크롤링 단순화(이미지 크기, CSS, js, gif, 글꼴 등을 포함할 수 있는 용량 축소)

[사례 연구] 전략적 페이지의 크롤링 예산 늘리기

Managemento의 트래픽 대부분은 자연 검색에서 발생합니다. 이 트래픽은 주로 롱테일 검색에 의존하므로 수백만 개의 키워드를 동시에 최적화해야 합니다. 크롤링 예산이 빠르게 문제가 되었습니다.
사례 연구 읽기

Google 페이지 중요성의 주요 구성요소

페이지 중요도 정의는 페이지 순위와 동일하지 않습니다.

  • 웹사이트의 페이지 위치 – 크롤링 속도의 깊이
  • 페이지 순위: 페이지의 TF/CF – Majestic;
  • 내부 페이지 순위 – OnCrawl의 InRank;
  • 문서 유형: PDF, HTML, TXT(PDF는 일반적으로 최종 정성 문서이므로 크롤링됨);
  • sitemap.xml에 포함;
  • 내부 링크 수:
  • 앵커의 품질/중요성;
  • 질적 콘텐츠: 단어 수, 거의 중복되지 않음(페이지의 콘텐츠가 너무 가까우면 Google에서 유사한 콘텐츠에 벌점을 줌)
  • "홈" 페이지의 중요성.

크롤링할 중요한 URL을 계획하는 방법

URL 스케줄링: Google은 어떤 페이지를 얼마나 자주 방문하기를 원합니까?

위의 예에서(동일한 사이트의 크롤링 빈도 관찰) Google은 다른 그룹에서 동일한 빈도로 크롤링하지 않습니다. Google이 사이트의 일부를 크롤링하면 순위의 영향이 빠르게 나타납니다.

Google 크롤링 예산에 대한 추가 정보

  • Google Search Console 웹사이트의 100%에는 크롤링 데이터가 있습니다.
  • 봇 동작의 이상을 빠르게 감지하는 데 도움이 되는 로그 분석 덕분에 크롤링 동작을 추적할 수 있습니다.
  • 잘못된 내부 구조(페이지 매김, 고아 페이지, 스파이더 트랩)로 인해 Google이 올바른 페이지를 크롤링하지 못할 수 있습니다.
  • 크롤링 예산은 순위와 직접 연결됩니다.

페이지 속도 우선

가장 중요한 요소는 크롤링 예산에 결정적인 역할을 하는 페이지의 로드 시간입니다. 실제로 우리는 오늘날 모바일 세계에 살고 있습니다. 따라서 최고의 자산은 크롤링 예산과 SEO를 최적화하기 위한 페이지 로딩 시간입니다. 모바일 혁명과 함께 로드 시간은 사이트의 품질을 평가하는 데 필수적인 요소입니다. 특히 모바일 및 인덱스 모바일의 경우 신속하게 대응하는 능력.

이를 최적화하기 위해 Cloudflare와 같은 CDN 솔루션 (Content Delivery Network)을 사용할 수 있습니다. 이러한 솔루션을 사용하면 Google 로봇이 리소스에 최대한 가까이 있고 가능한 한 빨리 페이지를 로드할 수 있습니다.

Google은 사이트의 신속한 응답 능력을 지속적으로 테스트합니다. 아키텍처와 코딩 품질은 Google 표기법에 큰 영향을 미칩니다.

로드 시간

크롤링 예산의 첫 번째 할당 요소입니다!

현명한 서버 에서는 다음을 수행해야 합니다.

  • 리디렉션을 피하십시오.
  • 압축을 승인합니다.
  • 응답 시간을 개선합니다.

는 선형 크롤링 예산이 있고 선형 증가를 볼 수 있는 Manageo 사이트의 예입니다. 5월에는 하루에 크롤링되는 페이지 수가 감소하고 결과적으로 사이트 속도가 변경됩니다. Google은 사이트의 응답 속도가 느려 크롤링 예산이 절반으로 줄었습니다. 이 모든 것을 수정하려면 서버 측에서 코드를 최적화하고 리디렉션을 줄이고 압축을 사용하는 등의 작업을 수행해야 합니다.

전면적 으로 다음을 수행해야 합니다.

  • 브라우저 캐싱 작동
  • 리소스 크기 줄이기(이미지 최적화, 디스플레이를 차단하는 CDN/지연 로딩/삭제 JS 사용,
  • 비동기 스크립트를 사용합니다.

품질 저하 = 더 이상 사랑 없음 = 더 이상 예산 없음

IS가 깨끗한지 확인하려면 Google 로봇으로 다시 전송된 상태 코드를 확인해야 합니다. 이것이 Google에서 코드와 아키텍처의 품질이 깨끗한지 확인할 수 있는 유일한 방법입니다.

시간 경과에 따른 진화를 추적하면 코드 업데이트가 SEO 친화적임을 보장합니다. Google은 리소스(css, img, js)에 많은 비용을 지출하므로 흠잡을 데 없는지 확인하세요.

독특하고 풍부한 콘텐츠

페이지가 더 중요할수록 텍스트가 더 풍부해집니다. 위에 표시된 것처럼 Google에서 크롤링하고 크롤링하지 않은 페이지 수는 페이지에 있는 단어 수와 관련이 있습니다. 따라서 귀하의 페이지는 가능한 한 정기적으로 개선되고 업데이트되어야 합니다.

표준 및 중복 콘텐츠 주의

Google은 두 개의 유사한 페이지가 동일한 표준 URL을 가리키지 않는 경우 두 배의 예산을 지출합니다. 따라서 패싯이 있는 사이트 또는 queryString이 있는 외부 링크의 경우 표준 관리가 중요해질 수 있습니다.

거의 중복 및 표준의 콘텐츠 관리는 크롤링 예산 최적화의 중요한 측면이 됩니다.

내부 구조 및 InRank 배포

SEO 방문을 생성하는 페이지는 활성으로 간주됩니다. 이들은 사이트 아키텍처의 맨 위에 있는 것들입니다. 반면에 15페이지에 페이지 그룹이 나타나는 것을 볼 수 있습니다. 아마도 이 페이지는 사용자가 생각한 것보다 훨씬 더 많이 검색하고 순위를 개선하기 위해 아키텍처에서 업그레이드해야 할 수도 있습니다.

알다시피 페이지가 깊을수록 Google은 페이지를 덜 방문합니다!

내 머니 페이지가 잘 배치되어 있습니까?

팁: 특정 페이지 그룹의 깊이를 최적화하려면 깊이 관리에 중요한 페이지를 의미하는 html 사이트 계획을 만드는 것을 주저하지 마십시오.

Google은 구조 페이지와 크롤링 페이지 및 활성 페이지를 비교합니다. 즉, Google이 불필요하게 예산을 지출하는 고아 페이지의 문제를 해결하고 사이트 아키텍처를 수정하여 활성이지만 구조적이지 않은 페이지에 대한 링크를 반환하는 것이 귀하에게 유리할 것입니다.

때때로 페이지는 더 이상 링크를 수신하지 않으며, 이를 분리된 페이지라고 합니다. 반면 구글은 이들을 잊지 않았다. 그는 계속해서 그들을 방문할 것입니다. 더 이상 링크를 수신하지 않으므로 중요도가 떨어지지만 오른쪽 그래프에서 일부 분리된 페이지는 계속해서 SEO 방문을 수신합니다. 당신이 알아야 할 것은 그것들을 신속하게 식별하고 아키텍처에 있는 연결 문제를 수정하는 방법입니다. 크롤링 예산을 최적화할 수 있는 좋은 방법입니다.

멀리해야 할 실수

  • 404의 Robots.txt;
  • Sitemap.xml 및 sitemap.html이 오래되었습니다.
  • 50x / 40x / 소프트 404 오류;
  • 체인 리디렉션이 있습니다.
  • 표준 오류;
  • 중복 콘텐츠(바닥글) / 거의 중복 / HTTP 대 HTTPS;
  • 응답 시간이 너무 깁니다.
  • 페이지 무게가 너무 중요합니다.
  • AMP/오류. 이 프로토콜은 특히 전자 상거래 사이트(미디어 사이트뿐만 아니라)에 대해 Google에서 널리 사용됩니다.
  • 잘못된 내부 연결 + Rel=nofollow;
  • 다른 대안 없이 JS를 사용합니다.

결론

크롤링 예산을 최적화하려면 다음을 수행해야 합니다.

  • 귀하의 돈 페이지를 알고 Google의 반응을 알고 있습니다.
  • 로드 시간을 개선하십시오.
  • 내부 연결 최적화: 모든 돈 페이지를 구조의 맨 위에 둡니다.
  • 고아 페이지를 수정하십시오.
  • 돈 페이지에 텍스트를 추가하십시오.
  • 귀하의 돈 페이지를 최대한 업데이트하십시오 – 신선도;
  • 열악한 콘텐츠와 중복을 줄입니다.
  • 표준, 이미지, 리소스 가중치를 최적화합니다.
  • 체인 리디렉션을 피하십시오.
  • 로그를 모니터링하고 이상이 있을 때 대응합니다( 주제에 대한 SEOcamp Lyon 동안 Manageo 에서 이 사용 사례를 확인하십시오).

크롤링 예산을 최적화하려면 Google의 크롤러를 정확하게 모니터링해야 합니다.

귀하의 사이트에서 Google 경로의 어떤 순간은 다른 것보다 더 중요하므로 이를 최적화하는 방법을 알아야 합니다.

크롤링 예산을 최적화하려면 HTTPS(HTTP2) 마이그레이션을 올바르게 관리해야 합니다.

추적하고 모니터링할 수 있어야 합니다. IT 팀이 HTTPS를 사용하여 HTTP2로 마이그레이션하도록 요청하십시오.
OnCrawl을 사용하면 매일 Google의 크롤링 예산을 추적하고 SEO 성능을 개선하기 위해 수정 사항과 구조적 변경 사항을 신속하게 타겟팅할 수 있습니다.

14일 무료 평가판 시작

Oncrawl이 시장에서 가장 인정받는 기술 및 데이터 SEO 플랫폼인 이유를 직접 알아보십시오! 신용 카드가 필요하지 않고 문자열도 첨부되지 않습니다. 모든 기능을 갖춘 평가판을 단 14일 동안 사용할 수 있습니다.
평가판 시작