크롤링 예산을 정의하는 방법은 무엇입니까?

게시 됨: 2016-09-14

우리는 모두 이를 SEO라고 말하지만 크롤링 예산은 실제로 어떻게 작동합니까? 검색 엔진이 고객의 웹사이트를 방문할 때 크롤링하고 색인을 생성하는 페이지 수가 자연 검색에서의 성공과 상관관계가 있다는 것을 알고 있지만 크롤링 예산이 클수록 항상 더 낫습니까?

Google의 모든 것과 마찬가지로 웹사이트 크롤링 예산과 순위/SERP 성능 간의 관계가 100% 간단하다고 생각하지 않으며 여러 요인에 따라 달라집니다.

크롤링 예산이 중요한 이유는 무엇입니까? 2010년 카페인 업데이트 때문입니다. 이 업데이트를 통해 Google은 증분 인덱싱을 사용하여 콘텐츠를 인덱싱하는 방식을 재구축했습니다. '퍼콜레이터' 시스템을 도입하여 색인이 생성되는 페이지의 '병목 현상'을 제거했습니다.

Google은 크롤링 예산을 어떻게 결정합니까?

PageRank, 인용 흐름 및 신뢰 흐름에 관한 모든 것입니다.

도메인 기관을 언급하지 않은 이유는 무엇입니까? 솔직히 제 생각에는 SEO 및 콘텐츠 마케터가 사용할 수 있는 가장 오용되고 잘못 이해되는 메트릭 중 하나가 그 자리를 차지하고 있지만 너무 많은 에이전시와 SEO가 특히 링크를 구축할 때 너무 많은 가치를 부여합니다.

PageRank는 물론 이제 구식입니다. 특히 도구 모음을 삭제했기 때문에 사이트의 신뢰 비율에 관한 것입니다(신뢰 비율 = 신뢰 흐름/인용 흐름). 기본적으로 더 강력한 도메인은 크롤링 예산이 더 크므로 웹사이트에서 Google 봇 활동을 식별하고 중요한 것은 봇 크롤링 문제를 식별하는 방법은 무엇입니까? 서버 로그 파일.

이제 우리는 Google 봇에 페이지를 표시하기 위해 내부 연결 구조를 사용하고 URL을 따라 5개의 하위 폴더가 아닌 루트 도메인에 가깝게 유지한다는 것을 알고 있습니다. 그러나 더 많은 기술적인 문제는 어떻습니까? 크롤링 예산 낭비, 봇 트랩 또는 Google이 사이트에서 양식을 작성하려고 하는 경우(발생).

크롤러 활동 식별

이렇게 하려면 일부 서버 로그 파일을 손에 넣어야 합니다. 클라이언트에게 요청하거나 호스팅 회사에서 직접 다운로드할 수 있습니다.

그 이면의 아이디어는 Google 봇이 귀하의 사이트를 공격한 기록을 찾으려는 것입니다. 그러나 이것은 예정된 이벤트가 아니기 때문에 며칠 분량의 데이터를 가져와야 할 수도 있습니다. 이러한 파일을 분석하는 데 사용할 수 있는 다양한 소프트웨어가 있습니다.

다음은 Apache 서버에 대한 히트 예입니다.

50.56.92.47 – – [31/May/2012:12:21:17 +0100] “GET” – “/wp-content/themes/wp-theme/help.php” – “404” “-” “Mozilla/ 5.0(호환, Googlebot/2.1, +http://www.google.com/bot.html)” – www.hit-example.com

여기에서 도구(예: OnCrawl)를 사용하여 로그 파일을 분석하고 Google의 PPC 페이지 크롤링 또는 JSON 스크립트에 대한 무한 GET 요청과 같은 문제를 식별할 수 있습니다. 이 두 가지 모두 Robots.txt 파일 내에서 수정할 수 있습니다.

크롤링 예산 문제는 언제입니까?

크롤링 예산이 항상 문제가 되는 것은 아닙니다. 사이트에 URL이 많고 '크롤링'이 비례적으로 할당되어 있으면 문제가 없습니다. 하지만 웹사이트에 200,000개의 URL이 있고 Google이 사이트에서 매일 2,000페이지만 크롤링한다면 어떻게 될까요? Google이 새 URL이나 새로 고쳐진 URL을 인식하는 데 최대 100일이 소요될 수 있습니다. 이제 문제가 됩니다.

크롤링 예산이 문제인지 알아보기 위한 빠른 테스트 중 하나는 Google Search Console과 사이트의 URL 수를 사용하여 '크롤링 수'를 계산하는 것입니다.

먼저 사이트에 페이지가 몇 개인지 확인해야 합니다. 사이트 검색을 통해 이를 수행할 수 있습니다. 예를 들어 oncrawl.com은 색인에 대략 512페이지가 있습니다.

두 번째로 Google Search Console 계정으로 이동하여 크롤링으로 이동한 다음 크롤링 통계로 이동해야 합니다. GSC 계정이 제대로 구성되지 않은 경우 이 데이터가 없을 수 있습니다.
세 번째 단계는 "하루에 크롤링된 페이지" 평균 수(가운데)와 웹사이트의 총 URL 수를 가져와 다음과 같이 나눕니다.

사이트의 총 페이지 수 / 하루 평균 크롤링된 페이지 = X

X가 10보다 크면 크롤링 예산을 최적화해야 합니다. 5 미만이면 브라보. 계속 읽을 필요가 없습니다.

'크롤링 예산' 용량 최적화

인터넷에서 크롤링 예산이 가장 클 수 있지만 사용 방법을 모른다면 아무 소용이 없습니다.

예, 진부한 말이지만 사실입니다. Google이 사이트의 모든 페이지를 크롤링하고 대부분의 페이지가 중복되거나 비어 있거나 로드 속도가 너무 느려 시간 초과 오류가 발생하는 것으로 확인되면 예산이 소진될 수 있습니다.

크롤링 예산을 최대한 활용하려면(서버 로그 파일에 액세스하지 않더라도) 다음을 수행해야 합니다.

중복 페이지 제거

종종 전자 상거래 사이트에서 OpenCart와 같은 도구는 동일한 제품에 대해 여러 URL을 생성할 수 있습니다. 저는 대상과 루트 사이에 다양한 하위 폴더가 있는 4개의 URL에서 동일한 제품의 인스턴스를 보았습니다.

Google이 각 페이지의 두 개 이상의 버전을 인덱싱하는 것을 원하지 않으므로 Google에서 올바른 버전을 가리키는 표준 태그가 있는지 확인하십시오.

끊어진 링크 해결

Google Search Console 또는 크롤링 소프트웨어를 사용하고 사이트에서 깨진 내부 및 외부 링크를 모두 찾아 수정합니다. 301을 사용하는 것도 좋지만 301에 의존하지 않고 탐색 링크나 바닥글 링크가 깨진 경우 가리키는 URL만 변경하면 됩니다.

얇은 페이지를 작성하지 마십시오

사이트에 사용자나 검색 엔진에 거의 또는 전혀 가치를 제공하지 않는 페이지를 많이 두지 마십시오. 문맥이 없으면 Google은 페이지를 분류하기 어렵다는 것을 알게 됩니다. 즉, 페이지가 사이트의 전반적인 관련성에 기여하지 않고 크롤링 예산을 차지하는 승객일 뿐입니다.

301 리디렉션 체인 제거

체인 리디렉션은 불필요하고 지저분하며 오해를 받습니다. 리디렉션 체인은 여러 가지 방법으로 크롤링 예산을 손상시킬 수 있습니다. Google이 URL에 도달하여 301을 볼 때 항상 즉시 따라가는 것이 아니라 대신 새 URL을 목록에 추가한 다음 따라갑니다.

또한 XML 사이트맵(및 HTML 사이트맵)이 정확한지 확인해야 하며 웹사이트가 다국어라면 웹사이트의 각 언어에 대한 사이트맵이 있어야 합니다. 또한 스마트 사이트 아키텍처, URL 아키텍처를 구현하고 페이지 속도를 높여야 합니다. CloudFlare와 같은 CDN 뒤에 사이트를 두는 것도 도움이 됩니다.

TL;DR:

모든 예산과 마찬가지로 예산을 크롤링하는 것은 기회입니다. 이론적으로 예산을 사용하여 Googlebot, Bingbot 및 Slurp가 사이트에서 보내는 시간을 사는 것이므로 이 시간을 최대한 활용하는 것이 중요합니다.

크롤링 예산 최적화는 쉽지 않으며 확실히 '빠른 승리'가 아닙니다. 소규모 사이트나 잘 관리되는 중간 규모의 사이트라면 괜찮을 것입니다. 수만 개의 URL이 있는 거대한 사이트가 있고 서버 로그 파일이 머릿속을 스쳐지나간다면 전문가를 불러야 할 때일 수 있습니다.

무료 평가판 시작