크롤링 및 인덱싱 제어: Robots.txt 및 태그에 대한 SEO 가이드

게시 됨: 2019-02-19

크롤링 예산을 최적화하고 페이지 색인 생성에서 봇을 차단하는 것은 많은 SEO에게 익숙한 개념입니다. 그러나 악마는 디테일에 있다. 특히 모범 사례가 최근 몇 년 동안 크게 변경되었습니다.

robots.txt 파일이나 로봇 태그를 조금만 변경해도 웹사이트에 큰 영향을 줄 수 있습니다. 사이트에 항상 긍정적인 영향을 미치기 위해 오늘은 다음 사항에 대해 알아보겠습니다.

크롤링 예산 최적화
Robots.txt 파일이란
메타 로봇 ​​태그란?
X-Robots-Tags란 무엇입니까?
로봇 지침 및 SEO
모범 사례 로봇 체크리스트

크롤링 예산 최적화

검색 엔진 스파이더에는 사이트에서 크롤링할 수 있고 크롤링하려는 페이지 수에 대한 "허용"이 있습니다. 이를 "크롤링 예산"이라고 합니다.

Google Search Console(GSC) '크롤링 통계' 보고서에서 사이트의 크롤링 예산을 찾으십시오. GSC는 모두 SEO 전용이 아닌 12개 봇의 집합체입니다. 또한 SEA 봇인 애드워즈 또는 애드센스 봇을 수집합니다. 따라서 이 도구는 전체 크롤링 예산에 대한 아이디어를 제공하지만 정확한 재분할은 제공하지 않습니다.

더 실용적인 숫자를 만들려면 하루에 크롤링되는 평균 페이지를 사이트의 총 크롤링 가능한 페이지로 나누십시오. 개발자에게 숫자를 요청하거나 무제한 사이트 크롤러를 실행할 수 있습니다. 이렇게 하면 최적화를 시작할 예상 크롤링 비율이 표시됩니다.

더 깊이 들어가고 싶으신가요? 사이트의 서버 로그 파일을 분석하여 다른 크롤러에 대한 통계뿐만 아니라 방문 중인 페이지와 같은 Googlebot의 활동에 대한 보다 자세한 분석을 얻으십시오.

크롤링 예산을 최적화하는 방법에는 여러 가지가 있지만 시작하기 쉬운 곳은 GSC '범위' 보고서를 확인하여 Google의 현재 크롤링 및 색인 생성 동작을 이해하는 것입니다.

"제출된 URL이 'noindex'로 표시됨" 또는 "제출된 URL이 robots.txt에 의해 차단됨"과 같은 오류가 표시되면 개발자와 협력하여 문제를 해결하세요. 로봇 제외에 대해 조사하여 SEO 관점에서 전략적인지 이해하십시오.

일반적으로 SEO는 로봇에 대한 크롤링 제한을 최소화하는 것을 목표로 해야 합니다. URL을 유용하고 검색 엔진에 액세스할 수 있도록 웹사이트 아키텍처를 개선하는 것이 최고의 전략입니다.

Google은 "견고한 정보 아키텍처는 크롤링 우선 순위 지정에 중점을 두는 것보다 훨씬 더 생산적으로 리소스를 사용하는 것 같습니다"라고 말합니다.

즉, robots.txt 파일과 robots 태그를 사용하여 크롤링, 인덱싱 및 링크 자산 전달을 안내하는 방법을 이해하는 것이 좋습니다. 그리고 더 중요한 것은 최신 SEO를 위해 언제 어떻게 가장 잘 활용할 수 있는지입니다.

[사례 연구] Google의 봇 크롤링 관리

26,000개 이상의 제품 참조가 있는 1001Pneus는 SEO 성능을 모니터링하고 Google이 올바른 카테고리와 페이지에 크롤링 예산을 사용하고 있는지 확인하는 안정적인 도구가 필요했습니다. OnCrawl을 사용하여 전자 상거래 웹사이트에 대한 크롤링 예산을 성공적으로 관리하는 방법을 알아보십시오.
사례 연구 읽기

Robots.txt 파일이란

검색 엔진이 페이지를 스파이더링하기 전에 robots.txt를 확인합니다. 이 파일은 봇에게 방문 권한이 있는 URL 경로를 알려줍니다. 그러나 이러한 항목은 명령이 아니라 지시일 뿐입니다.

Robots.txt는 방화벽이나 암호 보호와 같은 크롤링을 안정적으로 방지할 수 없습니다 . 이것은 잠금 해제된 문에 있는 "제발, 들어가지 마세요" 표시와 같은 디지털 방식입니다.

주요 검색 엔진과 같은 정중한 크롤러는 일반적으로 지침을 따릅니다. 이메일 스크래퍼, 스팸봇, 맬웨어 및 사이트 취약점을 검색하는 스파이더와 같은 적대적인 크롤러는 종종 주의를 기울이지 않습니다.

게다가 공개적으로 사용 가능한 파일 입니다. 누구든지 당신의 지시를 볼 수 있습니다.

robots.txt 파일을 다음 용도로 사용하지 마세요.

  • 민감한 정보를 숨기려면. 암호 보호를 사용하십시오.
  • 스테이징 및/또는 개발 사이트에 대한 액세스를 차단합니다. 서버 측 인증을 사용합니다.
  • 적대적인 크롤러를 명시적으로 차단합니다. IP 차단 또는 사용자 에이전트 차단을 사용합니다(.htaccess 파일의 규칙이나 CloudFlare와 같은 도구를 사용하여 특정 크롤러 액세스를 차단합니다).

모든 웹사이트에는 하나 이상의 지시문 그룹이 있는 유효한 robots.txt 파일이 있어야 합니다. 하나가 없으면 모든 봇에 기본적으로 전체 액세스 권한이 부여되므로 모든 페이지가 크롤링 가능한 것으로 처리됩니다. 이것이 의도한 것이더라도 robots.txt 파일을 사용하여 모든 이해 관계자에게 이 점을 명확히 하는 것이 좋습니다. 또한 하나가 없으면 서버 로그는 robots.txt에 대한 실패한 요청으로 가득 차게 됩니다.

robots.txt 파일의 구조

크롤러가 승인하려면 robots.txt가 다음을 충족해야 합니다.

  • "robots.txt"라는 텍스트 파일이어야 합니다. 파일 이름은 대소문자를 구분합니다. "Robots.TXT" 또는 기타 변형은 작동하지 않습니다.
  • 표준 도메인의 최상위 디렉토리에 있어야 하며 관련 있는 경우 하위 도메인에 있어야 합니다. 예를 들어 https://www.example.com 아래의 모든 URL에 대한 크롤링을 제어하려면 robots.txt 파일이 https://www.example.com/robots.txt에 있어야 하고 subdomain.example.com의 경우 다음 위치에 있어야 합니다. subdomain.example.com/robots.txt.
  • HTTP 상태 200 OK를 반환합니다.
  • 유효한 robots.txt 구문 사용 - Google Search Console robots.txt 테스트 도구를 사용하여 확인합니다.

robots.txt 파일은 지시문 그룹으로 구성됩니다. 항목은 주로 다음으로 구성됩니다.

  • 1. 사용자 에이전트: 다양한 크롤러를 처리합니다. 모든 로봇에 대해 하나의 그룹을 만들거나 그룹을 사용하여 특정 검색 엔진의 이름을 지정할 수 있습니다.
  • 2. 허용 안함: 위의 사용자 에이전트에서 크롤링에서 제외할 파일 또는 디렉터리를 지정합니다. 블록당 이러한 행 중 하나 이상을 가질 수 있습니다.

사용자 에이전트 이름의 전체 목록과 더 많은 지시문 예를 보려면 Yoast의 robots.txt 가이드를 확인하세요.

"User-agent" 및 "Disallow" 지시문 외에도 몇 가지 비표준 지시문이 있습니다.

    • 허용: 상위 디렉토리에 대한 허용 안 함 지시문에 대한 예외를 지정합니다.
    • 크롤링 지연: 페이지를 방문하기 전에 몇 초를 기다려야 하는지 봇에게 알려 무거운 크롤러를 제한합니다. 유기적 세션이 거의 없는 경우 크롤링 지연이 서버 대역폭을 절약할 수 있습니다. 그러나 크롤러가 서버 로드 문제를 적극적으로 일으키는 경우에만 노력을 투자할 것입니다. Google은 이 명령을 인정하지 않으며 Google Search Console에서 크롤링 속도를 제한하는 옵션을 제공합니다.
    • Clean-param: 동적 매개변수에 의해 생성된 중복 콘텐츠를 다시 크롤링하지 마십시오.
    • 인덱스 없음: 크롤링 예산을 사용하지 않고 인덱싱을 제어하도록 설계되었습니다. 더 이상 Google에서 공식적으로 지원하지 않습니다. 여전히 영향을 미칠 수 있다는 증거가 있지만 신뢰할 수 없으며 John Mueller와 같은 전문가가 권장하지 않습니다.

  • 사이트맵: XML 사이트맵을 제출하는 최적의 방법은 Google Search Console 및 기타 검색 엔진의 웹마스터 도구를 사용하는 것입니다. 그러나 robots.txt 파일의 베이스에 사이트맵 지시문을 추가하면 제출 옵션을 제공하지 않을 수 있는 다른 크롤러에게 도움이 됩니다.

SEO용 robots.txt의 제한사항

robots.txt가 모든 봇의 크롤링을 막을 수는 없다는 것을 이미 알고 있습니다. 마찬가지로 페이지에서 크롤러를 허용 하지 않아도 검색 엔진 결과 페이지(SERP)에 포함되지 않습니다.

차단된 페이지에 다른 강력한 순위 신호가 있는 경우 Google은 검색 결과에 표시하는 것과 관련이 있다고 간주할 수 있습니다. 페이지를 크롤링하지 않았음에도 불구하고.

해당 URL의 콘텐츠가 Google에 알려지지 않았기 때문에 검색 결과는 다음과 같습니다.

페이지가 SERP에 표시되는 것을 확실히 차단하려면 "noindex" 로봇 메타 태그 또는 X-Robots-Tag HTTP 헤더를 사용해야 합니다.

이 경우 "noindex" 태그를 보고 준수하려면 페이지를 크롤링해야 하므로 robots.txt의 페이지를 허용하지 마십시오 . URL이 차단되면 모든 로봇 태그가 무효화됩니다.

또한 페이지에 많은 인바운드 링크가 발생했지만 Google이 robots.txt에 의해 해당 페이지를 크롤링하지 못하도록 차단된 경우 링크 가 Google에 알려지면 링크 자산 이 손실됩니다.

메타 로봇 ​​태그란?

각 URL의 HTML에 배치된 meta name="robots"는 크롤러에게 콘텐츠를 "인덱싱"할지 여부와 방법, 그리고 링크 자산을 따라 모든 페이지 링크를 "팔로우"(즉, 크롤링)할지 여부를 알려줍니다.

일반 메타 이름="robots"를 사용하면 지시문이 모든 크롤러에 적용됩니다. 특정 사용자 에이전트를 지정할 수도 있습니다. 예를 들어 메타 이름=”googlebot”입니다. 그러나 특정 스파이더에 대한 지침을 설정하기 위해 여러 메타 로봇 ​​태그를 사용해야 하는 경우는 드뭅니다.

메타 로봇 ​​태그를 사용할 때 두 가지 중요한 고려 사항이 있습니다.

  • robots.txt와 유사하게 메타 태그는 명령이 아니라 명령이므로 일부 봇에서는 무시할 수 있습니다.
  • robots nofollow 지시문은 해당 페이지의 링크에만 적용됩니다. 크롤러가 nofollow 없이 다른 페이지나 웹사이트의 링크를 따라갈 수 있습니다. 따라서 봇은 여전히 ​​원하지 않는 페이지에 도착하여 색인을 생성할 수 있습니다.

모든 메타 로봇 ​​태그 지시문 목록은 다음과 같습니다.

  • 색인: 검색 엔진에 이 페이지를 검색 결과에 표시하도록 지시합니다. 지시문이 지정되지 않은 경우의 기본 상태입니다.
  • noindex: 이 페이지를 검색 결과에 표시하지 않도록 검색 엔진에 지시합니다.
  • 따라가기: 검색 엔진이 이 페이지의 모든 링크를 따라가고 페이지가 인덱싱되지 않은 경우에도 자산을 전달하도록 지시합니다. 지시문이 지정되지 않은 경우의 기본 상태입니다.
  • nofollow: 검색 엔진에 이 페이지의 링크를 따르거나 자산을 전달하지 않도록 지시합니다.
  • all: "index, follow"와 동일합니다.
  • 없음: "noindex, nofollow"와 동일합니다.
  • noimageindex: 검색 엔진에 이 페이지의 이미지를 인덱싱하지 않도록 지시합니다.
  • noarchive: 검색 결과에서 이 페이지에 대한 캐시된 링크를 표시하지 않도록 검색 엔진에 지시합니다.
  • nocache: noarchive와 동일하지만 Internet Explorer 및 Firefox에서만 사용됩니다.
  • nosnippet: 검색 결과에서 이 페이지에 대한 메타 설명이나 비디오 미리보기를 표시하지 않도록 검색 엔진에 지시합니다.
  • notranslate: 검색 결과에서 이 페이지의 번역을 제공하지 않도록 검색 엔진에 지시합니다.
  • available_after: 지정된 날짜 이후에 더 이상 이 페이지를 색인화하지 않도록 검색 엔진에 지시합니다.
  • noodp: 이제 더 이상 사용되지 않으며 검색 엔진이 검색 결과에서 DMOZ의 페이지 설명을 사용하지 못하도록 했습니다.
  • noydir: 이제 더 이상 사용되지 않으며 한 번 Yahoo가 검색 결과에서 Yahoo 디렉토리의 페이지 설명을 사용하지 못하게 했습니다.
  • noyaca: Yandex가 검색 결과에서 Yandex 디렉토리의 페이지 설명을 사용하지 못하도록 합니다.

Yoast가 문서화한 것처럼 모든 검색 엔진이 모든 로봇 메타 태그를 지원하거나 지원하지 않는 기능이 무엇인지 명확하지 않습니다.

* 대부분의 검색 엔진에는 이에 대한 특정 문서가 없지만 매개변수 제외 지원(예: nofollow)은 긍정적 등가물(예: 팔로우)에 대한 지원을 의미한다고 가정합니다.

** noodp 및 noydir 속성이 여전히 '지원'될 수 있지만 디렉터리는 더 이상 존재하지 않으며 이러한 값은 아무 작업도 수행하지 않을 수 있습니다.

일반적으로 로봇 태그는 "인덱스, 팔로우"로 설정됩니다. 일부 SEO는 HTML에 이 태그를 추가하는 것이 기본값인 것처럼 중복되는 것으로 봅니다. 반대 주장은 지시의 명확한 사양이 사람의 혼란을 피하는 데 도움이 될 수 있다는 것입니다.

참고: "NOINDEX" 태그가 있는 URL은 크롤링 빈도가 줄어들며, 장기간 존재하는 경우 결국 Google이 페이지의 링크를 팔로우하지 않게 됩니다.

메타 로봇 ​​태그가 있는 페이지의 모든 링크 를 "비추적"하는 사용 사례를 찾는 것은 드뭅니다. rel="nofollow" 링크 속성을 사용하여 개별 링크 에 "nofollow"가 추가되는 것을 보는 것이 더 일반적입니다. 예를 들어, 사용자 생성 댓글이나 유료 링크에 rel=”nofollow” 속성을 추가하는 것을 고려할 수 있습니다.

기본 인덱싱을 다루지 않고 캐싱, 이미지 인덱싱 및 스니펫 처리 등과 같은 동작을 따르는 로봇 태그 지시문에 대한 SEO 사용 사례는 더욱 드뭅니다.

메타 로봇 ​​태그의 문제는 이미지, 비디오 또는 PDF 문서와 같은 HTML이 아닌 파일에 사용할 수 없다는 것입니다. 여기에서 X-Robots-Tags로 전환할 수 있습니다.

X-Robots-Tags란 무엇입니까?

X-Robots-Tag는 .htaccess 및 httpd.conf 파일을 사용하여 주어진 URL에 대한 HTTP 응답 헤더의 요소로 서버에 의해 전송됩니다.

모든 로봇 메타 태그 지시문은 X-Robots-Tag로 지정할 수도 있습니다. 그러나 X-Robots-Tag는 몇 가지 추가적인 유연성과 기능을 제공합니다.

다음을 수행하려는 경우 메타 로봇 ​​태그보다 X-Robots-Tag를 사용합니다.

  • HTML 파일 단독이 아닌 비 HTML 파일에 대한 로봇 동작을 제어합니다.
  • 전체 페이지가 아닌 페이지의 특정 요소에 대한 인덱싱을 제어합니다.
  • 페이지를 인덱싱해야 하는지 여부에 규칙을 추가합니다. 예를 들어, 작성자가 5개 이상의 게시된 기사를 가지고 있는 경우 해당 작성자의 프로필 페이지를 인덱싱하십시오.
  • 페이지별이 아닌 사이트 전체 수준에서 색인을 적용하고 지시문을 따르세요.
  • 정규식을 사용합니다.

같은 페이지에서 메타 로봇과 x-robots-tag를 모두 사용하지 마십시오. 그렇게 하면 중복됩니다.

X-Robots-Tags를 보려면 Google Search Console의 "Fetch as Google" 기능을 사용할 수 있습니다.

로봇 지침 및 SEO

이제 세 가지 로봇 지시문의 차이점을 알게 되었습니다.

robots.txt는 크롤링 예산 절약에 중점을 두고 있지만 검색 결과에 페이지가 표시되는 것을 막지는 않습니다. 웹사이트의 첫 번째 게이트키퍼 역할을 하여 페이지가 요청되기 전에 봇이 액세스하지 않도록 지시합니다.

두 가지 유형의 로봇 태그 모두 인덱싱 및 링크 자산 전달 제어에 중점을 둡니다. 로봇 메타 태그는 페이지가 로드된 후에 만 유효합니다. X-Robots-Tag 헤더는 더 세분화된 제어를 제공 하고 서버가 페이지 요청에 응답한 후에 효과적입니다.

이러한 이해를 바탕으로 SEO는 로봇 지시문을 사용하여 크롤링 및 인덱싱 문제를 해결하는 방식을 발전시킬 수 있습니다.

서버 대역폭을 절약하기 위해 봇 차단

문제: 로그 파일을 분석하면 많은 사용자 에이전트가 대역폭을 차지하지만 가치는 거의 제공하지 않는 것을 볼 수 있습니다.

  • MJ12bot(Majestic의) 또는 Ahrefsbot(Ahrefs의)과 같은 SEO 크롤러.
  • Webcopyer 또는 Teleport와 같이 디지털 콘텐츠를 오프라인으로 저장하는 도구입니다.
  • Baiduspider 또는 Yandex와 같이 귀하의 시장과 관련이 없는 검색 엔진.

차선책: 이러한 스파이더를 robots.txt로 차단하는 것은 존중이 보장되지 않고 다소 공개적인 선언이므로 이해 당사자에게 경쟁력 있는 통찰력을 제공할 수 있습니다.

모범 사례 접근: 사용자 에이전트 차단의 보다 미묘한 지시. 이것은 다양한 방법으로 수행할 수 있지만 일반적으로 .htaccess 파일을 편집하여 원치 않는 스파이더 요청을 403 – 금지 페이지로 리디렉션합니다.

크롤링 예산을 사용하는 내부 사이트 검색 페이지

문제: 많은 웹사이트에서 내부 사이트 검색 결과 페이지는 정적 URL에서 동적으로 생성되며, 이는 크롤링 예산을 소모하고 색인이 생성되는 경우 콘텐츠가 얇거나 중복 콘텐츠 문제를 일으킬 수 있습니다.

차선책: robots.txt가 있는 디렉토리를 허용하지 않습니다. 이는 크롤러 트랩을 방지할 수 있지만 주요 고객 검색에 대한 순위를 지정하고 해당 페이지가 링크 형평성을 통과하도록 하는 능력을 제한합니다.

모범 사례 접근 방식: 관련성이 높은 대량 쿼리를 기존 검색 엔진 친화적인 URL에 매핑합니다. 예를 들어, /search/samsung-phone에 대한 새 페이지를 만드는 대신 "samsung phone"을 검색하면 /phones/samsung으로 리디렉션됩니다.

이것이 불가능한 경우 매개변수 기반 URL을 작성하십시오. 그런 다음 Google Search Console 내에서 매개변수를 크롤링할지 여부를 쉽게 지정할 수 있습니다.

크롤링을 허용하는 경우 해당 페이지가 순위를 매길 만큼 품질이 높은지 분석합니다. 그렇지 않은 경우 "noindex, follow" 지시어를 단기 솔루션으로 추가하고 SEO와 사용자 경험 모두를 지원하기 위해 결과 품질을 개선하는 방법을 전략화하십시오.

로봇으로 매개변수 차단

문제: 패싯 탐색 또는 추적에 의해 생성된 것과 같은 쿼리 문자열 매개변수는 크롤링 예산을 소모하고 중복 콘텐츠 URL을 생성하며 순위 신호를 분할하는 것으로 유명합니다.

차선책: robots.txt 또는 "noindex" 로봇 메타 태그를 사용하여 매개변수 크롤링을 허용하지 않습니다. 둘 다(전자는 즉시, 나중에는 장기간) 링크 자산의 흐름을 방지하기 때문입니다.

모범 사례 접근 방식: 모든 매개변수가 존재해야 하는 분명한 이유가 있는지 확인하고 키를 한 번만 사용하고 빈 값을 방지하는 순서 지정 규칙을 구현합니다. 순위 기능을 결합하기 위해 적절한 매개변수 페이지에 rel=canonical 링크 속성을 추가합니다. 그런 다음 크롤링 기본 설정을 전달하기 위한 보다 세부적인 옵션이 있는 Google Search Console에서 모든 매개변수를 구성합니다. 자세한 내용은 검색 엔진 저널의 매개변수 처리 가이드를 확인하세요.

관리자 또는 계정 영역 차단

문제: 검색 엔진이 개인 콘텐츠를 크롤링하고 인덱싱하지 못하도록 합니다.

차선책: robots.txt를 사용하여 디렉토리를 차단하는 것은 SERP에서 개인 페이지를 보호하지 않는다는 보장이 없기 때문입니다.

모범 사례 접근 방식: 암호 보호를 사용하여 크롤러가 페이지에 액세스하는 것을 방지하고 HTTP 헤더의 "noindex" 지시문을 대체합니다.

마케팅 랜딩 페이지 및 감사 페이지 차단

문제: 종종 전용 이메일 또는 CPC 캠페인 방문 페이지와 같이 자연 검색용이 아닌 URL을 제외해야 합니다. 마찬가지로, 전환하지 않은 사람들이 SERP를 통해 감사 페이지를 방문하는 것을 원하지 않습니다.

차선책: robots.txt가 있는 파일을 허용하지 않으면 링크가 검색 결과에 포함되는 것을 막을 수 없습니다.

모범 사례 접근 방식: "noindex" 메타 태그를 사용합니다.

현장 중복 콘텐츠 관리

문제: 일부 웹사이트는 페이지의 인쇄용 버전과 같이 사용자 경험을 위해 특정 콘텐츠의 복사본이 필요하지만 검색 엔진에서 중복 페이지가 아닌 표준 페이지를 인식하도록 하려고 합니다. 다른 웹사이트에서 중복 콘텐츠는 여러 카테고리 URL에서 판매용으로 동일한 항목을 렌더링하는 것과 같은 잘못된 개발 관행으로 인해 발생합니다.

차선책: robots.txt가 있는 URL을 허용하지 않으면 중복 페이지가 순위 신호를 전달하는 것을 방지합니다. 로봇에 대한 색인 생성은 결국 Google이 링크를 "nofollow"로 취급하여 중복 페이지가 링크 자산을 따라 전달되는 것을 방지합니다.

모범 사례 접근 방식: 중복 콘텐츠가 존재할 이유가 없는 경우 소스를 제거하고 301 검색 엔진 친화적인 URL로 리디렉션합니다. 존재하는 이유가 있다면 rel=canonical link 속성을 추가하여 순위 신호를 통합합니다.

액세스 가능한 계정 관련 페이지의 얇은 콘텐츠

문제: 로그인, 등록, 장바구니, 체크아웃 또는 문의 양식과 같은 계정 관련 페이지는 콘텐츠가 가볍고 검색 엔진에 거의 가치를 제공하지 않지만 사용자에게는 필요합니다.

차선책: robots.txt가 있는 파일을 허용하지 않으면 링크가 검색 결과에 포함되는 것을 막을 수 없습니다.

모범 사례 접근 방식: 대부분의 웹 사이트에서 이러한 페이지의 수는 매우 적어야 하며 로봇 처리 구현의 KPI 영향이 없을 수도 있습니다. 필요하다고 생각되면 해당 페이지에 대한 검색 쿼리가 없는 한 "noindex" 지시어를 사용하는 것이 가장 좋습니다.

크롤링 예산을 사용하여 페이지에 태그 지정

문제: 제어되지 않은 태그 지정은 크롤링 예산을 소모하고 종종 얇은 콘텐츠 문제로 이어집니다.

차선책 솔루션: robots.txt를 허용하지 않거나 "NOINDEX" 태그를 추가하면 SEO 관련 태그의 순위 지정을 방해하고 (즉각적으로 또는 궁극적으로) 링크 자산의 전달을 방지할 수 있습니다.

모범 사례 접근 방식: 현재 태그 각각의 가치를 평가합니다. 데이터에 페이지가 검색 엔진이나 사용자에게 거의 가치를 추가하지 않는 것으로 표시되면 301 리디렉션합니다. 컬링에서 살아남은 페이지의 경우 페이지 요소를 개선하여 사용자와 봇 모두에게 가치가 있도록 합니다.

JavaScript 및 CSS 크롤링

문제: 이전에는 봇이 JavaScript 및 기타 리치 미디어 콘텐츠를 크롤링할 수 없었습니다. 이는 변경되었으며 이제 선택적으로 페이지를 렌더링하기 위해 검색 엔진이 JS 및 CSS 파일에 액세스할 수 있도록 하는 것이 좋습니다.

차선책: 크롤링 예산을 절약하기 위해 robots.txt가 포함된 JavaScript 및 CSS 파일을 허용하지 않으면 색인이 제대로 생성되지 않고 순위에 부정적인 영향을 미칠 수 있습니다. 예를 들어, 광고 전면 광고를 제공하거나 사용자를 리디렉션하는 JavaScript에 대한 검색 엔진 액세스를 차단하는 것은 클로킹으로 보일 수 있습니다.

모범 사례 접근 방식: "Fetch as Google" 도구로 렌더링 문제를 확인하거나 Google Search Console에서 사용할 수 있는 "차단된 리소스" 보고서로 차단된 리소스에 대한 간략한 개요를 확인하세요. 검색 엔진이 페이지를 제대로 렌더링하지 못하도록 차단할 수 있는 리소스가 차단된 경우 robots.txt disallow를 제거하십시오.

온크롤 SEO 크롤러

기업 감사 및 일일 모니터링을 위한 SEO 크롤러. 신뢰할 수 있는 데이터로 유기적 트래픽과 사이트 수익을 늘리십시오.
더 알아보기

모범 사례 로봇 체크리스트

로봇 제어 오류로 인해 Google에서 웹사이트가 실수로 삭제되는 것은 매우 흔한 일입니다.

그럼에도 불구하고 로봇 핸들링은 사용 방법을 안다면 SEO 무기고에 강력한 추가 기능이 될 수 있습니다. 현명하고 신중하게 진행하십시오.

도움을 주기 위해 다음과 같은 간단한 체크리스트를 제공합니다.

  • 비밀번호 보호를 통한 개인정보 보호
  • 서버 측 인증을 사용하여 개발 사이트에 대한 액세스 차단
  • 대역폭을 사용하지만 사용자 에이전트 차단으로 가치를 거의 제공하지 않는 크롤러 제한
  • 기본 도메인 및 모든 하위 도메인에 200 코드를 반환하는 최상위 디렉토리에 "robots.txt"라는 텍스트 파일이 있는지 확인하십시오.
  • robots.txt 파일에 user-agent 행과 disallow 행이 있는 블록이 하나 이상 있는지 확인하십시오.
  • robots.txt 파일에 마지막 줄로 입력된 사이트맵 줄이 하나 이상 있는지 확인하세요.
  • GSC robots.txt 테스터에서 robots.txt 파일의 유효성을 검사합니다.
  • 인덱싱 가능한 모든 페이지가 로봇 태그 지시문을 지정하는지 확인하십시오.
  • robots.txt, 로봇 메타 태그, X-Robots-Tags, .htaccess 파일 및 GSC 매개변수 처리 간에 모순되거나 중복되는 지시문이 없는지 확인합니다.
  • GSC 적용 범위 보고서에서 "제출된 URL이 'noindex'로 표시됨" 또는 "robots.txt에 의해 차단된 제출된 URL" 오류를 수정합니다.
  • GSC 적용 범위 보고서에서 로봇 관련 제외 사유를 이해합니다.
  • GSC "차단된 리소스" 보고서에 관련 페이지만 표시되는지 확인

로봇 핸들링을 확인하고 제대로 하고 있는지 확인하십시오.