Robots.txt란 무엇인가: 정의, 중요성 및 예
게시 됨: 2022-07-14Google이 웹사이트와 인터넷 페이지를 크롤링한 다음 검색 결과 페이지에 표시하는 것에 대해 들어보셨을 것입니다.
글쎄요, robots.txt는 어떤 사이트가 알고리즘을 따르고 있고 어떤 사이트가 그렇지 않은지를 Google에 알려줍니다. 이 가이드에서는 robots.txt, 예제 및 작동 방식에 대해 알아야 할 모든 것을 공유했습니다.
Robots.txt는 무엇입니까?
Robots.txt는 웹 로봇(일반적으로 검색 엔진 로봇)이 도메인의 페이지를 크롤링하도록 안내하는 웹마스터의 텍스트 파일입니다. 즉, robots.txt 파일은 봇에 대한 지침 집합입니다.
Robots.txt는 대부분의 웹사이트에 대한 소스 코드에 포함되어 있습니다.
robots.txt 파일은 REP(로봇 제외 프로토콜)의 일부입니다. 로봇이 웹 페이지를 크롤링하고 콘텐츠를 찾고 색인을 생성하며 원하는 사람들에게 해당 정보를 제공하는 방법을 정의합니다.
Robots.txt는 검색 엔진 봇이 사이트에서 크롤링해야 하는 URL을 이해하는 데 도움이 됩니다.
Robots.txt가 중요한 이유는 무엇입니까?
how.txt가 도움이 되는 데에는 주로 세 가지 이유가 있습니다.
- 크롤링 예산 최대화: 크롤링 예산은 일정 기간 동안 Google 봇이 색인을 생성하는 페이지 수입니다. Robots.txt는 중요하지 않거나 중복된 콘텐츠 페이지를 차단하고 중요한 페이지에만 집중하여 크롤링 예산을 최대화하고 가시성을 높일 수 있습니다.
- 리소스 인덱싱 방지: Robots.txt는 PDF 또는 이미지와 같은 리소스를 인덱싱하거나 인덱스를 해제할 수 있습니다. 따라서 noindex 또는 암호로 보호된 페이지를 사용하여 페이지나 리소스를 차단할 수 있습니다. Google 검색 콘솔을 사용하여 색인이 생성된 페이지를 확인하고 색인을 생성하려는 페이지를 봇이 크롤링하는지 확인할 수 있습니다.
- 중요하지 않은 페이지 차단: 웹사이트에 Google 검색 결과에 표시하고 싶지 않은 페이지가 있습니다. 로그인 페이지 또는 웹사이트의 준비/테스터 버전일 수 있습니다. robots.txt를 사용하면 이러한 페이지를 차단하고 중요한 페이지에만 집중할 수 있습니다.
Robots.txt 예제
robots.txt의 몇 가지 예는 다음과 같습니다.
사용자 에이전트: Googlebot
허용하지 않음: /nogooglebot/
사용자 에이전트: *
허용하다: /
사이트맵: http://www.example.com/sitemap.xml
마찬가지로 Bing 검색 엔진의 경우 다음과 같이 진행됩니다.
사용자 에이전트: Bingbot
허용하지 않음: /example-subfolder/blocked-page.html
구문은 크롤러가 특정 페이지의 크롤링을 방지하는 데 도움이 됩니다.
각 하위 도메인에는 자체 robots.txt 파일이 필요합니다.
예를 들어 www.cloudflare.com에는 자체 파일이 있지만 모든 Cloudflare 하위 도메인(blog.cloudflare.com, community.cloudflare.com 등)에는 자체 파일도 필요합니다.
Robots.txt 파일은 어떻게 작동합니까?
robots.txt 파일은 색인이 생성되지 않은 페이지 또는 robots txt가 봇 프로그램에 의해 사이트의 전체 또는 특정 부분을 허용하지 않는 것과 같은 여러 검색 엔진 최적화(SEO) 기술을 구현하는 데 사용할 수 있습니다.
이 표준은 자동 웹 크롤러를 사용하는 검색 및 페이지 순위 소프트웨어와 같은 자동화된 프로세스를 통해 스파이더가 콘텐츠를 인덱싱하는 것을 방지하려는 사이트에 특히 유용합니다.
robots.txt는 HTML 마크업 코드가 없는 파일입니다. 웹 사이트의 다른 파일과 마찬가지로 웹 서버에서 호스팅됩니다.
홈페이지 URL 다음에 /robots.txt를 입력하면 접속할 수 있습니다. 일반적인 예는 https://www.xyz.com/robots.txt입니다.
파일이 사이트의 다른 곳에 연결되어 있지 않기 때문에 방문자는 파일을 발견할 가능성이 거의 없지만 대부분의 웹 크롤러 봇은 사이트의 나머지 부분을 인덱싱하기 전에 파일을 찾습니다.
Google 크롤러 또는 뉴스 피드 봇과 같은 우수한 봇은 사이트의 다른 페이지를 검사하기 전에 먼저 robots.txt 파일을 읽고 지침을 따릅니다.
악성 봇은 robots.txt 파일을 무시하거나 처리하여 금지된 웹 페이지를 찾습니다.
Robots.txt 차단
Robots.txt는 크롤러가 특정 콘텐츠가 있는 페이지에 액세스하는 것을 방지하기 위해 Googlebot이 색인을 생성한 검색 가능한 웹사이트의 차단 규칙을 로봇에 알리는 지침으로 구성되어 있습니다.
크롤링하지 않고 사이트를 탐색하는 일반 사용자나 봇에는 영향을 미치지 않습니다.
시간이 지남에 따라 웹 사이트는 이미지와 같은 일부 요소를 계속 허용하면서 이 방법을 사용하여 모바일 앱, JavaScript 및 사이트의 다른 부분을 차단했습니다.
Robots.txt 파일에는 어떤 프로토콜이 사용됩니까?
프로토콜은 네트워킹에서 명령이나 명령을 전송하기 위한 형식입니다. Robots.txt 파일은 다양한 프로토콜을 사용합니다. 기본 프로토콜은 로봇 제외 프로토콜로 알려져 있습니다.
피해야 할 웹사이트와 리소스를 봇에 알려줍니다.
사이트맵 프로토콜은 robots.txt 파일에 사용되는 또 다른 프로토콜입니다. 이것은 로봇 포함을 위한 프로토콜로 생각할 수 있습니다.
Sitemap은 웹 크롤러에게 액세스할 수 있는 페이지를 알려줍니다. 이는 크롤러 봇이 중요한 페이지를 간과하지 않도록 하는 데 도움이 됩니다.
사이트맵이란 무엇입니까?
사이트맵은 웹 크롤러가 사이트 페이지를 표시하는 데 사용하는 정보를 설명하는 XML 파일입니다. 사이트맵은 제목과 설명, 기타 관련 정보를 포함하여 웹사이트의 모든 URL을 나열합니다.
이 문서는 방문자가 검색 엔진이나 다른 탐색 시스템을 사용하여 빠르게 찾을 수 있도록 검색 엔진이 이러한 항목을 올바르게 색인화하는 데 도움이 됩니다.
사용자 에이전트란 무엇입니까?
사용자 에이전트 사용자 에이전트: *disallow: /nogooglebot/ 사용자 에이전트 사용자 에이전트: Googlebot
사용자 에이전트에 관계없이 모든 robots.txt 규칙을 허용하지 않습니다. 이렇게 하면 웹 크롤러가 사이트에 액세스하는 것을 방지할 수 있습니다. 이것은 개인 정보 보호 문제에 민감한(따라서 사용자 데이터가 노출되는 것을 원하지 않는) 웹 사이트에서 가장 자주 사용됩니다.
일반적인 검색 엔진 봇 사용자 에이전트 이름은 다음과 같습니다.
구글 :
- 구글봇
- Googlebot-Image(이미지용)
- Googlebot-뉴스(뉴스용)
- Googlebot-Video(동영상용)
빙:
- 빙봇
- MSNBot-Media(이미지 및 비디오용)
바이두:
- 바이두스파이더
.txt 파일이란 무엇입니까?
TXT는 많은 텍스트 편집기에서 지원하는 텍스트 파일 확장자입니다.
ASCII(교차 플랫폼 형식) 및 ANSI(DOS 및 Windows 플랫폼에서 사용)를 포함하여 몇 가지 널리 사용되는 형식이 있지만 텍스트 파일에 대한 이러한 정적 정의는 없습니다. TXT는 TeXT의 약자입니다. Text/plain은 MIME 유형입니다.
텍스트 파일 robots.txt에서 각 규칙은 모든 크롤러 또는 지정된 크롤러만 액세스할 수 있는 URL 패턴을 지정합니다.
각 줄은 단일 콜론(:)으로 시작해야 하며 빈 줄을 무시하고 1-3줄을 포함해야 합니다. 각 줄은 파일 이름으로 해석되며 파일이 있는 디렉터리에 대해 절대적이거나 상대적일 수 있습니다.
웹 로봇은 Robots.txt와 동일합니까?
일부 검색 엔진은 txt 지시문을 지원하지 않을 수 있습니다.
robots.txt 파일의 지침은 크롤러가 귀하의 사이트를 방문하도록 강제할 수 없습니다. 따라가는 것은 크롤러의 몫입니다. 대조적으로 Googlebot 및 기타 잘 알려진 웹 크롤러는 robots.txt 파일의 규칙을 따릅니다.
Robots.txt를 구현하는 방법?
robots.txt 파일은 거의 모든 텍스트 편집기에서 구현할 수 있습니다. 예를 들어 메모장, TextEdit, vi 및 emacs는 모두 합법적인 robots.txt 파일을 생성할 수 있습니다.
robots.txt를 따라야 하는 규칙은 다음과 같습니다.
- 파일 이름은 robots.txt여야 합니다.
- robots.txt 파일을 사용하여 하위 도메인(예: https://website.example.com/robots.txt) 또는 비표준 포트에 대한 액세스를 제한할 수 있습니다.
- robots.txt 파일은 UTF-8 형식(ASCII 포함)이어야 합니다. Google은 UTF-8 범위가 아닌 문자를 거부하여 잠재적으로 robots.txt 규정을 무효화할 수 있습니다.
- robots.txt 파일은 일반적으로 해당 파일이 적용된 웹사이트 호스트의 루트 디렉터리에 있습니다. https://www.example.com/과 같은 모든 URL에서 크롤링을 활성화하려면 https://www.example.com/robots.txt에서 robots.txt 파일을 찾아야 합니다. 하위 디렉토리(예: https://example.com/pages/robots.txt)에 배치할 수 없습니다.
Robots.txt 파일의 제한 사항
robots.txt 파일의 제한 사항은 다음과 같습니다.
- 모든 검색 엔진은 Robots.txt를 지원하지 않습니다. Robots.txt 파일은 크롤러가 귀하의 사이트를 방문하도록 강제할 수 없습니다. 따라가는 것은 크롤러의 몫입니다. Googlebot 및 기타 신뢰할 수 있는 웹 크롤러는 robots.txt 파일의 지침을 따르지만 다른 크롤러는 그렇지 않을 수 있습니다.
- 크롤러마다 구문을 다르게 해석합니다. 평판이 좋은 웹 스파이더는 robots.txt 파일의 지시문을 따르지만 각 크롤러는 지시문을 다르게 해석할 수 있습니다.
- 허용되지 않는 페이지는 다른 페이지에 연결되어 있는 경우 색인을 생성할 수 있습니다. Google은 robots.txt 파일이 제한한 콘텐츠를 크롤링하거나 색인을 생성하지 않지만 인터넷의 다른 위치에서 링크된 경우 허용되지 않는 URL을 찾아 색인을 생성할 수 있습니다.
결과적으로 URL 주소 및 페이지 링크의 앵커 텍스트와 같이 공개적으로 사용 가능한 기타 정보가 Google 검색 결과에 계속 나타날 수 있습니다.
자주하는 질문
Q1. robots.txt는 사이트에서 어디로 이동합니까?
답변: robots.txt 파일은 일반적으로 웹사이트의 루트 디렉토리에 위치하지만 액세스를 제한하려는 사이트의 어느 위치에나 있을 수 있습니다.
Q2. robots.txt 파일이 필요한가요?
답변: 짧은 대답은 아니오입니다. robots.txt 파일은 웹사이트에 필요하지 않습니다. 봇이 웹사이트를 방문하는데 robots.txt 파일이 없으면 평소처럼 페이지를 크롤링하고 색인을 생성합니다. .txt 파일은 크롤링되는 항목을 더 자세히 제어하려는 경우에만 필요합니다.
Q3. robots.txt는 안전한가요?
답변: robots.txt 파일은 그 자체로 보안 위험이 아니며 적절하게 사용하는 것은 비보안상의 이유로 모범 사례가 될 수 있습니다. 모든 웹 로봇이 파일의 지침을 따를 것이라고 기대해서는 안 됩니다.
Q4. robots.txt에 액세스하는 것은 불법인가요?
답변: robots.txt 파일은 웹사이트 소유자가 암시하는 라이선스입니다. robots.txt 파일을 알고 있다면 허가 없이 사이트를 계속 스크랩하는 것은 무단 액세스 또는 해킹으로 볼 수 있습니다.
Q5. robots txt의 크롤링 지연이란 무엇입니까?
답변: crawl-delay 지시문은 웹 서버에 과부하가 걸리지 않도록 크롤러에 속도를 늦추도록 지시하는 방법입니다.
결론
Robots.txt는 강력한 기능을 가진 간단한 파일입니다. 사용법을 잘 알면 SEO에 도움이 될 수 있습니다. 올바른 유형의 robots.txt를 생성하면 SEO 및 사용자 경험도 향상됩니다.
봇이 올바른 것을 크롤링하도록 허용하면 봇이 원하는 방식으로 SERP에 콘텐츠를 표시할 수 있습니다.
SEO 및 중요한 요소에 대해 더 자세히 알고 싶다면 다른 많은 Scalenut 블로그를 확인하십시오.