순위를 위해 봇 무리와 거미 랭글링을 처리하는 방법?

게시 됨: 2020-01-23

순위를 위해 봇 무리와 거미 랭글링 처리

Google 크롤러는 웹사이트에 게시하는 모든 콘텐츠의 색인을 생성합니다. 이 크롤러는 링크와 코드를 따라 알고리즘에 전달하는 프로그래밍된 소프트웨어입니다. 그런 다음 알고리즘이 이를 인덱싱하고 콘텐츠를 방대한 데이터베이스에 추가합니다. 이렇게 하면 사용자가 키워드를 검색할 때마다 검색 엔진이 이미 인덱싱된 페이지의 데이터베이스에서 관련 결과를 추출하고 순위를 매깁니다.

Google은 모든 웹사이트에 크롤링 예산을 할당하고 크롤러는 그에 따라 사이트의 크롤링을 실행합니다. 전체 웹 사이트의 지능적인 크롤링 및 인덱싱을 보장하려면 크롤링 예산을 관리하고 활용해야 합니다.

이 게시물에서는 검색 엔진 봇/스파이더 또는 크롤러가 웹사이트를 크롤링하고 색인을 생성하는 방법을 처리하는 트릭과 도구에 대해 알아볼 수 있습니다.

1. Robot.txt에 대한 Disallow 지시문 최적화:

로봇.txt

Robots.txt는 거미가 사이트를 크롤링하는 방법을 결정하는 가이드처럼 작동하는 엄격한 구문을 가진 텍스트 파일입니다. robots.txt 파일은 크롤러가 URL을 찾는 웹사이트의 호스트 리포지토리에 저장됩니다. 이러한 Robots.txt 또는 "로봇 제외 프로토콜"을 최적화하기 위해 사이트의 URL이 더 높은 순위를 위해 Google 크롤러에 의해 크롤링되는 데 도움이 될 수 있는 몇 가지 트릭을 사용할 수 있습니다.

이러한 트릭 중 하나는 웹사이트의 특정 섹션에 "제한 구역" 이라는 간판을 붙이는 것과 같은 "Disallow Directive" 를 사용하는 것입니다. Disallow 지시문을 최적화하려면 첫 번째 방어선인 "사용자 에이전트"를 이해해야 합니다.

사용자 에이전트 지시문이란 무엇입니까?

각 Robots.txt 파일은 하나 이상의 규칙으로 구성되며 그 중 사용자-에이전트 규칙이 가장 중요합니다. 이 규칙은 크롤러에게 웹사이트의 특정 목록에 대한 액세스 권한과 액세스 권한을 부여하지 않습니다.

따라서 user-agent 지시문은 특정 크롤러에 주소를 지정하고 크롤링을 실행하는 방법에 대한 지침을 제공하는 데 사용됩니다.

널리 사용되는 Google 크롤러 유형:

금지 지시문:

이제 웹사이트 크롤링에 할당된 봇에 대해 학습한 후 사용자 에이전트 유형에 따라 다양한 섹션을 최적화할 수 있습니다. 웹사이트의 disallow 지시문을 최적화하기 위해 따를 수 있는 몇 가지 필수 트릭과 예는 다음과 같습니다.

- disallow 지시문에 사용할 브라우저에 표시할 수 있는 전체 페이지 이름을 사용하십시오.
- 디렉토리 경로에서 크롤러를 리디렉션하려면 "/" 표시를 사용하십시오.
- 경로 접두사, 접미사 또는 전체 문자열에 *를 사용합니다.

disallow 지시문을 사용하는 예는 다음과 같습니다.

# 예 1: Googlebot만 차단
사용자 에이전트: Googlebot
허용하지 않음: /

# 예 2: Googlebot 및 Adsbot 차단
사용자 에이전트: Googlebot
사용자 에이전트: AdsBot-Google
허용하지 않음: /

# 예 3: AdsBot 크롤러를 제외한 모든 크롤러 차단
사용자 에이전트: *
허용하지 않음: /

2. Robots.txt에 대한 비 인덱스 지시문:

다른 웹사이트가 귀하의 사이트에 링크될 때 크롤러가 색인을 생성하는 것을 원하지 않는 URL이 노출될 가능성이 있습니다. 이 문제를 극복하기 위해 비 인덱스 지시문을 사용할 수 있습니다. 비 인덱스 지시문을 Robots.txt에 적용하는 방법을 살펴보겠습니다.

웹사이트에 비색인 지시문을 적용하는 방법에는 두 가지가 있습니다.

<메타> 태그:

메타 태그는 방문자가 다음에 올 내용을 알 수 있도록 페이지 내용을 간략하게 설명하는 텍스트 스니펫입니다. 크롤러가 페이지를 인덱싱하는 것을 피하기 위해 동일한 것을 사용할 수 있습니다.

먼저 크롤러가 색인을 생성하지 않기를 원하는 페이지의 "<head>" 섹션에 "<meta name= "robots" content=" noindex">" 메타 태그를 추가합니다.

Google 크롤러의 경우 "<head>" 섹션에서 "<meta name="googlebot" content="noindex"/>"를 사용할 수 있습니다.

다른 검색 엔진 크롤러가 귀하의 페이지를 찾을 때 색인이 아닌 지시문을 다르게 해석할 수 있습니다. 이로 인해 귀하의 페이지가 검색 결과에 나타날 수 있습니다.

따라서 크롤러 또는 사용자 에이전트에 따라 페이지에 대한 지시문을 정의하면 도움이 됩니다.
다양한 크롤러에 지시문을 적용하기 위해 다음 메타 태그를 사용할 수 있습니다.
<메타 이름="googlebot" 콘텐츠="noindex">
<메타 이름=”googlebot-news” 콘텐츠=”nosnippet”>

X-로봇 태그:

우리는 위치 또는 제공하는 서버와 같은 웹 페이지와 관련된 추가 정보에 대한 클라이언트 또는 검색 엔진의 요청에 대한 응답으로 사용되는 HTTP 헤더에 대해 모두 알고 있습니다. 이제 비 인덱스 지시문에 대해 이러한 HTTP 헤더 응답을 최적화하기 위해 X-Robots 태그를 웹사이트의 주어진 URL에 대한 HTTP 헤더 응답의 요소로 추가할 수 있습니다.

다양한 X-Robot 태그를 HTTP 헤더 응답과 결합할 수 있습니다. 쉼표로 구분된 목록에 다양한 지시문을 지정할 수 있습니다. 다음은 X-Robots 태그와 결합된 다양한 지시문이 있는 HTTP 헤더 응답의 예입니다.

HTTP/1.1 200 확인
날짜: 2020년 1월 25일 화요일 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: available_after: 2020년 7월 25일 15:00:00 PST
(…)

3. 정식 링크 마스터하기:

오늘날 SEO에서 가장 두려운 요소는 무엇입니까? 순위? 교통? 아니! 검색 엔진이 중복 콘텐츠에 대해 귀하의 웹사이트에 불이익을 주는 것에 대한 두려움입니다. 따라서 크롤링 예산을 전략화하는 동안 중복 콘텐츠가 노출되지 않도록 주의해야 합니다.

여기에서 표준 링크를 마스터하면 중복 콘텐츠 문제를 처리하는 데 도움이 됩니다. 중복 콘텐츠라는 단어는 그것이 의미하는 바가 아닙니다. 전자상거래 웹사이트의 두 페이지를 예로 들어 보겠습니다.

예를 들어, 스마트워치에 대해 동일한 페이지 쌍이 있는 전자 상거래 웹사이트가 있고 둘 다 유사한 콘텐츠를 가지고 있습니다. 검색 엔진 봇이 URL을 크롤링할 때 중복 콘텐츠가 있는지 확인하고 원하는 URL을 선택할 수 있습니다. 귀하에게 필수적인 URL로 리디렉션하기 위해 페이지에 대한 표준 링크를 설정할 수 있습니다. 당신이 그것을 할 수 있는 방법을 보자:

- - 표준 버전에 대해 두 페이지에서 한 페이지를 선택합니다.
  - 더 많은 방문자를 받는 것을 선택하십시오.
  - 이제 비표준 페이지에 rel="canonical"을 추가합니다.
  - 비표준 페이지 링크를 표준 페이지로 리디렉션합니다.
  - 두 페이지 링크를 하나의 표준 링크로 병합합니다.

4. 웹사이트 구성:

크롤러는 사이트의 중요한 URL을 찾는 데 도움이 되는 마커와 간판이 필요하며, 웹사이트를 구성하지 않으면 크롤러가 URL에 대한 크롤링을 실행하기 어렵다는 것을 알게 됩니다. 이를 위해 사이트맵을 사용합니다. 사이트맵이 크롤러에 웹사이트의 모든 중요한 페이지에 대한 링크를 제공하기 때문입니다.

웹사이트 또는 모바일 앱 개발 프로세스를 통해 개발된 앱의 표준 사이트맵 형식은 XML 사이트맵, Atom 및 RSS입니다. 크롤링을 최적화하려면 XML 사이트맵과 RSS/Atom 피드를 결합해야 합니다.

- - XML 사이트맵은 크롤러에게 웹사이트 또는 앱의 모든 페이지에 대한 방향을 제공합니다.
  - 그리고 RSS/Atom 피드는 웹사이트 페이지의 업데이트를 크롤러에 제공합니다.

5. 페이지 탐색:

페이지 탐색은 거미와 웹사이트 방문자에게도 필수적입니다. 이 부츠는 웹사이트에서 페이지를 찾고 사전 정의된 계층 구조는 크롤러가 웹사이트에 중요한 페이지를 찾는 데 도움이 될 수 있습니다. 더 나은 페이지 탐색을 위해 따라야 할 다른 단계는 다음과 같습니다.

- - HTML 또는 CSS로 코딩을 유지합니다.
  - 페이지를 계층적으로 정렬합니다.
  - 더 나은 페이지 탐색을 위해 얕은 웹사이트 구조를 사용하십시오.
  - 헤더의 메뉴와 탭을 최소화하고 구체적으로 유지하십시오.
  - 페이지 탐색이 더 쉬워집니다.

6. 거미 덫 피하기:

스파이더 트랩은 크롤러가 웹사이트를 크롤링할 때 동일한 페이지의 동일한 콘텐츠를 가리키는 무한 URL입니다. 이것은 공백을 쏘는 것과 더 비슷합니다. 결국 크롤링 예산을 소모하게 됩니다. 이 문제는 크롤링할 때마다 확대되며 트랩에서 크롤링되는 모든 URL이 고유하지 않기 때문에 웹사이트에 중복 콘텐츠가 있는 것으로 간주됩니다.

Robots.txt를 통해 섹션을 차단하여 함정을 깨거나 특정 페이지를 차단하기 위해 follow 또는 no follow 지시문 중 하나를 사용할 수 있습니다. 마지막으로 무한 URL의 발생을 중지하여 기술적으로 문제를 해결할 수 있습니다.

7. 연결 구조:

상호 연결은 크롤링 최적화의 필수 부분 중 하나입니다. 크롤러는 웹사이트 전체에서 잘 구성된 링크를 통해 페이지를 더 잘 찾을 수 있습니다. 훌륭한 연결 구조에 대한 몇 가지 핵심 트릭은 다음과 같습니다.

- - 검색 엔진이 쉽게 크롤링할 수 있는 텍스트 링크 사용: <a href="new-page.html">텍스트 링크</a>
  - 링크에 설명 앵커 텍스트 사용
  - 체육관 웹사이트를 운영 중이고 모든 체육관 비디오를 연결하려는 경우 다음과 같은 링크를 사용할 수 있습니다. 모든 <a href="videos.html">체육관 비디오</a>를 자유롭게 탐색하세요.

8. HTML의 축복:

HTML 문서를 정리하고 HTML 문서의 페이로드 크기를 최소화하는 것은 크롤러가 URL을 빠르게 크롤링할 수 있도록 하기 때문에 중요합니다. HTML 최적화의 또 다른 장점은 검색 엔진에 의한 여러 번의 크롤링으로 인해 서버에 과부하가 걸리고 이로 인해 페이지 로드가 느려질 수 있다는 것입니다. 이는 SEO 또는 검색 엔진 크롤링에 좋은 신호가 아닙니다. HTML 최적화는 서버의 크롤링 로드를 줄여 페이지 로드를 신속하게 유지할 수 있습니다. 또한 서버 시간 초과 또는 기타 중요한 문제로 인한 크롤링 오류를 해결하는 데 도움이 됩니다.

9. 간단하게 포함:

오늘날 어떤 웹사이트도 콘텐츠를 백업하는 멋진 이미지와 동영상이 없는 콘텐츠를 제공하지 않습니다. 콘텐츠를 시각적으로 더 매력적으로 만들고 검색 엔진 크롤러가 쉽게 얻을 수 있기 때문입니다. 그러나 이 포함된 콘텐츠가 최적화되지 않으면 로딩 속도가 줄어들어 크롤러가 순위를 매길 수 있는 콘텐츠에서 멀어질 수 있습니다.

여기에서 포함된 콘텐츠의 HTML을 고수하면 검색 엔진에서 더 나은 크롤링을 달성하는 데 도움이 될 수 있습니다. AJAX, Javascript 등과 같은 기술은 새로운 기능을 제공하는 데 매우 능숙하지만 검색 엔진 크롤링을 상당히 까다롭게 만듭니다.

결론:

SEO와 더 높은 트래픽에 더 집중하면서 모든 웹사이트 소유자는 봇 무리와 스파이더 랭글링을 처리하는 더 나은 방법을 찾고 있습니다. 그러나 솔루션은 웹 사이트에서 수행해야 하는 세분화된 최적화와 검색 엔진 크롤링을 보다 구체적으로 만들고 검색 엔진 결과 페이지에서 더 높은 순위를 차지할 수 있는 최고의 웹사이트를 나타내도록 최적화할 수 있는 크롤링 URL에 있습니다.