[Webinar Digest] Orbit의 SEO: 중복 콘텐츠에 대한 새로운 관점

게시 됨: 2019-11-20

웨비나 중복 콘텐츠에 대한 새로운 관점은 SEO in Orbit 시리즈의 마지막 에피소드로 2019년 6월 24일에 방송되었습니다. 이 에피소드에서는 OnCrawl 대사 Omi Sido와 Alexis Sanders와 함께 중복 콘텐츠 문제를 탐구합니다. 그들은 다음과 같은 질문을 다룹니다. 순위 요소와 진화하는 검색 기술이 중복 콘텐츠를 처리하는 방식에 어떤 영향을 줍니까? 그리고: 웹상의 유사한 콘텐츠의 미래는 어떻게 될까요?

SEO in Orbit은 SEO를 우주로 보내는 최초의 웨비나 시리즈입니다. 시리즈 전반에 걸쳐 우리는 최고의 SEO 전문가들과 함께 기술 SEO의 현재와 미래에 대해 논의하고 2019년 6월 27일 최고의 팁을 우주로 보냈습니다.

여기에서 다시보기를 시청하세요.

알렉시스 샌더스를 소개합니다.

Alexis Sanders는 Merkle에서 기술 SEO 계정 관리자로 일하고 있습니다. SEO 기술 팀은 모든 업종에 걸쳐 기관의 기술 권장 사항의 정확성, 실행 가능성 및 확장성을 보장합니다. 그녀는 Moz 블로그의 기고자이자 TechnicalSEO.expert 챌린지 및 SEO 인 랩 팟캐스트의 창시자입니다.

이 에피소드는 Omi Sido가 진행했습니다. Omi는 노련한 국제 연사이며 청중이 즉시 사용할 수 있는 실행 가능한 통찰력을 제공하는 유머와 능력으로 업계에서 유명합니다. 세계 최대의 통신 및 여행 회사와의 SEO 컨설팅부터 HostelWorld 및 Daily Mail의 사내 SEO 관리에 이르기까지 Omi는 복잡한 데이터를 살펴보고 밝은 부분을 찾는 것을 좋아합니다. 현재 Omi는 Canon Europe 및 OnCrawl Ambassador의 수석 기술 SEO입니다.

중복 콘텐츠란 무엇입니까?

Omi는 중복 콘텐츠에 대해 다음 정의를 제공합니다.

동일한(또는 다른) 웹사이트의 다른 URL에 있는 콘텐츠와 유사하거나 거의 유사한 복제 콘텐츠.

중복 콘텐츠 처벌에 대한 신화

중복 콘텐츠 패널티가 없습니다.

이것은 성능 문제입니다. 우리는 봇이 두 개의 특정 URL을 보고 나란히 순위가 매겨질 수 있는 두 개의 다른 콘텐츠라고 생각하는 것을 원하지 않습니다.

Alexis는 귀하의 웹사이트에 대한 봇의 이해를 내가 당신에 대해 싫어하는 10가지에 대한 Joey의 사진과 비교합니다. 봇이 두 버전 간의 실질적인 차이점을 찾는 것은 불가능합니다.

검색 엔진 순위 상황에서 서로 경쟁해야 하는 똑같은 두 가지를 피하고 싶을 것입니다. 대신 검색 엔진에서 순위를 매기고 수행할 수 있는 통합된 단일 경험을 원합니다.

사용자와 봇이 보는 것의 차이점

사용자는 하나의 설득력 있는 URL을 볼 수 있지만 봇은 여전히 본질적으로 동일하게 보이는 여러 버전을 볼 수 있습니다.

– 매우 큰 사이트의 크롤링 예산에 미치는 영향

Zillow 또는 Walmart와 같이 매우 큰 사이트의 경우 크롤링 예산은 페이지마다 다를 수 있습니다.

Alexis는 SMX East의 Frederic Dubut 프레젠테이션을 기반으로 한 2018년 기사에서 논의한 바와 같이 예산은 다양한 수준(서브 도메인 수준, 다양한 서버 수준)으로 설정됩니다. Google이든 Bing이든 검색 엔진은 정중한 크롤러를 원합니다. 그들은 실제 사용자의 성능을 저하시키고 싶지 않습니다. 그들은 성능의 변화를 감지할 때마다 뒤로 물러날 것입니다. 이는 사이트 수준뿐만 아니라 다양한 수준에서 발생할 수 있습니다.

대규모 사이트가 있는 경우 사용자와 관련된 가장 통합된 경험을 제공하고 싶습니다.

중복 콘텐츠는 콘텐츠입니까, 아니면 기술적인 문제입니까?

"중복 콘텐츠"에 "콘텐츠"라는 단어가 있음에도 불구하고 부분적으로는 기술적인 문제입니다.

– 복제 소스 – [07:50]

중복을 일으킬 수 있는 많은 요인이 있습니다. 부분 목록조차도 영원히 계속되는 것처럼 보일 수 있습니다.

반복되는 페이지
스테이징 사이트
HTTP 대 HTTPS URL
다른 하위 도메인
다른 경우
다른 파일 확장자
후행 슬래시
색인 페이지
URL 매개변수
패싯
정렬
프린터 친화적인 버전
출입구 페이지
목록
신디케이트된 콘텐츠
홍보 자료
콘텐츠 재게시
표절된 콘텐츠
현지화된 콘텐츠
얇은 콘텐츠
이미지만
내부 사이트 검색
별도의 모바일 사이트
고유하지 않은 콘텐츠
…

– 기술적 SEO와 콘텐츠 간의 문제 배포

실제로 이러한 중복 콘텐츠 소스는 기술 및 개발 소스와 콘텐츠 기반 소스로 나눌 수 있으며 일부는 둘 사이의 중첩 영역에 속합니다.

이로 인해 중복 콘텐츠가 팀 간 문제가 되며 이것이 흥미로운 이유 중 하나입니다.

중복 콘텐츠를 찾는 방법

대부분의 중복 콘텐츠는 의도하지 않은 것입니다. Omi의 경우 이는 중복 콘텐츠를 찾고 수정하는 데 콘텐츠와 기술 팀 간에 공동 책임이 있음을 나타냅니다.

– Omi가 가장 좋아하는 도구: Grammarly

Grammarly는 중복 콘텐츠를 찾는 데 Omi가 가장 좋아하는 도구이며 SEO 도구도 아닙니다. 그는 표절 검사기를 사용합니다. 그는 콘텐츠 게시자에게 새로운 콘텐츠가 이미 다른 곳에 게시되었는지 확인하도록 요청합니다.

– 의도하지 않은 중복 콘텐츠의 양

의도하지 않은 중복 콘텐츠 문제는 엔지니어에게 매우 친숙한 문제입니다. 확실히 시대에 뒤떨어진 정보 검색 입문(2008)이라는 책에서 그들은 당시 웹의 약 40%가 복제된 것으로 추정했습니다.

– 중복 콘텐츠에 대한 우선순위 전략

중복 콘텐츠를 처리하려면 다음을 수행해야 합니다.

사용자 여정을 아는 것으로 시작하면 모든 콘텐츠가 어디에 속하는지 이해하는 데 도움이 됩니다. 특히 웹 사이트가 20년 전에 만들어졌을 때 웹 사이트가 얼마나 커질지 또는 어떻게 확장될지 알지 못했을 때 이 작업은 매우 어려울 수 있습니다. 사용자가 여정의 특정 시점에 어디에 있는지 알면 다음 단계에서 우선 순위를 정하는 데 도움이 됩니다.
각 콘텐츠 유형에 대한 장소를 제공하려면 작동하는 계층 구조가 필요합니다. 정보 아키텍처를 이해하는 것은 중복 콘텐츠를 처리하는 단계에서 매우 중요합니다.
성능에 영향을 미치는 중복 콘텐츠의 우선 순위를 지정합니다. 위 소스의 일부 목록은 현실적으로 한 번에 모두 공격할 수 있는 항목이 너무 깁니다.
100% 중복 처리
신호 중복 콘텐츠
복제 처리 방법에 대한 전략적 선택: 통합, 생성, 삭제, 최적화
도난된 콘텐츠 처리

– 도구: OnCrawl에서 세분화 사용

Alexis는 OnCrawl에서 웹사이트를 분할하는 기능을 정말 좋아합니다.

페이지 유형에 따라 중복되는 양이 다릅니다. 이렇게 하면 가장 많은 문제가 있는 섹션을 볼 수 있습니다. 위의 예에서 사이트는 많은 주의가 필요합니다.

– 도구: Google 검색 및 GSC

검색 엔진 자체를 사용하여 중복 콘텐츠를 확인할 수도 있습니다. Google에서는 다음을 수행할 수 있습니다.

직접 인용문 사용
사이트 사용: 검색
inurl:, intitle: 또는 filetype과 같은 추가 연산자 사용:

Google Search Console은 또한 중복 콘텐츠 보고서를 추가했는데, 이는 Google이 자신의 쪽에서 중복 콘텐츠로 생각하는 것을 식별하는 데 매우 유용합니다.

– 도구: 표절 도구

Omi와 마찬가지로 Alexis도 다양한 표절 도구를 사용합니다.
쿼리문
노플래그
페이퍼 레이터
문법적으로
카피스케이프

콘텐츠가 원본일 뿐만 아니라 봇의 관점에서도 다른 소스에서 가져온 것으로 인식되지 않도록 하고 싶습니다.

또한 인터넷의 다른 곳에서 콘텐츠와 유사할 수 있는 기사 내 세그먼트를 찾는 데 도움이 될 수 있습니다.

Alexis는 우리 중 누구도 로봇이 아니기 때문에 "검색 엔진 봇에 공감"할 수 있는 도구가 있다는 것을 좋아합니다. 도구가 콘텐츠가 너무 유사하다는 신호를 보내면 차이점이 있음을 알고 있더라도 거기에 파고들 것이 있다는 좋은 신호입니다.

– 도구: 키워드 밀도 도구

Alexis가 사용하는 키워드 밀도 도구의 두 가지 예는 다음과 같습니다.
태그크라우드
SEO북

사이트 유형에 따른 문제

중복 콘텐츠를 해결하는 것은 게시하는 콘텐츠 유형과 직면한 문제 유형에 따라 다릅니다. 예를 들어 블로그는 전자 상거래 사이트와 같은 중복 콘텐츠 사례에 직면하지 않습니다.

기억에 남는 사례

Alexis는 기억에 남는 중복 콘텐츠 문제를 발견한 최근 고객 사례를 공유합니다.

– 대규모 사이트: 고유한 콘텐츠를 추가한 결과

이 사이트는 대규모로 크롤링 예산 문제가 발생했습니다. 아직 인덱싱되지 않은 8,600만 페이지가 있으며 페이지의 약 1%만 인덱싱되었습니다.

이것은 부동산 사이트이므로 콘텐츠의 많은 부분이 특별히 고유하지 않으며 많은 페이지가 매우 매우 유사합니다. Alexis는 페이지를 차별화하기 위해 위치별 정보를 추가하기 위해 페이지에 콘텐츠를 추가했습니다. 이것이 얼마나 빨리 결과를 만들어 냈는지 놀랍습니다. (이것은 구글의 유기적 데이터일 뿐입니다.)

Alexis의 경우 이것은 매우 일반적인 사례 연구입니다. 오늘날 우리가 EAT 및 이와 유사한 것에 대해 이야기하는 만큼, 이것은 검색 엔진이 콘텐츠를 독특하고 가치 있는 것으로 보자마자 여전히 보상을 받고 있음을 보여줍니다.

이 사이트에서 우발적인 표준 태그 문제로 인해 약 250페이지가 잘못된 프로토콜로 전송되었습니다.

이것은 표준 태그가 잘못된 기본 페이지를 표시하여 HTTPS 페이지 대신 HTTP 페이지를 푸시하는 한 가지 경우입니다.

지난 18개월 동안의 변화

Alexis는 이 웹 세미나가 시작되기 약 18개월 전에 매우 완전한 기사인 중복 콘텐츠 및 전략적 해결을 작성했습니다. SEO는 빠르게 변화하며 지식을 지속적으로 갱신하고 재평가해야 합니다.

Alexis의 경우 기사에 언급된 대부분의 내용은 rel=next/prev를 제외하고 오늘날에도 여전히 관련이 있습니다. 그러나 그녀는 그것이 향후 5년에서 10년 이내에 관련성이 없어지기를 희망합니다.

개발자가 처리하는 기술 문제: 너무 수동

개발자가 처리하는 중복 콘텐츠와 관련된 많은 문제는 너무 수동적입니다. Alexis는 CMS와 Adobe에서 대신 처리해야 한다고 생각합니다. 예를 들어 수동으로 처리할 필요가 없으며 모든 표준이 설정되고 일관성이 있는지 확인해야 합니다.

– 자동화/통지 기회

중복 콘텐츠와 관련된 기술 문제 영역에서 자동화의 기회가 많습니다. 예를 들자면 HTTPS로 가야 할 링크가 HTTP로 가는지 즉시 감지하고 수정할 수 있어야 합니다.

– 사이트 연령 및 레거시 인프라를 장애물로

일부 백엔드 시스템은 특정 변경 및 자동화를 지원하기에는 너무 오래되었습니다. 기존 CMS를 새 CMS로 마이그레이션하는 것은 매우 어렵습니다. Omi는 Canon의 웹사이트를 새로운 맞춤형 CMS로 마이그레이션하는 예를 보여줍니다. 비용이 많이 들었을 뿐만 아니라 12개월이 걸렸습니다.

중복 콘텐츠 관리의 미래에 대한 희망

미래에 대한 Alexis의 희망:

기술 기반 중복 콘텐츠가 적습니다 (CMS가 현명해짐에 따라).
더 많은 자동화 (단위 테스트 및 외부 테스트). 예를 들어 OnCrawl과 같은 도구는 정기적으로 사이트를 크롤링하고 특정 오류를 발견하는 즉시 알려줄 수 있습니다.
작가와 콘텐츠 관리자를 위해 유사도가 높은 페이지와 페이지 유형을 자동으로 감지합니다. 이렇게 하면 현재 Grammarly와 같은 도구에서 수동으로 수행되는 확인 중 일부가 자동화됩니다. 누군가 게시하려고 하면 CMS에서 "이와 비슷합니다. 정말 게시하시겠습니까?"라고 말해야 합니다. 단일 웹사이트와 교차 웹사이트 비교를 살펴보는 것은 많은 가치가 있습니다.
Google은 기존 시스템과 탐지 기능을 계속 개선하고 있습니다.
아마도 올바른 표준을 사용하지 않는 Google의 문제를 에스컬레이션하기 위한 경고 시스템일 것입니다. Google에 문제를 알리고 문제를 해결할 수 있으면 유용할 것입니다.

우리는 더 나은 도구와 더 나은 내부 도구가 필요하지만 Google이 시스템을 개발함에 따라 우리를 조금 도와줄 요소를 추가할 것입니다.

Alexis가 가장 좋아하는 기술 트릭

Alexis는 몇 가지 좋아하는 기술 트릭을 가지고 있습니다.

EC2 원격 컴퓨터 인스턴스. 이것은 매우 큰 크롤링 또는 많은 컴퓨팅 성능이 필요한 모든 작업을 위해 실제 컴퓨터에 액세스하는 정말 좋은 방법입니다. 일단 설정하면 매우 빠릅니다. 비용이 많이 들기 때문에 완료되면 종료해야 합니다.
모바일 퍼스트 테스트 도구를 확인하세요. Google은 이것이 그들이 보고 있는 것의 가장 정확한 사진이라고 언급했습니다. DOM을 살펴봅니다.
사용자 에이전트를 Googlebot으로 전환합니다. 이렇게 하면 Googlebot이 실제로 보고 있는 것이 무엇인지 알 수 있습니다.
TechnicalSEO.com의 robots.txt 도구 사용. 이것은 Merkle의 도구 중 하나이지만, robots.txt가 때때로 정말 혼란스러울 수 있기 때문에 Alexis는 그것을 정말 좋아합니다.
로그 분석기를 사용하십시오.
Love의 htaccess 검사기로 만들었습니다.
Google 데이터 스튜디오를 사용하여 변경사항 보고(업데이트와 스프레드시트 동기화, 관련 업데이트로 각 페이지 필터링).

기술적 SEO 어려움: robots.txt

Robots.txt는 정말 혼란스럽습니다.

RegEx를 지원할 수 있어야 하지만 지원하지 않는 오래된 파일입니다.
혼동될 수 있는 허용 및 허용 규칙에 대한 우선 순위 규칙이 다릅니다.
서로 다른 봇은 서로 다른 것을 무시할 수 있지만 그렇게 해서는 안 됩니다.

옳은 것에 대한 당신의 가정이 항상 옳은 것은 아닙니다.

Q&A

– HSTS: 분할 프로토콜이 필요합니까?

HSTS가 있는 경우 중복 콘텐츠에 대한 모든 HTTPS가 있어야 합니다.

– 번역된 콘텐츠가 중복 콘텐츠인가요?

종종 hreflang을 사용할 때 미국 및 아일랜드 영어 페이지와 같이 동일한 언어 내에서 현지화된 버전을 명확하게 하기 위해 hreflang을 사용합니다. Alexis는 이 중복 콘텐츠를 고려하지 않을 것이지만, 이것이 동일한 경험이고 다양한 청중에게 최적화되어 있음을 나타내도록 hreflang 태그가 올바르게 설정되어 있는지 확인하는 것이 좋습니다.

– HTTP/HTTPS 마이그레이션을 위해 301 리디렉션 대신 표준 태그를 사용할 수 있습니까?

SERP에서 실제로 무슨 일이 일어나고 있는지 확인하는 것이 유용할 것입니다. Alexis의 본능은 이것이 괜찮을 것이라고 말하는 것이지만 Google이 실제로 어떻게 행동하는지에 달려 있습니다. 이상적으로는 이것이 정확히 동일한 페이지라면 301을 사용하고 싶지만 그녀는 과거에 이러한 유형의 마이그레이션에 대해 표준 태그가 작동하는 것을 보았습니다. 그녀는 실제로 이것이 우연히 일어나는 것을 보았습니다.

Omi의 경험에 따르면 그는 문제를 피하기 위해 301을 사용할 것을 강력히 제안합니다. 웹 사이트를 마이그레이션하는 경우 현재 및 미래의 오류를 피하기 위해 올바르게 마이그레이션하는 것이 좋습니다.

– 페이지 제목 중복 효과

다른 위치에 대해 매우 유사한 제목이 있지만 내용이 매우 다르다고 가정해 보겠습니다. 그것이 Alexis에게 중복되는 콘텐츠는 아니지만 그녀는 검색 엔진이 이것을 "전체적인" 유형의 것으로 취급하고 제목은 가능한 문제가 있는 영역을 식별하는 데 사용할 수 있는 것으로 봅니다.

여기에서 [site: + intitle: ] 검색을 사용할 수 있습니다.

그러나 동일한 제목 태그가 있다고 해서 중복 콘텐츠 문제가 발생하지는 않습니다.

페이지가 매겨진 페이지나 기타 매우 유사한 페이지에서도 고유한 제목과 메타 설명을 계속 목표로 삼아야 합니다. 이것은 중복 콘텐츠 때문이 아니라 SERP에서 페이지를 표시하는 방법을 최적화하려는 방식과 관련이 있습니다.

최고 팁

"중복 콘텐츠는 기술 및 콘텐츠 마케팅 과제입니다."

Orbit의 SEO는 우주로 갔다

6월 27일의 우주 여행을 놓쳤다면 여기에서 포착하고 우리가 우주로 보낸 모든 정보를 알아보세요.