Vincent Terrasi: 유용한 콘텐츠 업데이트의 중요성

게시 됨: 2022-08-26

유용한 콘텐츠 알고리즘 업데이트란 무엇입니까?

지난주 Google은 현재 출시되고 있는 유용한 콘텐츠를 홍보하여 ​​검색 결과의 품질을 향상시키려는 알고리즘 업데이트의 출시를 발표했습니다. 이 업데이트는 처음에 영어 웹사이트에만 적용되며 사이트에 상당한 양의 도움이 되지 않는 콘텐츠가 있는 경우 전체 사이트의 콘텐츠 가치를 평가절하할 수 있습니다.

EAT와 마찬가지로 "유용한"이라는 개념은 구체적인 측정 기준으로 쉽게 수량화할 수 없습니다. 알고리즘은 기계 학습에 의존하여 도움이 되지 않는 콘텐츠를 식별합니다.

EAT 및 알고리즘 업데이트를 전문으로 하는 숙련된 SEO는 이미 알려진 내용과 유용한 콘텐츠 업데이트에 대한 대응 방법을 자세히 분석했습니다. Marie Haynes, Glenn Gabe 및 Lily Ray의 분석은 읽을 가치가 있습니다.

논의를 더 진행하기 위해 저는 BERT 및 GPT-3과 같은 기계 학습 및 언어 모델에 중점을 둔 데이터 SEO 전문가이자 Oncrawl의 제품 이사인 Vincent Terrasi와 이야기를 나눴습니다.

Vincent Terrasi와의 인터뷰

Vincent-Terrasi

“순수한 인공지능 콘텐츠가 부자연스럽다고 판단할 수 있어 불이익을 받게 됩니다. 그러나 다른 한편으로 이러한 유용한 콘텐츠 개념 뒤에는 SERP를 기반으로 하는 모든 새로운 의미론적 도구에 부정적인 영향을 미칠 수 있는 또 다른 주제가 있습니다. Google은 마침내 과도한 최적화, 즉 Google에서 순위를 매기기 위한 완벽한 발자국을 리버스 엔지니어링하는 사람을 감지할 수 있게 될 것입니다.”

콘텐츠 분석 및 최적화 초과 감지: 유용한 콘텐츠 업데이트가 실제로 변경하는 사항

Rebecca: Tech SEO Boost 2019에서 2위를 차지한 SEO의 텍스트 생성, 영향 및 위험에 대해 이야기한 당신의 작업의 다양한 요소가 계속 생각납니다. 우리는 또한 주제, 특히 Google이 BERT를 출시했을 때 다음 단계와 기계 학습을 통해 텍스트 분석을 일반화할 수 있는 방법에 대해 논의했습니다. 이 경우 분류와 그 위에 의미론적 분석과 같은 것입니다. 그것이 당신이 그것으로부터 얻는 것이기도 합니까? 이 업데이트가 놀랍습니까?

Vincent: 네, SEO Boost Tech에서 제가 발표한 내용입니다. [Google]이 이러한 유형의 콘텐츠를 추적할 것이라고 밝혔습니다.

저는 Oncrawl에서 텍스트 생성에 관심이 있는 고객에게 생성된 콘텐츠에 주의해야 하는 이유를 계속해서 말하고 있습니다.

AI(인공 지능) 생성 콘텐츠에 대해 이야기할 때는 주의해야 합니다. 도움이 되는 콘텐츠 업데이트에서는 직접 조치로 이어지는 유형처럼 보일 수 있지만 직접 조치에 대해 이야기하지 않습니다. AI 생성 사이트에 대한 최근 뉴스를 본 적이 있을 수 있으며, 저는 이를 수동 조치로 분류할 것입니다. 이것은 3개월 전이었습니다. 한 달에 $100,000를 번다고 말한 사이트가 있는 강력한 수동 조치가 있었습니다. 그들은 모두 색인이 해제되었습니다. 수동 작업입니다.

이제 부가가치가 없는 텍스트인지 식별할 수 있는 기계 학습 모델이 포함된 이 업데이트가 있습니다. 그래서 저는 AI가 아니라 부가 가치가 없는 콘텐츠가 있거나 없는 사이트에 대해 이야기하고 싶습니다.

Rebecca: 예, Google에서 직접 조치에 관한 것이 아니라는 확인이 있습니다. 이 경우 Google이 머신 러닝이라고 분명히 말하고 있으며 거의 ​​항상 실행되고 있다는 점은 흥미롭습니다. 따라서 다음 달에는 영향을 받는 사이트가 재분류될 수도 있고...재분류될 수도 있습니다.

Vincent: 9월에 SEO Camp Paris에서 Christian Meline과 함께하는 컨퍼런스에서 이에 대해 이야기할 것입니다. 왜냐하면 그것은 우리가 5개월 전에 확인한 것이기 때문입니다. 상상할 수 있니? 우리는 이미 Google에 문제가 있음을 확인했습니다.

전반적으로 두 가지 주제가 있습니다.

AI가 만든 콘텐츠라는 주제가 있다. AI가 반복하기 때문에 스팸 콘텐츠를 식별하기가 매우 쉽다고 말할 수 있습니다. 3개, 4개, 5개의 단어로 구성된 단어 그룹으로 나누면 동일한 문구가 반복되는 것을 볼 수 있습니다. 매우 쉽게 감지할 수 있습니다. 기계 학습을 할 필요가 없습니다.

그리고 반면에 머신러닝 부분은 실제로 다음 단어가 나올 확률이 매우 안정적이라는 것입니다.

레베카: 네, 저희도 귀하의 교육 과정을 진행할 때 이에 대해 이야기했습니다. Oncrawl의 내부에서는 이것이 너무 쉽게 식별할 수 있는 콘텐츠를 찾기 위해 생성된 텍스트의 품질에 대한 점수 시스템을 만드는 작업으로 이어졌습니다.

빈센트: 맞아요.

순수 인공지능 콘텐츠는 부자연스럽다고 판단할 수 있으므로 불이익을 받게 됩니다. 이것이 첫 번째 문제입니다.

그러나 다른 한편으로 이러한 유용한 콘텐츠 개념 뒤에는 SERP를 기반으로 하는 모든 새로운 의미론적 도구에 부정적인 영향을 미칠 수 있는 또 다른 주제가 있습니다.

Google은 마침내 과도한 최적화, 즉 Google에서 순위를 매기기 위한 완벽한 발자국을 리버스 엔지니어링하는 사람을 감지할 수 있게 될 것입니다. 그리고 여기 프랑스에는 Freres Peyronnet, 1.fr, SEO Quantum 등 뉴스에 별로 반응하지 않은 강력하고 재능 있는 플레이어가 있습니다. 그들은 과도한 최적화 문제에 직접적으로 우려하고 있습니다. 이 업데이트의 직접적인 영향을 받습니다.

Rebecca: 완전히 생성된 콘텐츠로 순위를 매길 수 있는지 테스트하기 위해 샌드박스에 가까운 사이트인 transfer-learning.ai를 가져오면서 오늘날 존재하지 않는 것을 추가합니다(이 경우 학술 연구와 교육 과정 간의 링크). 관련 기계 학습 주제). 당신의 생각에는 여전히 이런 종류의 일을 할 수 있습니까?

Vincent: 독창성을 가져오고 스팸으로 감지되지 않는다면 이런 종류의 작업은 항상 가능합니다.

그러나 도움이 되지 않는 경우에는 불가능합니다.

또한 프랑스 크리에이터들에게 분명히 알려드리고 싶은 것은 영어에 대해 이야기하고 있다는 것입니다. 우리는 영어로 배포하는 것이 몇 달, 종종 1년 동안 지속될 수 있다는 것을 알고 있습니다. Panda 또는 Penguin과 같은 이전의 대규모 코어 업데이트를 되돌아보면 어떤 경우에는 몇 년까지 지속되었습니다. 일부 사람들은 이 기간을 이용하여 스팸 기술을 계속해서 사용하게 될 것이라고 생각합니다. 그러면 Google이 개입합니다.

Christian Meline과의 프레젠테이션에서 논의할 내용은 Google이 이미 가지고 있고 관심이 없는 주제를 제안하는 대신 새로운 주제를 제안하는 데 도움이 되는 새로운 기술을 사용할 수 있다는 것입니다.

예를 들어 드리겠습니다. 모든 SEO 도구를 테스트하고 GPT-3 또는 yourtext.guru와 같은 프랑스어 도구를 사용하여 주제 아이디어를 생성하면 40개의 아이디어를 얻을 수 있습니다. Christian Meline의 기술을 사용하면 4,500을 얻습니다. 그리고 그들 중 일부는 이전에 사용된 적이 없고 Google에도 없는 주제이기도 합니다.

구글은 무엇을 선호할 것이라고 생각합니까? 이미 알고 있는 콘텐츠를 갖기 위해, 아니면 아무도 파헤쳐 본 적이 없는 매우 흥미로운 주제를 갖기 위해?

나는 그것이 SEO의 미래라고 생각합니다. 새로운 것을 감지할 수 있는 것입니다. 나는 Koray도 그 의미론적 방향으로 가고 있다는 것을 압니다.

Rebecca: 네, 전문 지식을 구축할 수 있는 콘텐츠 격차 또는 허점을 분석한다는 의미에서요. 왜냐하면 전혀 다루어지지 않는 주제의 의미론적 영역이기 때문입니다.

빈센트: 맞아요. 반면 이번 ​​업데이트로 당장은 그렇게 되지는 않을 것이라고 생각합니다. 버전 1, 버전 2 등이 있을 것입니다. 그러나 이 업데이트의 궁극적인 목표는 그렇게 하는 것입니다.

[사례 연구] Google의 봇 크롤링 관리

26,000개 이상의 제품 참조가 있는 1001Pneus는 SEO 성능을 모니터링하고 Google이 올바른 카테고리와 페이지에 크롤링 예산을 사용하고 있는지 확인하는 안정적인 도구가 필요했습니다. OnCrawl을 사용하여 전자상거래 웹사이트의 크롤링 예산을 성공적으로 관리하는 방법을 알아보세요.
사례 연구 읽기

기타 언어 및 기타 미디어: 이 업데이트는 어떻게 배포됩니까?

Rebecca: 앞에서 영어와 프랑스어와 같은 다른 언어의 차이점에 대해 언급했습니다. 우리는 MuM과 같이 언어에 구애받지 않는 처리에서 번역에서 큰 발전을 이루었습니다. 이 업데이트가 다른 언어로 이동하는 데 정말 이렇게 오랜 시간이 걸릴 것이라고 생각하십니까?

Vincent: 솔직히 말해서, 저는 제 나름대로의 일을 해왔습니다. 나는 구글의 기술도 없고 구글도 모르지만 실행하는데 이렇게 오래 걸리는 알고리즘은 본 적이 없다. 즉, 300단어의 단락에 약 10초가 걸립니다. 영원입니다. 일반적으로 우리는 TF-IDF 계산, 단어 임베딩 등을 이야기하며 1초가 걸립니다. 다시 말해, 이러한 유형의 알고리즘은 배포하기가 상당히 어렵습니다. 이제 Google에 기술이 있고 TPU가 있고 매우 똑똑한 엔지니어가 있다는 것을 압니다. 하지만 언어 모델을 사용할 때 이러한 제한이 있을 것이라고 생각합니다. 언어 모델을 로드해야 합니다. 그리고 2,000억 개의 매개변수가 있으면 피해를 줄 수 있습니다.

웃기네요. HuggingFace에서 텍스트 생성 모델이 출시된 것과 거의 같은 시기에 말이죠. 그래서 제 생각에는 이것을 확실히 말할 수 있는 사람은 아무도 없지만 그들이 탐지를 기반으로 한 것입니다. 실제로 그들은 텍스트 생성을 감지하기 위해 텍스트 생성 모델을 출시했습니다. 구글은 그들이 말했듯이 불과 불과 싸우고 있습니다.

레베카: 네, 그런 식으로 작동합니다. 맞죠? 자동화된 텍스트를 감지할 때 항상 그랬습니다. 우리는 그것을 감지하기 위해 그것이 어떻게 만들어졌는지에 대해 알고 있는 것을 사용합니다.

Vincent: 하지만 저를 감동시킨 것은 SERP의 지문을 제공하는 SEO 도구입니다. Google은 이제 "우리는 발자국을 가지고 있으며 당신이 그것에 대해 너무 영감을 받았는지 알 수 있을 것입니다."라고 말합니다. 그들이 어떻게 하는지 아무도 모릅니다. 다른 SEO 도구는 어떻게 하는지 알고 있지만 [Google]은 어떻게 합니까? 아무도 모른다.

Rebecca: 사실, 저에게 눈에 띄는 다른 점은 그것이 사이트 수준의 분석이라는 것이었고, 각 사이트에 대해 매우 높은 수준의 일반화에 대해 이야기하고 있다면 도움이 되거나 도움이 되지 않는 콘텐츠의 "가치"가 할당된다는 것입니다. 해당 사이트의 다른 콘텐츠에 영향을 줄 수 있는 사이트로 이동합니다. 그리고 그것은 많은 개별 분석과 많은 정보 저장입니다. 그래서 그것을 처리하거나 재처리하는 것만으로도 많은 시간이 걸립니다.

Vincent: 그것이 그들이 가진 제약이라고 생각합니다. 그들은 Google Discover가 아닌 Google 검색에서만 수행한다고 발표했습니다.

Google Discover에서 모든 사람이 부정 행위를 하고 모두가 "SEO" 콘텐츠를 Google Discover에 올리기 위해 최적화하고 있기 때문에 약간의 역설입니다. 현재 Google 검색과 이 모든 자동 생성 콘텐츠에 큰 문제가 있다고 생각합니다. 자동 생성 콘텐츠가 너무 많은 사이트가 있습니다.

그들은 패널티에 대해 말하는 것이 아니므로 Google RankBrain과 같은 새로운 신호로 이것을 돌리고 있습니다.

how-search-engines-work

모든 사이트가 영향을 받는 것은 아닙니다. 저는 특히 모든 제품 설명이 있는 전자 상거래 사이트를 생각하고 있습니다. 우리는 모두가 서로를 베끼고 있다는 것을 알고 있습니다.

Rebecca: 예, 생산자, 브랜드의 공식 설명을 기반으로 변형을 만듭니다.

빈센트: 네.

그러나 일부 미디어 사이트는 더 위험합니다. SEO에는 오래전부터 알려진 현상이 있습니다. 예를 들어, 일부 사이트는 영어 콘텐츠를 가져 와서 가치를 추가하지 않고 번역합니다. 아무도 그것에 대해 이야기하지 않았지만 이러한 유형의 사이트에는 아무것도 추가하지 않고 그 위에 소스를 인용하지 않는 결함이 있기 때문에 큰 위험이 있습니다.

Rebecca: 그리고 영어로 된 원본 콘텐츠도 있어 비교할 수 있습니다.

Vincent: 네, 이번 업데이트로 영어에서 프랑스어로 넘어가는 단계는 많은 스팸 사이트에 피해를 줄 것입니다.

지난 몇 달 동안의 모든 SEO 뉴스 중에서 가장 중요한 업데이트입니다. RankBrain도 말할 수 있지만 실제로 적용한 결과가 무엇인지 보기가 어려워 지적하기가 훨씬 덜 명확했습니다.

Rebecca: 의미론적 분석의 개념과 웹사이트의 나머지 부분과 관련이 없는 웹사이트 부분과 함께 실제로 가깝다고 생각합니다.

빈센트: 맞아요.

나는 그들이 한동안 이 일을 해왔다는 것을 알고 있습니다. Google에서 일하는 친구가 있었는데 2009년부터 이 일을 하고 있다고 말했습니다. 이에 대해 두 개의 연구팀이 있었다. 그들은 지금 실시간으로 그것을 하려고 노력하고 있으며 많은 청소를 할 것입니다.

그러나 우리는 아직 구현에 대해 많이 알지 못합니다. 그들은 어떻게 할 것인가? 신호로? 부정 행위를 하는 사람들은 색인이 잘 안 나오나요? John Mueller를 제외하고는 아무도 그 질문에 답할 수 없습니다.

레베카: 그가 허용될지 의심스럽습니다. 나는 그들이 "검색 엔진이 아닌 사용자를 위한 유용한 콘텐츠를 만들면 문제가 없을 것"이라는 말을 계속할 것이라고 생각합니다.

Vincent: Twitter에서 그는 이 주제에 대한 질문을 쏟아내고 있으며 그의 답변은 다소 광범위합니다.

JohnMu Twitter_Helpful content

출처: 트위터

향후 콘텐츠 제작에 미치는 영향

레베카: 나는 그것에 놀라지 않습니다. 아마 더 구체적인 정보가 없을 것 같아요. 그리고 그가 그렇게 하더라도 알고리즘에 대해 이야기하는 것은 절대 금지되어야 합니다.

어쨌든, 나는 이 업데이트와 관련된 특허를 보기 시작하고, 1년, 2년 후에 특허를 재분석하여 거기에 무엇이 있는지 그리고 조금 후에 사용의 징후가 있는지 확인하고 싶습니다. 그러나 그것은 다른 주제입니다.

Vincent: 9월에 있을 회의를 준비하기 위해 양질의 콘텐츠, 유용한 콘텐츠를 인식하는 방법을 나열했습니다. 나는 Christian Meline이 [3]년 전에 그 주제에 대해 쓴 저널 dunet(프랑스어)의 기사를 기반으로 했습니다. 그의 내용은 여전히 ​​​​완전히 관련이 있습니다. 반면에 그는 기계 학습에 의존하지 않습니다. 그는 그것을 싫어합니다. 그래서 이것들은 기본적이고 유용한 지표입니다: 제목이 잘 쓰여졌습니까? 맞춤법 오류가 있습니까? 새로운 지식을 제공하는가? 드물게 기계 학습이 필요한 작업입니다.

Rebecca: 이러한 유형의 조언은 대부분의 SEO가 기계 학습을 구현하고, 사이트를 분석하고, 그것에 빠질 위험이 있습니다.

빈센트: 맞아요. 우리는 이것을 아주 아주 밀접하게 따라야 합니다.

또한 우리는 말을 매우 조심해야 합니다. 우리는 조건부 시제로 말해야 합니다. 이 주제에 대해 확신하는 사람은 아무도 없습니다.

레베카: 확실합니다. 우리는 매우 높은 수준의 것들만 가지고 있습니다. 즉, 증거도, 단서도, 정보도 없습니다. 그래서 분명히 우리가 그것에 대해 말할 수 있는 것은 결론이 아니라 이론입니다.

빈센트: 맞아요.

다음은 시작점으로 설정한 내용입니다.

  • 반복을 살펴보기 위한 토큰 분석: 과도할 때와 순위를 매길 때를 식별합니다.
  • 그런 다음 앞에서 언급한 단어 사이의 확률입니다.
  • 마지막으로 단어 그룹입니다.

이 세 가지 콤보만 있으면 인간이 최적화하지 않은 AI 생성 텍스트의 90%를 감지할 수 있습니다. 따라서 Google이 무엇을 할 수 있는지 상상해보십시오! 굉장하네요.

Rebecca: 9월 23일에 있을 SEO Campus 컨퍼런스에 Christian과 함께 참석해야 합니다.

Vincent: 네, 도움이 되는 콘텐츠의 주제를 조금 분리하고 싶었습니다. 재미있습니다. Google이 업데이트에 대해 이야기하기 전에도 우리는 이를 계획했습니다.

나는 또한 매우 생태학적인 생각을 하기 때문에 이 주제를 좋아합니다. 사람들이 스팸 메일을 보내지 못하도록 하는 그런 통제 기능이 있다는 것을 알게 되어 기분이 좋습니다. 상상할 수 없는 자원을 소모하기 때문입니다.

레베카: 네, 그렇습니다. 이번 업데이트로 모두가 세심한 주의를 기울이고 있습니다. 나는 그것이 아무것도 변하지 않을 것이라고 생각하는 사람들이 잘못되었다고 생각합니다. 콘텐츠를 만드는 방법뿐만 아니라 Google이 콘텐츠를 평가하는 방법도 변경될 것임을 알 수 있습니다. 그리고 이것은 우리가 전에 보지 못한 전략입니다.

빈센트: 맞아요. 사실 극단적인 입장을 취하고 싶다면 구글은 콘텐츠를 평가하지 않는다. 그것은 큰 약점입니다. 그것은 단지 색인과 순위를 매기곤 했습니다. 이제 그들은 업스트림으로 필터링됩니다. 그리고 그것이 Bing이 Google이 하지 않는 것에 대해 비판했던 것입니다.

레베카: 네, [컨텐츠에 대한] 대부분의 분석은 순위를 정할 때 나왔습니다.

빈센트: 맞아요. 이제 약간의 필터가 있는 것 같습니다. 나는 당신에게 동의합니다. 나는 이것에 대해 나오는 특허를 보고 싶습니다. 그들은 필터를 어디에 두었는지 공개해야 합니다. 필터를 어디에 두는 걸까요? 인덱싱 전, 후 또는 순위 지정 전? 어디에 두시겠습니까?

레베카: 그렇게 하려면 대부분의 사이트가 있어야 하므로...

Vincent: 인덱싱을 위해 우리가 논의한 바와 같이 SERP의 공간이 필요하다는 것을 잊지 마십시오. 따라서 색인을 생성해야 합니다.

레베카: 그래, 내가 말하려던 게 그거였어. 추가 단계가 되어야 한다고 생각합니다. 인덱스 제거의 위험을 감수하지 않기 때문에 인덱싱 후의 영향에 대해 이야기하고 있습니다. 아마도 [초기] 순위 이후에도 마찬가지일 것입니다.

Vincent: 예, 저에게는 순위 이후입니다. 내가 Google이었다면 이것은 신호 등을 집계할 수 있기 때문에 Google RankBrain에 추가했을 것입니다. 이제 문제는 이것이 사이트에서 얼마나 영향력이 있을지입니다.

Rebecca: 기계 학습을 사용하면 사이트마다 많이 다를 수 있습니다. 그 영향과 각 사이트에 얼마나 많은 도움이 되지 않는 콘텐츠가 있는지 훨씬 더 많이 제어할 수 있기 때문입니다.

Vincent: Google의 한계는 가양성입니다. 이는 합법적인 페이지의 인덱싱을 해제[또는 처벌]하는 것입니다. 따라서 초기 영향은 매우 낮을 것이라고 생각하지만 실제로는 사기꾼을 쫓을 것입니다.

그러나 조금 걱정하는 사람들이 저에게 연락을 취했습니다. 나는 그들에게 처음에는 품질이 없는 텍스트만 감지할 것이라고 말했습니다. 즉, 사람의 교정을 거친 [생성된] 텍스트는 모든 유용성을 가질 수 있다고 생각합니다.

나는 "AI = 쓰레기"라고 말하는 다른 사람들만큼 엄격하지 않습니다. 저도 그렇게 믿지 않습니다.

Rebecca: 당신에게서 온 것이 놀랍지 않습니다!

속도가 느려질 것이라는 사실을 알기에 조금 답답합니다. 당신이 말했듯이, 오탐을 피하기 위해 영어로 시작하는 또 다른 이유는 더 나은 영어 구사력을 가지고 있기 때문입니다. 이것은 전체 웹과 덜 숙달되고 덜 자동화된 다른 언어로 일반화하기 전에 훨씬 더 비싼 추가 컨트롤을 넣는 것을 가능하게 합니다.

어쨌든 매우 풍부한 토론이었습니다. 이번 교환에 진심으로 감사드립니다.

Vincent: 원할 때마다 다시 이야기할 수 있습니다.

레베카: 즐거웠습니다.