[Webinar Digest] Orbit의 SEO: Rankbrain, AI, 기계 학습 및 검색의 미래
게시 됨: 2019-11-13웹 세미나 Rankbrain, AI, 기계 학습 및 검색의 미래는 SEO in Orbit 시리즈의 일부이며 2019년 6월 19일에 방영되었습니다. 이 에피소드에서 Bill Slawski는 Google 특허 및 검색 작업에 대한 지식을 활용하여 오늘날 사용되는 가능한 검색 알고리즘을 다운하고 Google의 미래 버전에서 어떻게 보일지 가정합니다. 기술 SEO의 미래를 탐구하는 동안 저희와 함께 하십시오.
SEO in Orbit은 SEO를 우주로 보내는 최초의 웨비나 시리즈입니다. 시리즈 전반에 걸쳐 우리는 최고의 SEO 전문가들과 함께 기술 SEO의 현재와 미래에 대해 논의하고 2019년 6월 27일 최고의 팁을 우주로 보냈습니다.
여기에서 다시보기를 시청하세요.
빌 슬로스키를 소개합니다
독학으로 검색 엔진 특허 전문가인 Bill Slawski는 Go Fish Digital의 SEO 책임자이자 SEO by the Sea의 블로거입니다. Bill 자신의 말: “나는 컴퓨터 과학자도 아니고 수학자도 아닙니다. 저는 영어 학사 학위와 법학 박사 학위를 가지고 있습니다. 나는 2005년경부터 검색 엔진의 특허를 읽고 검색, 검색자 및 웹에 대해 그들이 말하는 것에 대해 배웠습니다. 이러한 특허 중 다수는 특정 문제를 해결하는 것을 목표로 하는 알고리즘을 다루고 있으며 SEO 수행과 관련하여 많은 도움이 된다는 것을 알게 되었습니다.”
이 에피소드는 연쇄 창업가이자 OnCrawl의 공동 설립자이자 CEO인 Francois Goube가 진행했습니다. 그는 여러 회사를 설립했으며 스타트업 생태계에 적극적으로 참여하고 있습니다. 의미론적 분석과 검색 엔진에 열정적이며 과학적인 Google 출판물을 분석하는 것을 좋아하며 SEO 컨퍼런스의 정기 연사로 활동하고 있습니다.
AI와 머신러닝이란?
AI에 대한 정의는 많습니다.
Google의 많은 작업은 기계 학습이 작동하는 방식으로 이어지는 신경망에 중점을 둡니다. 분류기를 훈련하는 데 사용되는 이상적인 데이터 세트를 나타내는 데이터 세트를 사용하며 특정 기능을 강조하기 위해 표시됩니다. 그런 다음 샘플 세트에서 배운 내용을 기반으로 새로운 정보를 분석 및 분류하기 위해 다른 데이터 세트에서 이러한 정보를 느슨하게 처리합니다. 그것이 머신러닝입니다.
AI가 다루는 영역
– 자연어
AI는 자연어를 더 잘 이해하는 것과 같은 다양한 영역을 다룰 수 있습니다. 관련된 기술이 많이 있으며 Google에서 제공하는 많은 내용은 자연어 분석과 관련된 내용을 보여줍니다.
– 질의응답
최근 특허(링크)는 질의 응답 스키마에서 공백을 채우려고 합니다.
Google이 지식 그래프를 사용하여 질문에 대한 답변이 무엇인지 이해하는 방법을 설명합니다. 예를 들어 엔터티에 대한 정보가 누락되었거나 잘못된 데이터가 있는 경우 Google은 관련 사실과 관련된 정보를 기반으로 답변을 추정할 수 있습니다.
이 특허에서 흥미로운 점은 Google이 질문에 답하기 위해 추정치를 사용하고 있다는 것이 아니라 추정치에 대한 설명을 제공한다는 것입니다.
– 인간의 생각 모방(신경망)
기계 학습은 인간의 생각이 작동하는 방식을 모방하는 AI를 기반으로 합니다. 기계 학습 네트워크는 뇌의 뉴런이 작동하는 방식을 복제하려고 구축되었기 때문에 신경망이라고 합니다.
랭크브레인
– 벌새와 단어 문맥과의 관계
Rankbrain과 Hummingbird는 모두 쿼리 재작성 접근 방식입니다. Hummingbird는 쿼리의 모든 단어를 살펴봄으로써 쿼리의 컨텍스트를 더 잘 이해하려고 했습니다. 이전에 Google은 문맥을 이해하기 위해 나란히 있는 단어만 보았습니다. 벌새는 바로 옆에 있는 단어 너머를 봅니다. 대화식 쿼리의 전체 문장을 고려할 수도 있습니다. Hummingbird는 문맥을 이해하기 위해 쿼리의 모든 단어를 함께 사용하려고 했습니다.
– 단어 임베딩 방식을 사용하여 Rankbrain에서 쿼리 재작성
Hummingbird와 달리 Rankbrain은 단어 임베딩 방식을 사용합니다. 짧은 텍스트 구절을 검사하고 누락된 단어가 있는지 확인할 수 있습니다. 대규모 데이터 세트(2000억 단어)에 대한 훈련을 통해 이를 수행합니다.
– 쿼리에서 누락된 단어 찾기
예를 들어, "뉴욕 타임즈 퍼즐"이라는 쿼리는 "십자말 풀이"라는 단어가 누락된 것으로 올바르게 해석될 수 있습니다. Rankbrain은 검색어에 누락된 단어를 추가하고 New York Times 크로스워드 퍼즐에 대한 결과를 검색자에게 반환합니다. 검색자가 원하는 것일 수 있기 때문입니다.
– Rankbrain에 최적화할 수 있습니까?
Rankbrain에 대해 페이지를 최적화할 수 없다는 점에 유의하는 것이 중요합니다. 일부 SEO는 당신이 할 수 있다는 기사를 작성했습니다. 그러나 Bill이 알고리즘에 대해 본 모든 것에서 이것은 페이지 평가에 영향을 미치는 것이 아니라 쿼리 재작성 프로세스임을 암시합니다.
기계 학습을 사용하는 추가 Google 알고리즘
Google에는 검색 엔진을 구동하는 단일 "알고리즘"이 없습니다. 작동 방식에 기여하는 다양한 알고리즘이 있습니다. Rankbrain은 많은 것 중 하나입니다.
– 카테고리 내 품질 점수 사용
이는 예를 들어 Google이 주어진 쿼리에 대해 정보 유형 결과가 많다고 판단할 때 정보 검색 점수 또는 PageRank와 같은 권위 등급을 기반으로 페이지 순위를 매기는 대신 카테고리를 고려할 수 있음을 의미할 수 있습니다. 여기에서 웹사이트 카테고리 내에서 품질평가점수를 제공할 수 있습니다. 이렇게 하면 더 다양한 결과 집합이 제공되고 더 높은 품질의 결과가 더 빨리 결과의 맨 위로 이동할 수 있습니다.
– 탐색 결과에 대한 페이지 인기도
이러한 유형의 순위 알고리즘은 특히 탐색 유형 결과의 경우 더 인기 있는 페이지(사람들이 자주 가는 페이지)를 선호합니다. 검색자가 보고 싶은 페이지라는 것을 이미 알고 있는 경우 해당 페이지는 카테고리 품질평가점수 패러다임에서 높은 순위를 차지하는 경향이 있습니다.
– SERP CTR의 영향
또한 카테고리 품질 점수는 검색 결과에서 자주 선택되는 페이지도 고품질 페이지이며 이 카테고리 품질 접근 방식에서 높은 순위를 차지할 것임을 시사합니다.
그러나 범주 품질 점수 접근 방식은 확실히 기계 학습이지만 Rankbrain은 아닙니다.
검색자의 상황적 요구를 충족시키는 Rankbrain
Rankbrain은 쿼리에서 누락된 항목을 이해하려고 합니다. Rankbrain의 가장 중요한 측면은 검색자의 상황 요구를 충족시키려는 시도입니다. 이 사람이 상자에 쿼리를 입력했을 때 실제로 의미한 것은 무엇이었습니까?
과거 키워드 쿼리와 현재 음성 및 대화 쿼리
음성 및 대화형 쿼리로 이동하면 과거에 사용된 키워드 접근 방식보다 더 많은 단어가 포함될 것입니다.
검색자는 필요한 정보를 찾기 위해 어떤 단어를 사용해야 하는지 추측하려고 합니다. 그리고 당신은 이런 종류의 추측을 할 필요가 없습니다. 원하는 것을 요청하면 Google에서 이를 분석하고 의도한 바가 무엇인지 결정할 수 있어야 합니다. 이것이 Rankbrain의 역할입니다.
자연어 처리 접근 방식
우리가 보고 있는 것 중 하나는 Google이 자연어 처리에 훨씬 더 많은 관심을 기울이고 있다는 것입니다. 자연어 처리 방식이 등장하고 있습니다.
– 신경 매칭
Danny Sullivan은 자신이 신경 매칭이라고 부르는 것에 대해 트윗했습니다.
지난 몇 달 동안 Google은 단어를 개념에 더 잘 연결하기 위해 신경 매칭, –AI 방법을 사용했습니다. 어떤 면에서는 슈퍼 동의어이며 쿼리의 30%에 영향을 미칩니다. "연극 효과"을(를) 검색하는지 모르십니까? 더 잘 이해할 수 있습니다. pic.twitter.com/Qrwp5hKFNz
— Danny Sullivan(@dannysullivan) 2018년 9월 24일
그는 이것이 페이지에 있는 단어와 문맥에서 그 단어의 의미를 더 잘 이해하는 수단이라고 말했습니다. 그는 한 단어가 문장 내에서 위치하는 방식에 따라 세 가지 또는 네 가지 다른 것을 의미할 수 있는 방법에 대한 몇 가지 예를 제공했습니다.
– 워드 임베딩
Google은 웹 페이지와 같은 더 긴 양의 텍스트에 대해 단어 임베딩 유형 접근 방식(짧은 텍스트 쿼리를 이해하기 위해 Rankbrain에서 사용하는 것과 같은 방식)을 사용하는 것에 대한 특허를 공개했습니다.
– 시맨틱 프레임
시맨틱 프레임은 특정 상황에 이상적인 언어를 사용할 때입니다. 각 상황에서 사용되는 특정 언어가 있습니다. 예를 들어 모기지나 부동산 구매와 관련된 포인트는 주사위나 보드 게임의 포인트와 같은 의미가 아닙니다.
프레임워크를 이해하면 페이지에 있는 단어의 컨텍스트를 더 잘 이해할 수 있습니다.
이것은 또한 상황에 따라 의미 자체가 다른 단어를 구별하는 데 도움이 될 수 있습니다. 예를 들어, "말"은 승마자와 목수에게 같은 의미가 아닙니다. 다른 특허들도 의미의 맥락적 차이를 이해하는 추가적인 방법을 탐구했습니다.
기계 학습을 사용하여 작문 스타일을 기반으로 저자 식별
기계가 개인의 글쓰기 스타일을 식별하는 것은 매우 쉽습니다. 부동산, 스포츠 등과 같은 산업의 표준화된 스타일로 인해 콘텐츠의 주제별 분류와 이와 유사합니다.
영어 학생으로서 Bill은 문학을 분석하고 작가가 자신을 표현하는 다양한 방식과 그 이유를 살펴보았습니다.
– 저자는 인용 빈도를 사용하여 특허 점수 부여
Google은 저자 점수에 관한 특허를 보유하고 있습니다. 저자의 점수를 매기기 위해 고려되는 요소 중 하나는 다른 저자가 해당 저자를 얼마나 자주 인용하는지입니다.
– Google 도서 N-Gram 뷰어
Google은 언어 모델로 많은 작업을 수행합니다. 그들은 많은 책을 스캔했습니다. N-Gram 뷰어를 사용하면 문구의 인기가 수년에 걸쳐 어떻게 진화하는지 볼 수 있습니다.
– 언어 모델을 이용한 N. Panda의 Quality Score 특허
N. Panda의 Quality Score 특허는 N-gram을 사용하고 다른 언어 모델과 비교하여 웹 페이지의 품질을 이해하기 위해 언어 모델을 구축하는 방법에 대해 설명합니다.
이것은 검색 엔진 기술에서 머신 러닝의 좋은 예입니다. 이전에 점수가 매겨진 페이지의 데이터세트가 있으며 원본 샘플 세트의 데이터를 기반으로 하는 페이지와 새 페이지를 비교하고 있습니다. 이것은 품질을 결정하는 데 사용되기 때문에 원본 세트에서 잘 작성된 페이지의 특성을 포함하는 페이지가 더 높은 점수를 받습니다.
이러한 유형의 언어 모델은 다른 저자의 작문 스타일을 이해하는 데에도 사용할 수 있습니다.
구조화된 데이터를 사용한 미래의 머신 러닝
기계 학습은 Google이 엔티티를 관리하는 방법, 번역 및 Cindy Krum이 Fraggles라고 명명한 모양에서도 분명합니다.
– 답변 구절 및 텍스트 콘텐츠 강화
Google이 웹페이지에서 찾은 텍스트 구절을 사용하여 질문에 대한 답변을 제공하는 메커니즘을 제안한 답변 구절에 대해 이야기하는 또 다른 특허가 있습니다. 이것은 최근에 텍스트 구절뿐만 아니라 텍스트를 강화하는 구조화된 데이터를 보도록 업데이트되었습니다.

– 사실 확인 및 일관성
스키마를 사용하면 정보가 중복됩니다. 이를 통해 Google은 텍스트 정보를 구조화된 마크업에 제공된 정보와 비교하여 웹페이지에 있는 정보적 사실의 일관성을 확인할 수 있습니다.
이것은 Google이 이름, 주소 및 전화번호를 보는 Google 지도에서 발생하는 것과 동일합니다.
일관성은 답변이 정확할 가능성이 더 높다는 확신 수준을 제공합니다.
– FAQ 페이지 및 방법 페이지
Google이 FAQ 페이지 및 How-to Schema 지원을 도입함에 따라 웹 페이지의 텍스트에 넣을 수 있는 내용을 반영하는 스키마에서 사이트 소유자를 구축하는 수단으로 이동하는 것을 봅니다.
웹 페이지의 컨텍스트를 이해하기 위한 전략
Google은 웹페이지 내에서 콘텐츠를 더 잘 이해하기 위해 다른 조치를 취했습니다. 다음은 몇 가지입니다.
– 지식 기반 및 컨텍스트 용어 사용
Google 특허는 지식 기반을 살펴보고 해당 지식 기반에서 컨텍스트 용어의 정의를 수집할 수 있음을 나타냅니다. 그런 다음 웹 페이지에서 이러한 컨텍스트 용어의 존재를 검색하여 단어의 컨텍스트 종속적 의미가 가장 가능성이 있는지 결정하는 데 도움이 될 수 있습니다.
따라서 말(동물)에 대한 페이지에는 "안장"과 같은 단어가 포함될 수 있지만 다른 유형의 말에 대한 페이지에는 "목공"과 같은 단어가 포함될 수 있습니다.
– 구문 기반 인덱싱
페이지의 주제를 이해하기 위한 의미론적 학습에 대한 또 다른 접근 방식은 2004년 전후입니다. 구문 기반 인덱싱은 오래되었을 뿐만 아니라 20개 이상의 특허가 있는 주제이며 여러 번 업데이트 및 수정되었습니다. 이 모든 것은 Bill에게 구문 기반 인덱싱이 Google 알고리즘에서 매우 중요한 것임을 나타냅니다.
– 주제 예측 구문의 역색인 구축
구문 기반 인덱싱과 관련된 특허 중 하나는 페이지에 표시되고 주제를 예측하는 구문의 역색인을 구축하는 방법을 설명합니다. 예는 "백악관"의 의미론적 주제를 예측하는 "미국 대통령", "국무장관" 또는 "로즈 가든 인터뷰"와 같은 문구입니다.
스키마의 웹마스터 주제 지식
Google은 Schema와 같은 용도를 개발 중이지만 Schema에서 설명하는 사물의 유형에 대한 정의는 웹마스터가 제공합니다. 이러한 방식으로 웹마스터는 검색 엔진과 함께 지식 그래프를 구축하는 데 기여할 수 있습니다.
예를 들어 Google은 Schema의 한 측면으로 "knows-about"을 추가했습니다. 그러나 웹마스터는 변호사가 해군법 또는 특허법에 대해 알 수 있음을 나타내는 것이며, 이는 지식 그래프를 작성하는 데 도움이 됩니다.
지식의 기계 기반 표현은 공동 작업입니다.
[사례 연구] Google의 봇 크롤링 관리
진화하는 검색 및 오래된 SEO 관행
– 대체 텍스트에서 반복되는 단어
Google에 사람 사진의 이름을 두 번 지정해야 한다고 말하는 것은 Google이 사진을 두 번 이해하는 데 도움이 되지 않습니다. 페이지 가치에 대한 검색 엔진의 추정치를 감소시킬 수도 있습니다.
– 소규모 정적 데이터베이스용 LSI
도구 제작자는 SEO가 오래된 기술을 사용하도록 계속 제안합니다. 한 가지 예는 1989년에 개발된 LSI(Latent Semantic Indexing)입니다. 이것은 웹의 크기가 아니며 웹의 속도로 성장하지 않는 작은 정적 데이터베이스를 위한 것입니다.
LSI를 사용할 때마다 최신 버전의 데이터베이스가 있어야 합니다. 코퍼스에 정보를 계속 추가하면 다시 실행해야 합니다. 이것은 웹에 그다지 유용하지 않다는 것을 의미합니다.
– TF-IDF는 전체 코퍼스에만 액세스할 수 있습니다.
TF-IDF(term frequency-index document frequency)는 또 다른 예입니다. 이것은 인덱싱되는 정보의 전체 코퍼스(이 경우 월드 와이드 웹)에 액세스할 수 있는 경우 가장 잘 작동합니다. 전체 코퍼스에서 가장 일반적인 단어와 드문 단어를 알고 싶을 때 TF-IDF를 사용합니다. 그러나 전체 웹이 아닌 특정 용어에 대해 상위 10위권 페이지의 말뭉치를 사용하면 실제 용어 빈도를 설정할 수 없습니다.
이는 분석 정확도에 심각한 영향을 미칠 수 있습니다.
웹마스터 기대치 및 Google 기능: Google과의 커뮤니케이션 필요
최근 발표에도 불구하고 페이지 매김 마크업이 검색 엔진에 유용하지 않다는 사실을 실제로 알지 못합니다.
페이지 매김 마크업은 페이지 매김 페이지의 중복 콘텐츠를 관리하는 데 더 이상 사용되지 않지만 Google은 어느 정도 기대하고 있습니다. 페이지가 시리즈로 되어 있는 경우를 이해할 수 있어야 합니다. 이와 같은 발표는 Google이 하는 일에 대해 얼마나 좋은지 또는 얼마나 나쁜지를 아는 것이 어렵다는 것을 보여줍니다.
자주 등장하는 단어 사용하기
Bill이 가장 좋아하는 기술 트릭은 특정 용어에 대해 높은 순위를 차지하는 자주 함께 나타나는 단어를 살펴보고 본문과 자신의 페이지에서 관련 페이지를 가리키는 앵커 텍스트의 내용 모두에서 해당 단어를 사용하는지 확인하는 것입니다. 이것은 검색 엔진에서 "전문가 링크"로 취급되는 "앵커 히트"를 이용합니다.
이 전략은 구문 기반 인덱싱에서 가져온 것입니다.
– 구문 동시 발생의 통계적 확률
구문 기반 인덱싱 특허는 약 2년 전에 업데이트되었습니다. 이 접근 방식은 이제 페이지에 표시되는 관련 용어 수를 사용하여 페이지 순위를 매깁니다.
그러나 통계적으로 가능한 수 이상의 관련 용어가 페이지에 나타나면 스팸으로 표시될 수 있습니다. 예를 들어 한 주제에 대해 많은 페이지를 긁어 모아 한 페이지에 모았다면 자연스럽게 발생하기에는 너무 많은 관련 용어가 있을 것입니다.
이것은 Bill이 키워드 조사를 하는 방식과 잘 맞습니다. 그는 유사한 페이지를 보고 자주 발생하는 유사한 구문이나 단어의 목록을 만듭니다. 그는 순위를 매기려고 하지 않더라도 자신의 페이지에서 그 중 일부를 사용하려고 할 수 있습니다. 이것은 그가 순위를 매기고 싶은 키워드와 관련된 콘텐츠를 구축합니다.
LSI 대 동의어 또는 의미 관련 콘텐츠 사용
LSI에 대한 과대 광고는 Bill이 가장 좋아하지 않는 주제 중 하나입니다. 부분적으로는 이 용어가 오해의 소지가 있기 때문입니다. LSI에 대한 이야기가 잠재 의미론적 인덱싱과 아무 관련이 없을 때 많은 사람들이 제안하는 것입니다. 대신 페이지에 동의어나 의미 관련 콘텐츠를 추가할 것을 제안합니다.
구문 기반 인덱싱의 역색인 및 문맥 용어를 제공할 수 있는 지식 기반은 상위 순위에서 동시 발생 용어를 엄격하게 찾고 있는 경우 도움이 될 수 있는 단어를 찾기 위해 이동할 수 있는 용어 및 출처가 있음을 나타냅니다. 귀하의 키워드에 대한 페이지.
Google의 추정에 따르면 동의어인 것처럼 보이는 단어가 그렇지 않은 경우가 있습니다.
URL 제출 도구를 사용한 빠른 인덱싱
새 버전의 Google Search Console에 있는 URL 제출 도구는 페이지의 색인을 생성하는 정말 빠른 방법입니다. Bill은 업데이트가 1~2분 이내에 SERP로 전파되는 것을 보았습니다.
향후 마크업에 대한 Bill의 희망: 특허에 대한 추가 정보
청중 질문: 앞으로 추가되기를 바라는 스키마 마크업은 무엇입니까?
그는 특허에 대해 많은 글을 쓰기 때문에 Bill은 특허의 고유한 기능을 캡처하는 더 나은 방법을 보고 싶어합니다. 이러한 기능 중 일부는 다음과 같습니다.
- 클래스(특허가 다루고자 하는 것)
- "페이지의 주요 엔터티"가 이 기능을 포함할 수 있지만 특허 이름
Google은 이미 스키마 기능을 기반으로 검색할 수 있도록 허용하므로 최종 결론은 특허 조회를 개선하여 사람들이 특정 범주를 다루는 특허를 보도록 요청할 수 있게 하는 것입니다.
Answer Engine Optimization은 검색의 미래입니까?
청중 질문: SEO가 미래에 AEO가 될 것이라고 생각하십니까?
Bill은 어떤 면에서는 SEO가 항상 AEO라고 믿습니다.
– 응답 엔진으로서의 Google의 이전 표시
우리는 반드시 진화를 거치는 것은 아닙니다. Google이 이 방향으로 나아가고 있다는 15년 전의 징후가 있습니다. 예를 들면 다음과 같습니다.
- 2004: 사용자가 단어의 의미를 검색할 수 있는 사전 기능
- 2005년: 10개의 파란색 링크를 제공하여 만족하지 않았지만 텍스트 응답을 제공하는 것을 선호한 첫 번째 추천 스니펫 또는 직접 답변을 보여주는 "사실만" 블로그 게시물입니다.
– Sergey Brin: 사실과 사실 간의 관계를 이해하는 알고리즘에 대한 특허
답변 엔진으로서의 Google이 새로운 것이 아니라는 또 다른 표시는 사실과 사실 간의 관계를 이해하는 알고리즘에 대한 Sergey Brin의 특허입니다. 이 특허에는 5권의 책, 제목, 출판사, 저자 등이 포함되었습니다.
이론은 봇이 이러한 책을 검색하는 웹을 크롤링하고–
[오케이 구글 방해]
– 오디오 워터마크
초고주파를 이용하는 오디오 워터마크 개념도 있습니다. 그들은 인간의 가청 범위를 벗어나지만 개와 컴퓨터는 식별할 수 있습니다. 이렇게 하면 다른 공급자가 워터마크가 표시된 광고를 듣고 잠재적으로 제품에 관심을 가질 수 있다는 사실을 추적할 수 있습니다.
이것은 적어도 5년 동안 존재했으며 SEO에서 논의된 것이 아닙니다.
최고 팁
“웹에는 RankBrain, Neural Matching, Machine Learning과 같은 주제에 대해 잘못된 정보가 많이 있습니다. 그 중 일부는 신중하게 조사된 사실과 잘못된 정보가 섞여 있으므로 의존하는 것에 주의하십시오.”
Orbit의 SEO는 우주로 갔다
6월 27일의 우주 여행을 놓쳤다면 여기에서 포착하고 우리가 우주로 보낸 모든 정보를 알아보세요.