[ウェビナーダイジェスト]軌道上のSEO：ランクブレイン、AI、機械学習、検索の未来

公開: 2019-11-13

ウェビナーのランクブレイン、AI、機械学習、検索の未来は、OrbitシリーズのSEOの一部であり、2019年6月19日に放送されました。このエピソードでは、BillSlawskiがGoogleの特許と検索の仕組みに関する知識を活用して今日使用されている可能性のある検索アルゴリズムをダウンさせ、Googleの将来のバージョンの内部でどのように見えるかを仮定します。テクニカルSEOの未来を探る間、ぜひご参加ください。

SEO in Orbitは、SEOを宇宙に送る最初のウェビナーシリーズです。シリーズ全体を通して、私たちは技術的なSEOの現在と未来について、最高のSEOスペシャリストの何人かと話し合い、2019年6月27日に彼らの最高のヒントを宇宙に送りました。

ここでリプレイを見てください：

ビル・スラフスキーの紹介

独学の検索エンジン特許専門家であるビル・スラフスキーは、Go Fish DigitalのSEOリーチのディレクターであり、SEO bytheSeaのブロガーです。ビル自身の言葉で：「私はコンピューター科学者ではなく、数学者でもありません。私は英語で学士号を取得し、法学博士号を取得しています。私は2005年頃から検索エンジンの特許を読んでいて、検索、検索者、そしてWebについて彼らが何を言わなければならないかを学んでいます。これらの特許の多くは、特定の問題に対処することを目的としたアルゴリズムを対象としており、SEOの実行に関しては多くのことが役に立ちました。」

このエピソードは、シリアルアントレプレナーであり、OnCrawlの共同創設者兼CEOであるFrancoisGoubeが主催しました。彼はいくつかの会社を設立し、スタートアップエコシステムに積極的に関わっています。セマンティック分析と検索エンジンに情熱を注ぐ彼は、科学的なGoogleの出版物を分析するのが大好きで、SEO会議で定期的に講演を行っています。

AIと機械学習とは何ですか？

AIにはたくさんの定義があります。

Googleの仕事の多くは、機械学習の仕組みにつながるニューラルネットワークに焦点を当てています。分類器のトレーニングに使用される、特定の機能を強調するためにマークアップされた、理想的なデータセットを表すデータのセットを使用します。次に、これらは他のデータセットに適用され、サンプルセットから学習した内容に基づいて新しい情報を分析および分類します。それが機械学習です。

AIがカバーするエリア

–自然言語

AIは、自然言語の理解を深めるなど、さまざまな分野をカバーできます。関係するテクニックはたくさんあり、Googleから出てくるものの多くは、自然言語分析に関係するものを示しています。

–質問応答

最近の特許（リンク）は、質問応答スキーマの空白を埋めようとしています。

これは、Googleが知識グラフを使用して質問に対する答えが何であるかを理解する方法を説明しています。たとえば、エンティティの情報が不足している、またはデータが正しくない場合、Googleは関連する事実に関連する情報に基づいて回答を推定しようとする場合があります。

この特許の興味深い点は、Googleが見積もりを使用して質問に回答しているのではなく、見積もりの説明を提供していることです。

–人間の思考を模倣する（ニューラルネットワーク）

機械学習はAIに基づいており、人間の思考が機能する方法を模倣しています。機械学習ネットワークは、脳内のニューロンの働きを再現するように構築されているため、ニューラルネットワークと呼ばれます。

ランクブレイン

–ハチドリと単語の文脈との関係

ランクブレインとハミングバードはどちらもクエリ書き換えアプローチです。 Hummingbirdは、クエリ内のすべての単語を調べることで、クエリのコンテキストをよりよく理解しようとしました。以前は、Googleは文脈を理解するために隣り合った単語のみを調べていました。ハチドリは言葉を超えてすぐ隣に見えます。会話型クエリでは全文が考慮される場合もあります。 Hummingbirdは、コンテキストを理解するために、クエリ内のすべての単語を一緒に使用しようとしました。

–単語埋め込みアプローチを使用したRankbrainでのクエリの書き換え

Hummingbirdとは異なり、Rankbrainは単語埋め込みアプローチを使用します。短いテキストの一部を調べて、欠落している単語があるかどうかを判断できます。これは、大量のデータセット（2,000億語）でトレーニングすることによって行われます。

–クエリで欠落している単語を見つける

たとえば、「ニューヨークタイムズパズル」というクエリは、「クロスワード」という単語が欠落していると正しく解釈できます。ランクブレインは不足している単語をクエリに追加し、ニューヨークタイムズのクロスワードパズルの結果を検索者に返します。これはおそらく彼らが望んでいることだからです。

–ランクブレインを最適化できますか？

ランクブレイン用にページを最適化することはできないことに注意することが重要です。一部のSEOは、あなたができると言っている記事を書いています。ただし、Billがアルゴリズムについて見てきたすべてのことから、これはクエリの書き換えプロセスであり、ページの評価に影響を与えるものではないことが示唆されています。

機械学習を使用した追加のGoogleアルゴリズム

Googleには、検索エンジンを駆動する単一の「アルゴリズム」はありません。それはそれがどのように機能するかに貢献する多くの異なるアルゴリズムを持っています。ランクブレインは多くの1つです。

–カテゴリ内の品質スコアの使用

これは、たとえば、Googleが特定のクエリに対して情報タイプの結果が多いと判断した場合、情報検索スコアやPageRankのような権限評価に基づいてページをランク付けするのではなく、カテゴリを検討する可能性があることを意味します。そこから、彼らはウェブサイトのカテゴリー内で品質スコアを与えるかもしれません。これにより、より多様な結果のセットが提供され、より高品質の結果をより迅速に結果の先頭に移動できるようになります。

–ナビゲーション結果のページ人気

このタイプのランキングアルゴリズムは、特にナビゲーションタイプの結果で、より人気のあるページ（人々がアクセスする傾向のあるページ）も優先します。検索者がページが見たいものであることをすでに知っている場合、そのページはカテゴリ品質スコアパラダイムで上位にランク付けされる傾向があります。

–SERPCTRの影響

カテゴリ品質スコアは、検索結果で頻繁に選択されるページも高品質のページであり、このカテゴリ品質アプローチの下でも上位にランク付けされることを示しています。

ただし、カテゴリ品質スコアのアプローチは間違いなく機械学習ですが、ランクブレインではありません。

検索者の状況に応じたニーズを満たすためのランクブレイン

ランクブレインは、クエリに何が欠けているのかを理解しようとしています。ランクブレインの最も重要な側面は、検索者の状況のニーズに応えようとすることです。この人がボックスにクエリを入力したとき、実際にはどういう意味でしたか？

過去のキーワードクエリと現在の会話および会話クエリ

口頭および会話タイプのクエリに移行する場合、過去に使用されたキーワードアプローチよりも多くの単語が含まれます。

検索者は、必要な情報を見つけるために使用する必要のある単語を推測しようとしています。そして、あなたはこの種の推測をする必要はないはずです。あなたが欲しいものを尋ねるなら、グーグルはそれを分析してあなたがおそらく何を意味したのかを決定することができるはずです。これがランクブレインの役割です。

自然言語処理アプローチ

私たちが目にしていることの1つは、Googleが自然言語処理にもっと注意を払っているということです。自然言語処理のアプローチが登場しています。

–ニューラルマッチング

Danny Sullivanは、彼がニューラルマッチングと呼んでいるものについて少しツイートしました。

過去数か月間、Googleは単語と概念をより適切に結び付けるためにニューラルマッチング–AIメソッドを使用してきました。ある意味でスーパーシノニムであり、クエリの30％に影響を与えます。それを探すのに「メロドラマ効果」とは何かわからない？私たちはそれをよりよく理解することができます。 pic.twitter.com/Qrwp5hKFNz
— Danny Sullivan（@dannysullivan）2018年9月24日

彼は、これはページ上の単語と文脈におけるそれらの単語の意味をよりよく理解するための手段であると述べました。彼は、1つの単語が文内でどのように配置されているかに応じて、3つまたは4つの異なることを意味する例をいくつか示しました。

–単語の埋め込み

Googleは、Webページなどの大量のテキストに対して、単語埋め込みタイプのアプローチ（これらの短いテキストクエリを理解するためにRankbrainで使用されているような）の使用に関する特許をリリースしています。

–セマンティックフレーム

セマンティックフレームは、特定の状況に理想的な言語を使用する場合です。それぞれの状況で、使用される特定の言語があります。たとえば、住宅ローンや不動産購入のコンテキストでのポイントは、サイコロやボードゲームのポイントと同じ意味を持ちません。

フレームワークを理解すれば、ページ上の単語のコンテキストをよりよく理解できます。

これは、意味自体が状況ごとに異なる単語を区別するのにも役立ちます。たとえば、「馬」は、馬術家と大工にとって同じことを意味するものではありません。他の特許も、意味の文脈上の違いを理解するための追加の方法を模索しています。

機械学習を使用して、文体に基づいて著者を特定する

機械が個人の文体を識別するのは非常に簡単です。不動産、スポーツなどの業界で標準化されたスタイルがあるため、これとコンテンツのテーマ別分類には類似点があります。

ビルは英語の学生として、文学を分析し、著者が自分自身を表現するさまざまな方法とその理由を調べました。

–著者は引用頻度を使用して特許を採点します

Googleは著者のスコアに関する特許を持っています。著者を採点するために考慮される要素の1つは、他の作家によって引用される頻度です。

–GoogleブックスN-Gramビューア

Googleは言語モデルで多くの仕事をしています。彼らはたくさんの本をスキャンしました。 N-Gramビューアを使用すると、フレーズの人気が何年にもわたってどのように変化するかを確認できます。

–言語モデルを使用したN.パンダによる品質スコア特許

N. Pandaによる品質スコア特許は、N-gramの使用と言語モデルの構築について、他の言語モデルとの比較に基づいてWebページの品質を理解することについて説明しています。

これは、検索エンジン技術における機械学習の優れた例です。以前にスコアリングされたページのデータセットがあり、新しいページを元のサンプルセットのデータに基づくページと比較しています。これは品質を判断するために使用されるため、元のセットの適切に記述されたページの特性を含むページのスコアが高くなります。

このタイプの言語モデルは、さまざまな作者の文体を理解するためにも使用できます。

構造化データによる将来の機械学習

機械学習は、Googleがエンティティを管理する方法、翻訳、およびCindyKrumがFragglesと名付けたものの外観からも明らかです。

–パッセージに回答し、テキストコンテンツを強化する

回答のパッセージについて説明している別の特許があります。この特許では、Googleが、ウェブページにあるテキストのパッセージを使用して質問への回答を提供するメカニズムを提案しています。これは最近更新され、テキストの一部だけでなく、テキストを補強する構造化データも確認できるようになりました。

–ファクトチェックと一貫性

スキーマを使用すると、情報に冗長性がもたらされます。これにより、テキスト情報を構造化マークアップで提供される情報と比較することにより、Webページ上の情報ファクトの一貫性をチェックする手段がGoogleに提供されます。

これは、Googleが名前、住所、電話番号を調べるGoogleマップで発生するのと同じことです。

一貫性は、答えが正しい可能性が高いという信頼度を提供します。

–FAQページとハウツーページ

GoogleがFAQページとハウツースキーマのサポートを導入するにつれて、サイト所有者がWebページのテキストに入力する可能性のあるものを反映するスキーマを構築する手段に移行していることがわかります。

Webページのコンテキストを理解するための戦略

Googleは、ウェブページ内のコンテンツをよりよく理解するために他の措置を講じています。ここにいくつかあります：

–知識ベースとコンテキスト用語の使用

Googleの特許は、知識ベースを調べ、それらの知識ベースからコンテキスト用語の定義を収集する可能性があることを示しています。次に、Webページでこれらのコンテキスト用語の存在を探して、単語のコンテキスト依存の意味が最も可能性が高いかどうかを判断するのに役立てることができます。

したがって、馬（動物）に関するページには「鞍」などの単語が含まれている可能性がありますが、他の種類の馬に関するページには「大工」などの単語が含まれている可能性があります。

–フレーズベースのインデックス作成

ページ上のトピックを理解するための意味学習への別のアプローチは、2004年頃のものです。フレーズベースの索引付けは古いだけでなく、少なくとも20の特許の対象であり、何度か更新および修正されています。これらすべては、フレーズベースのインデックス作成がGoogleのアルゴリズムで非常に重要なものであることをBillに示しています。

–トピック予測フレーズの転置インデックスの構築

フレーズベースのインデックス作成に関連する特許の1つは、ページに表示され、トピックを予測するフレーズの転置インデックスを作成することを説明しています。例としては、「米国大統領」、「国務長官」、「ローズガーデンインタビュー」など、「ホワイトハウス」のセマンティックトピックを予測するフレーズがあります。

スキーマのウェブマスターの主題知識

Googleはスキーマのようなものの使用を開発していますが、スキーマによって記述されるもののタイプの定義はウェブマスターによって提供されます。このようにして、ウェブマスターは検索エンジンとともに知識グラフの作成に貢献することができます。

たとえば、Googleはスキーマの側面として「知識」を追加しました。ただし、ウェブマスターは、弁護士が海事法または特許法について知ることができ、それが知識グラフの記入に役立つことを示すものです。

知識の機械ベースの表現は、共同作業です。

[ケーススタディ]Googleのボットクロールの管理

26,000を超える製品リファレンスがある1001Pneusは、SEOパフォーマンスを監視し、Googleが適切なカテゴリとページにクロール予算を費やしていることを確認するための信頼できるツールを必要としていました。 OnCrawlを使用してeコマースWebサイトのクロール予算を適切に管理する方法を学びます。

ケーススタディを読む

進化する検索と時代遅れのSEO慣行

–代替テキストで繰り返される単語

人の写真に2回名前を付ける必要があることをグーグルに伝えても、グーグルがそれを二度理解するのに役立たない。検索エンジンによるページの価値の見積もりが減少する可能性さえあります。

–小規模な静的データベースを対象としたLSI

ツールメーカーは、SEOが古い技術を使用することを提案し続けています。 1つの例は、1989年に開発された潜在意味索引付け（LSI）です。これは、Webのサイズではなく、Webの速度で成長しない小さな静的データベースを対象としています。

LSIを使用するたびに、最新バージョンのデータベースが必要です。コーパスに情報を追加し続ける場合は、コーパスを再度実行する必要があります。これは、Webにはあまり役に立たないことを意味します。

– TF-IDFは、完全なコーパスへのアクセスでのみ機能します

TF-IDF（用語頻度-インデックスドキュメント頻度）は別の例です。これは、インデックスに登録されている情報の完全なコーパス（この場合はワールドワイドウェブ）にアクセスできる場合に最適に機能します。 TF-IDFは、最も一般的な単語と、コーパス全体でまれな単語を知りたい場合に使用します。ただし、Web全体ではなく、特定の用語の上位10位のページのコーパスのみを使用する場合、実際の用語の頻度を確立することはできません。

これは、分析の精度に深刻な影響を与える可能性があります。

ウェブマスターの期待とGoogleの機能：Googleからのコミュニケーションの必要性

最近の発表にもかかわらず、ページネーションマークアップが検索エンジンに役立たないことを実際には知りません。

ページ付けされたページの重複コンテンツを管理するためにページ付けマークアップは使用されなくなりましたが、Googleには一定の期待があります。彼らは、ページがシリーズになっているときを理解できる必要があります。このような発表は、グーグルが彼らの仕事にどれほど良いか悪いかを知ることの難しさを明らかにしている。

頻繁に共起する単語を使用する

ビルのお気に入りの技術的なトリックは、特定の用語で上位にランク付けされる頻繁に共起する単語を調べ、本文と、自分のページから関連ページを指すアンカーテキストの両方でそれらを使用することを確認することです。これは、検索エンジンによって「エキスパートリンク」として扱われると思われる「アンカーヒット」を利用します。

この戦略は、フレーズベースのインデックス作成から導き出されます。

–フレーズの共起の統計的確率

フレーズベースのインデックス特許は約2年前に更新されました。このアプローチでは、ページに表示される関連用語の数を使用してページをランク付けします。

ただし、統計的に推定可能な数を超える関連用語がページに表示される場合は、スパムとしてマークされる可能性があります。たとえば、トピックの多くのページをスクレイプしてすべてを1つのページに配置した場合、関連する用語が多すぎて自然に発生しません。

これは、ビルがキーワード調査を行う方法とよく一致します。彼は類似したページを見て、頻繁に発生する類似したフレーズまたは単語のリストを作成します。ランク付けしようとしていない場合でも、彼は自分のページでそれらのいくつかを使用しようとする場合があります。これにより、彼がランク付けしたいキーワードに関連するコンテンツが作成されます。

LSIと同義語または意味的に関連するコンテンツの使用

LSIをめぐる誇大宣伝は、ビルの最も嫌いなトピックの1つです。これは、この用語が誤解を招くためです。 LSIについての話が潜在意味索引付けとは何の関係もないときに、多くの人が示唆していること。代わりに、同義語または意味的に関連するコンテンツをページに追加することを提案しているだけです。

フレーズベースのインデックスの転置インデックス、およびコンテキスト用語を提供できるナレッジベースは、上位の用語を厳密に探している場合に役立つ可能性のある単語を見つけるために、用語とアクセスできるソースがあることを示します。キーワードのページ。

Googleの推定では、同義語のように見える単語がそうでない場合があります。

URL送信ツールを使用したクイックインデックス

新しいバージョンのGoogle検索コンソールのURL送信ツールは、ページのインデックスを作成するための非常に簡単な方法です。 Billは、更新が1〜2分以内にSERPに伝播されるのを確認しました。

ビルの将来のマークアップへの期待：特許に関する詳細情報

対象者の質問：将来、どのスキーママークアップを追加してほしいですか？

彼は特許について多くのことを書いているので、ビルは特許のユニークな特徴を捉えるより良い方法を見たいと思っています。これらの機能の一部は次のとおりです。

クラス（特許が対処することを意図しているもの）
特許名、ただし「ページの主要エンティティ」はこの機能をカバーできます

グーグルはすでにスキーマ機能に基づいて検索することを許可しているので、最終的には特許検索を改善できるようになり、人々が特定のカテゴリーをカバーする特許を見るように頼むことができるようになります。

Answer Engine Optimizationは検索の未来ですか？

聴衆の質問：SEOは将来AEOになると思いますか？

ビルは、ある意味で、SEOは常にAEOであると信じています。

–回答エンジンとしてのGoogleの古い兆候

私たちは必ずしも進化を遂げているわけではありません。 Googleがこの方向に向かっていたことを示す15年前の兆候があります。たとえば、次のようになります。

2004年：ユーザーが単語の意味を検索できる辞書機能
2005年：「Justthefacts」ブログ投稿。最初の注目のスニペットまたは直接回答を示しています。10個の青いリンクを提供しても満足できませんでしたが、テキストによる回答を提供することをお勧めします。

– Sergey Brin：事実と事実間の関係を理解するためのアルゴリズムの特許

回答エンジンとしてのGoogleが新しいものではないことを示す別の兆候は、事実と事実間の関係を理解するためのアルゴリズムに関するSergeyBrinによる特許です。この特許には、5冊の本、そのタイトル、出版社、著者などが含まれていました。

理論では、ボットはこれらの本を検索してWebをクロールし、–

[OKGoogleによる中断]

–オーディオ透かし

極超短波を利用したオーディオ透かしの概念もあります。それらは人間の可聴範囲外になりますが、犬やコンピューターはそれらを識別できます。これにより、透かし入りのコマーシャルを聞いたことがあるという事実をさまざまなプロバイダーが追跡できるようになり、その製品に興味を持つ可能性があります。

これは少なくとも5年前からあり、SEOで議論されていることではありません。

トップチップ

「RankBrain、ニューラルマッチング、ウェブ上の機械学習などのトピックについては、多くの誤った情報があります。一部には、慎重に調査された事実と誤った情報が混在しているため、信頼できるものに注意してください。」

軌道上のSEOは宇宙に行きました

6月27日に宇宙への航海を逃した場合は、ここでそれをキャッチして、宇宙に送ったすべてのヒントを見つけてください。