[ウェビナーダイジェスト]軌道上のSEO：インデックス作成の秘密を解き明かす

公開: 2019-11-06

ウェビナー「インデックス作成の秘密を解き明かす」は、OrbitシリーズのSEOの一部であり、2019年6月12日に放送されました。このエピソードでは、Kevin Indigが、ページのインデックス作成に関する考え、サイトのインデックス作成されたページがサイト全体にどのように影響するかについて説明します。ランキング、およびどのページをインデックスに登録すべきでないか。ページを検出してからSERPに表示するまでの、この中間ステップに向けた正しいアプローチは何ですか？

SEO in Orbitは、SEOを宇宙に送る最初のウェビナーシリーズです。シリーズ全体を通して、私たちは技術的なSEOの現在と未来について、最高のSEOスペシャリストの何人かと話し合い、2019年6月27日に彼らの最高のヒントを宇宙に送りました。

ここでリプレイを見てください：

ケビン・インディグの紹介

Kevin Indigは、過去10年間で、スタートアップが+1億人のユーザーを獲得するのを支援してきました。彼はVPSEO＆CONTENT @ G2、Growth @ GermanAcceleratorのメンターであり、以前はSEO@AtlassianとDailymotionを運営していました。彼の専門は、ユーザー獲得、ブランド構築、およびユーザー維持です。 Kevinが協力した企業には、eBay、Eventbrite、Bosch、Samsung、Pinterest、Columbia、UBSなどがあります。彼はまた、厳選されたテクニカルマーケティングニュースレター、TechBoundを運営しています。

このエピソードは、OnCrawlのコンテンツマネージャーであるRebeccaBerbelが主催しました。特にNLPと言語のマシンモデル、そしてシステムとそれらが一般的にどのように機能するかに魅了されたRebeccaは、技術的なSEOの主題に興奮することは決してありません。彼女は、テクノロジーを広め、データを使用して検索エンジンでのWebサイトのパフォーマンスを理解することを信じています。

定義

インデックス作成について話すことが重要な理由の1つは、それが複雑なトピックであるということです。多くのSEOは、インデックス作成とそれに影響を与える方法に苦労しています。

次のSEOクイズの時間です。

新しいページを作成します。次のうちどれがGoogleのインデックスからそれを遠ざけるでしょうか？
A.メタロボットnoindex
B.Robots.txtブロック
C.ページにmetanoindexを指定し、robots.txtでブロックする
— Will Critchlow（@willcritchlow）2019年6月9日

–クロール

簡単に言うと、クロールは、検索エンジンがWebページとそのすべてのコンポーネントを理解するための技術的な発見プロセスです。

これにより、Googleは、戻ってレンダリングし、インデックスを作成して最終的にランク付けできるすべてのURLを見つけることができます。

–Googleの3ステップのプロセス

クロールは、検索結果を作成できるようになるまでのGoogleの3ステップのプロセスの一部です。

クロール
レンダリング
インデックス作成

これらは技術的に異なるプロセスであり、異なるプログラムまたは検索エンジンの一部によって処理されます。

ランキングは、このプロセスの4番目のステップになる可能性があります。

–インデックス作成

インデックス作成は、Googleが可能な結果の長い「リスト」にURLを追加するプロセスです。ケビンがインデックスの定義で「インデックス」という単語を避けなければならない場合、彼は比喩的な「リスト」について話すことを好みます。Googleには、ランク付けしてユーザーに最良の結果として表示するために使用できるURLの「リスト」があります。。

- ログファイル

Webサーバーは、誰かまたは何かがサーバー上のページまたはリソースを要求するたびに履歴を保持します。

Kevinは、Googleがサイトをクロールしてレンダリングする方法を理解することに関して、信頼できる情報源としてログファイルに非常に情熱を注いでいます。

ログには、Googleがサイトにアクセスする頻度と、サイトで何が行われるかに関するサーバー情報が、非常にわかりやすく簡単に表示されます。ログファイルには、サイトへの各訪問の個々の記録が含まれています。

ログファイルから大量の情報を取得できます。

特定のステータスコードエラー
クロールに関する問題
レンダリングの問題
Googlebotがサイトに費やす時間
どのGooglebotがあなたのサイトにやってくるか。たとえば、モバイルファーストインデックスでは、インデックス作成に使用されるメインのGooglebotが最近更新されました。
あなたの技術的なサイト構造がグーグルが従うものであるかどうか、あるいはあなたがそこに最適化できる何かを持っているかどうか。

インデックスを確認する方法

–非推奨：「サイト：」クエリ

ケビンが約10年前にSEOを始めたとき、彼はGoogleで「site：」検索を実行することによって自分のサイトのどのページがインデックスに登録されているかを確認していました。彼はまだこれを時々使用していますが、URLがインデックスに登録されているかどうかを確認するための信頼できる方法ではなくなりました。

最近では、彼はジョン・ミューラーにこの戦略について尋ねました。彼は、これがGoogleがインデックスを作成したかどうかを確認するための推奨される方法ではなくなったことを確認しました。

–推奨：検索コンソールのURL検査

John Muellerは、代わりに、検索コンソールのURL検査ツールを使用して、インデックスに登録されているものを確認することをお勧めします。

キャッシュされたページは常にインデックス付けされたものを表すとは限らず、通常はフェッチされた静的HTMLのみです（JavaScriptが含まれている場合、通常はキャッシュされたホスティング内で実行されません）。 URL検査ツールにもっと焦点を当てたいと思います。

— ???? ジョン???? （@JohnMu）2019年5月8日

–推奨：XMLサイトマップとカバレッジレポート

検索コンソールでXMLサイトマップを送信することは、URLのバッチを確認してから、検索コンソールのカバレッジレポートでサイトマップを確認する1つの方法です。

クロールレンダーインデックスを区別する上での重要性

前述のように、Googleがページをクロール、レンダリング、インデックス作成する3つのステップのプロセスがあります。これらの各ステップを区別することは非常に重要です。ウェブがより洗練されるにつれて、グーグルはこれらのプロセスを個別に適応させ、分離し、改善しなければなりませんでした。

さまざまなGooglebot

Googleは複数のGooglebotを使用して、ウェブサイトをクロールしてレンダリングします。画像、動画、ニュース、テキストなど、さまざまな種類のリソースがあります。Googleは、さまざまなGooglebotを使用して各種類のコンテンツを理解しています。

Googleは、約1か月前に、レンダリングエンジンをアップグレードして、常緑のGooglebotと最新のChromiumエンジンで実行できるようにしたと発表しました。

クロールとレンダリングはインデックス作成につながる必要な手順であるため、これは重要です。

Googleのプロセスにおける優先順位の変更

インデックス作成の目的で、GoogleはデスクトップのGooglebotでクロールしていました。それは変更されました。彼らは現在、インデックス作成の目的でスマートフォンのGooglebotを使用しています。

モバイルファーストのインデックス作成は、2019年7月からすべての新しいサイトに適用され、既存のすべての既知のサイトがまだ切り替えられていない場合は、それらのサイトに適用されます。

クロール：Googleがインデックスに登録するURLを見つける方法

ページのインデックスを作成できるようにするには、Googleがページをクロールする必要があります。

インデックス作成に至るプロセスの最初のステップとして、ページが正しく迅速にインデックス作成されるようにするには、クロールが「安全で健全」であることを確認する必要があります。

GoogleがURLを見つける方法は基本的に3つあります。

リンク：これは、PageRankの特許全体が基づいていたものです-ハイパーリンクを介して新しいサイトを見つける
XMLサイトマップ
過去のクロール

– GoogleがURLを優先する方法（クロール予算）

Googleは、クロールするサイトとその頻度を優先します。これは、「クロール予算」と呼ばれることがよくあります。

グーグルがどのサイトをクロールするかについて優先する方法についていくつかのアイデアを与えたクロール予算についてのグーグルウェブマスターブログの記事がありました。

–人気：バックリンクとPageRank

この記事で確立されたポイントの1つは、PageRankがWebサイトのインデックス作成の速度とボリュームの背後にある主要な推進力であるということです。

もちろん、バックリンクはPageRankの主要なコンポーネントであるため、クロール速度とインデックス作成に影響を与えます。

–ステータスコード

ステータスコードも考慮されます。たとえば、サイトに404ページがたくさんある場合、Googleはクロールの頻度を減らす可能性があります。

別の例は、リダイレクトチェーンとループです。

–サイトの衛生

サイトが多くのクロール予算を浪費するように編成されている場合、Googleはサイトに費やす時間を削減する可能性があります。

–ページ速度とサーバー応答時間

クロールバジェットは、ページ速度とサーバー応答時間にも影響します。 GoogleはあなたのサイトをDDoSしたくありません。サーバーが要求した速度でページとリソースを提供するのに苦労していることがわかった場合、サーバーはクロールに関してサーバーが処理できるものに調整されます。

レンダリング：カフェインの更新

数年前にリリースされたカフェインの更新は、基本的にGoogleのレンダリング構造の更新でした。

インデックス作成：コンテンツタイプごとに異なるクラスター

Googleがさまざまな結果を返すために使用するインデックスのさまざまなアーカイブがあります。ニュース結果のインデックスと画像結果のインデックスなどに異なるクラスターがあることを想像するのは合理的です。

ランキング：個別のアルゴリズム

最後に、インデックス付きURLがランク付けされますが、これはまったく異なるアルゴリズムです。

インデックス作成速度の向上

ページのインデックス作成を高速化することと、より多くのページのインデックスを作成することの両方が、PageRank、したがってバックリンクの影響を大きく受けます。しかし、それぞれを改善するための戦略は異なります。

ページのインデックス作成を高速化する場合は、最初の2つの手順（クロールとレンダリング）を最適化する必要があります。これには、次のようなコンポーネントが含まれます。

内部リンク
サイトマップ
サーバーの速度
ページ速度

索引付けされたページ数の改善

より多くのページをインデックスに登録したい場合は、クロールの側面がより重要になります。 Googleがすべてのページを簡単に見つけられるようにする必要があります。これは、数千のURLを持つ小さなWebサイトでは簡単ですが、数百万のURLを持つ大規模なサイトでははるかに困難です。

たとえば、G2にはさまざまなページタイプのページがたくさんあります。 KevinのSEOチームは、クロールの深さやそのタイプのページの数に関係なく、Googleがすべてのページを見つけられるようにしたいと考えています。これは、さまざまな角度から取り組む必要のある大きな課題です。

ページプロファイルによるクロールレートの変動

ページの種類に基づいて、KevinはGoogleによるさまざまなクロールレートを見つけることがよくあります。これは多くの場合、URLの被リンクプロファイルと内部リンクに依存します。これは、彼がログファイルを最もよく使用している場所です。

彼は、サイトがクロール効率に欠けている場所やクロール効率が高すぎる場所を理解するために、ページタイプごとにサイトをセグメント化します。

クロール速度、インデックス作成速度、ランクの関係

Kevinは、各タイプのページのクロール速度、インデックス作成速度、ランクの間に明確な相関関係があることを絶対に観察しています。これは、彼が協力してきたサイト全体だけでなく、業界の他のSEOにも対応しています。

クロール、インデックス作成、ランク付けの間に因果関係を示すことなく、ページのランク付けに関しては、インデックス作成を促進する同様の要素も考慮されているように見えます。たとえば、特定の種類のページ（例：ランディングページ）の特定のページテンプレートへのバックリンクが大量にある場合、ログファイルに表示されるのは、Googleがこれらのページのクロール率を高くしている場合です。サイトでは、Googleはこれらのページのインデックス作成も高速化し、通常、これらのページを他のページよりも上位にランク付けします。

すべてのサイトに有効な普遍的なステートメントを作成するのは難しいですが、Kevinは、ログファイルをチェックして、これが自分のサイトにも当てはまるかどうかを確認することをお勧めします。 OnCrawlはまた、これが分析した多くの異なるサイトに当てはまることを発見しました。

これは、彼が思いついた内部リンクのTIPRモデルで概説しようとしたことの一部です。

クロール速度の測定

クロール率を測定するには、次の質問に答えます。特定のGooglebotが特定のURLにアクセスする頻度はどれくらいですか。

この別の質問をどのように「スライスしてさいの目に切る」か。 Kevinは、Googlebotのヒット数を週単位で確認するのが好きです。また、毎日または毎月それを見ることができます。

–前後に焦点を当てる

使用する期間よりも重要なのは、クロール速度の変化を確認することです。変更を加える前と実装した後は、レートを確認する必要があります。

–ページタイプ間の違いに焦点を当てる

クロール率を測定するためのもう1つの鍵は、サイトのどこにギャップがあるかを調べることです。ページタイプレベルで、クロールレートの違いはどこにありますか？どのページタイプが1トンクロールされますか？クロールされにくいページタイプはどれですか？

–クロール動作の一般的な観察

ケビンが過去に行ったいくつかの興味深い観察には、次のものが含まれます。

最もクロールされたURL：robots.txt
URL / URLのグループに費やされるほとんどの時間：XMLサイトマップ、特に少し大きくなった場合

ログファイルを調べてページタイプ間のクロール動作の違いを見つけることは、非常に目を見張るものがあります。毎日クロールされるURLと、月単位でクロールされるURLを探します。これにより、サイトの構造がクロール（およびインデックス作成-間にステップがある場合でも）に対してどれほど効率的であるかについて多くのことがわかります。

ビジネスモデルに基づくクロール予算の配分

クロールの効率を向上させるための戦略は、通常、Googleが特定の種類のページに注意を向けないようにし、Webサイトでより重要なページにリダイレクトすることです。

これを処理する方法は、サイトでの変換の処理方法によって異なります。 Kevinは、2つの基本的なサイトモデルを区別しています。集中型と分散型のビジネスモデルです。

分散型モデルは、任意のページのユーザーを変換できます。良い例はTrelloです。どのページからでもサインアップできます。それらのページタイプはすべて比較的類似しています。サインアップに他のページよりも価値のあるページはないため、サイト全体でクロール速度を均一にすることが目的である可能性があります。つまり、すべてのタイプのページをほぼ同じ速度でクロールする必要があります。
一元化されたモデルは、Jiraのようなものかもしれません。 Jiraには、100万回複製できる単一のページタイプはありません。ユーザーがサインアップできるランディングページはごくわずかです。このようなサイトでのクロール予算が、コンバージョンポイント（ランディングページ）に集中していることを確認する必要があります。

クロール予算をどのように配分するかは、サイトがどのように収益を上げているか、そしてどのタイプのページがその中で最も重要な役割を果たすかという問題に戻ります。

クロール廃棄物への対処

Googlebotがコンバージョンにとってそれほど重要ではないページにクロール予算を費やさないようにするには、いくつかの方法があります。

クロールをスキップする最良の方法はrobots.txtです。

99.99999％のケースで、Googleはrobots.txtディレクティブを尊重します。
Robots.txtは、コンテンツが薄いまたは重複しているサイトの大部分でのクロールをブロックするのに役立ちます（典型的な例：フォーラムのユーザープロファイル、パラメーターURLなど）

ページのインデックスを作成せずに、クロールを支援したいという正当なケースがあります。 Kevinは、いくつかのハブページをこのカテゴリに分類すると見なします。これは、彼がメタnoindexを使用する場所です。

彼は、John Muellerがメタnoindexタグが最終的にnofollowとして扱われると言ったことを認識していますが、Kevinはこれまでこれが地上で発生するのを見たことがありません。彼は、これは非常に長い時間（1年以上）かかるためかもしれないと認めています。代わりに、彼はGooglebotが「貪欲」であると感じ、できるだけ多くのリンクを検索してたどる傾向があります。

Kevinのアドバイスは、robots.txtを使用し、それを最大限に使用することです。ワイルドカードといくつかの非常に洗練された手法を使用して、特定のものがクロールされないように保護できます。

従うべき経験則は、コンテンツが薄いほど、クロールから除外する候補になる可能性が高くなるということです。

robots.txtのクロールから除外されたページは、それらを指す内部リンクまたはバックリンクがある場合でも、Googleによってインデックスに登録できます。この場合、検索結果の説明テキストには、robots.txtの制限により、Googleがページをクロールできなかったことが示されます。ただし、一般的に、robots.txtで最近除外されたばかりでない限り、これらのページは上位にランク付けされません。

類似ページによるインデックス作成の問題

–正規エラー

プログラム的には、正規の宣言は非常に簡単に間違えられます。 Kevinは、カノニカルにコロン（:)ではなくセミコロン（;）があり、その後、多くの問題が発生するケースを数回見ました。

カノニカルは非常に敏感な場合があり、Googleがすべてのカノニカルを信用しないようにする可能性があります。これは大きな問題になる可能性があります。

ただし、カノニカルに関する最も一般的な問題の1つは、カノニカルを忘れることです。

–サイトの移行

多くの場合、サイトの移行はカノニカルの問題の原因です。 Kevinは、サイトが新しいドメインをカノニカルに追加するのを忘れたという問題を見てきました。

これは、特にCSMが移行中に変更を加えるために（プログラムではなく）手動で調整する必要がある場合に、非常に忘れがちです。

デフォルト設定では、別のURLを指す特別な理由がない限り、ページの正規はそれ自体を指す必要があります。

–HTTPからHTTPS

これは、正しいURLがインデックスに登録されないようにするもう1つの一般的な正規エラーです。標準形で間違ったプロトコルが使用されることがあります。

–Googleが宣言された正規を無視した場合のエラーの原因を見つける

Googleは時々独自の正規を選択します。彼らがあなたの宣言されたカノニカルを信用しないとき、通常根本的な原因があります。

Kevinは、2つの競合するシグナルをGoogleに送信する可能性がある状況を回避することを提案しています。

XMLサイトマップを調べます
自分のサイトをクロールして、欠陥のあるカノニカルを検索します
検索コンソールのパラメータ設定を調べて、競合する設定を見つけてください
noindexとcanonicalsを同時に使用しないでください

インデックスの肥大化に寄与するページの種類

10年前のSEOでは、インデックスを作成するためにできるだけ多くのページを送信したいと考えていました。インデックスを作成するページが多いほど、良い結果が得られます。

今日では、もはやそうではありません。あなたはあなたの店で最高品質のものだけが欲しいです。インデックスに標準以下のコンテンツは必要ありません。

「インデックスの肥大化」は通常、値を提供しないページタイプを説明するために使用されます。これは多くの場合、あらゆる種類の薄いコンテンツに戻ります。特に、新しいページごとに実質的な価値を提供せずに、既存のページの数を増やしたり増やしたりする場合はそうです。

特定のタイプのページのインデックスが作成されている数と、それらが追加の価値を提供するかどうかを確認する必要がある典型的なケースには、次のものがあります。

パラメーター
ページ付け
フォーラム
ディレクトリ関連のページまたは誘導ページ
サービスやコンテンツを区別しない広範なローカル（都市）ページ
ファセットナビゲーション

インデックス作成がサイト全体に与える影響

グーグルがあなたのサイト全体をどのように見て評価するかに影響を与えるので、今日はサブパーページをインデックスに登録したくありません。

これの多くは、予算をクロールするために戻ってきます。 GaryIllyesとJohnMuellerは、ほとんどのサイトはクロール予算について心配する必要はないとよく言っていますが、今日私たちが行っている種類のディスカッションの聴衆は、大きな違いを生む大規模なサイトです。

Googleが高品質のコンテンツのみを検出するようにする必要があります。

ケビンがクロール率、インデックス作成、ランキングの間で観察する関係と同様に、インデックス作成されたページの品質に注意を払うことは、サイト全体に利益をもたらすように見えることも観察しています。普遍的な声明を出すのは難しいですが、Googleにはそのサイトのインデックス付きページに依存するある種のサイト品質メトリックがあるようです。つまり、インデックスに登録されている低品質のコンテンツがたくさんあると、サイトに悪影響を与えるように見えます。

これは、インデックスの肥大化が有害である場合です。これは、サイト全体の品質の「スコア」を薄めるか下げる方法であり、クロール予算を浪費します。

迅速なインデックス作成のためのXMLサイトマップ

ケビンの意見は、グーグルがより賢くなるにつれて、「ハッキング」の数は時間とともに減少したというものです。

ただし、インデックス作成に関しては、何かをすばやくインデックスに登録する1つの方法は、XMLサイトマップを使用することであることがわかりました。

最近、G2は新しいドメインに移行しました。再クロールに時間がかかるページタイプが1つあるため、Googleのインデックスでは、このタイプのページのスニペットに古いドメインが表示されています。 Kevinは、301リダイレクトがまだクロールされていないために考慮されていないことを確認すると、このタイプのすべてのページをXMLサイトマップに配置し、検索コンソールでGoogleにサイトマップを提供しました。

この戦略は、KevinがGoogleにできるだけ早く理解してもらいたいという大きな技術的変更がサイトにある場合にも使用できます。

技術的なSEOの注目度の高まり

テクニカルSEOは、過去3年間で注目を集めています。多くの場合、技術的なSEOの質問は、実際に過小評価されている領域を浮き彫りにします。

あなたはしばしばコンテンツとバックリンクがあなたが世話をする必要がある唯一のものであると聞きます。ケビンは、これらがSEOの非常に影響力のある分野であると信じていますが、技術的なSEOを正しく理解していれば、さらに大きな影響を与える可能性があると考えています。

[電子ブック]クロール可能性

SEOのパフォーマンスを向上させるために、ウェブサイトがクロール可能性に関する検索エンジンの要件を満たしていることを確認してください。

電子ブックを読む

Q＆A

–1日あたり10,000URLのBingおよびインデックス作成

Bingは、ウェブマスターに、インデックス作成を高速化するために、ウェブマスターツールを介して1日あたり最大10,000のURLを直接送信する機能を提供します。

ケビンは、これがグーグルも向かう可能性のある方向であると信じています。 Googleでさえ、世界で最も価値のある企業の1つとして、リソースを保護する必要があります。これが、クロールリソースを浪費した場合に、それに応じて調整される理由の1つです。

この種の機能がウェブマスターにとって価値があるかどうかは、サイトのサイズにも依存します。 1日に非常に多くのURLを送信できることでメリットが得られるサイトの数は限られており、おそらく数千から数万になります。ケビンは、これらのサイトのために、グーグルはすでにかなりのリソースを捧げていると推測しています。もちろん、通常の例外を除いて、ウェブ上の最大のサイトの場合、Googleはそれらのインデックスを作成するというまともな仕事をしているようです。

Bingがこの規模で何かを実装するのは、おそらくはるかに簡単です。1つには、市場シェアがはるかに小さいため、この機能の需要は少なくなります。それらのインデックスサイズもかなり小さい可能性が高いので、おそらくより多くの利益を得ることができます。

–Googleがrobots.txtを無視する場合

Googleがrobots.txtを無視することはめったにありません。

Googleがrobots.txtを無視していると思われる場合があります。これは、前に説明したように、robots.txtによってブロックされているページをGoogleがインデックスに登録できる場合がありますが、それでも他の複数の方法で見つけることができます。

robots.txtファイルの構文が正しくない場合は、robots.txtのディレクティブをGoogleに無視させることもできます。

誤った文字
noindexディレクティブなど、機能しない、または機能しないはずのタグの使用

[注：Kevinは、Googleがrobots.txtファイルに表示されているnoindexディレクティブを尊重していることを発見したケーススタディを引用しています。ただし、このウェビナーが放映された直後に、Googleは、2019年9月1日より、robots.txtファイルでのこのディレクティブの暗黙のサポートの終了を発表しました。]

ただし、Googleはボットを高い水準に保ち、robots.txtを無視しない企業の1つです。

トップチップ

「PageRankは、インデックス作成の速度とボリュームの背後にある主要な推進要因です。」

軌道上のSEOは宇宙に行きました

6月27日に宇宙への航海を逃した場合は、ここでそれをキャッチして、宇宙に送ったすべてのヒントを見つけてください。