Google インデックスの余分なページを削除するにはどうすればよいですか?

公開: 2023-12-06

サイバースペースの風景に浮かぶウェブページ。

サイズや色のバリエーションが豊富な何千もの製品を扱う e コマース Web サイトがあるとします。 Google Search Console のインデックスカバレッジレポートを使用して、Web サイトの Google 検索結果のインデックス付きページのリストを確認します。

驚いたことに、Web サイトに必要なページよりもはるかに多くのページが表示されます。なぜそのようなことが起こるのでしょうか?どうすればそれらを取り除くことができますか?

YouTube の「Ask Us Anything」シリーズでこの質問に答えています。こちらがビデオです。この一般的な問題とその解決策については、以下で詳しく読むことができます。

なぜこれらの「余分な」ウェブページが Google のインデックスに表示されるのでしょうか?
Google のインデックスから「余分な」ウェブページを削除するにはどうすればよいですか?
まとめ
FAQ: ウェブサイトの Google インデックスから余分なページを削除するにはどうすればよいですか?

なぜこれらの「余分な」Web ページが Google のインデックスに表示されるのでしょうか?

この問題は、e コマース Web サイトでは一般的です。 e コマース Web サイトで追加の URL が生成されるため、「追加」Web ページが Google のインデックスに表示されることがあります。

その方法は次のとおりです。 Web サイトで検索パラメータを使用して製品の特定のサイズまたは色を指定すると、通常は、そのサイズまたは色の選択に対して新しい URL が自動的に生成されます。

これにより、別の Web ページが作成されます。「別の」製品ではない場合でも、リンクを通じて Google によってその Web ページが検出された場合、メインの製品ページと同様にインデックスに登録できます。

これが発生し、サイズと色の組み合わせが多数ある場合、1 つの製品に対して多数の異なる Web ページが作成される可能性があります。 Google がこれらの Web ページ URL を検出すると、1 つの製品に対して Google インデックスに複数の Web ページが登録される可能性があります。

Google のインデックスから「余分な」Web ページを削除するにはどうすればよいですか?

canonical タグを使用すると、これらすべての製品バリエーション URL が同じ元の製品ページを指すように取得できます。これは、色の変更など、重複に近いコンテンツを処理する正しい方法です。

この問題を解決するために正規タグを使用することについて Google は次のように述べています。

正規 URL は、サイト上の一連の重複ページから最も代表的であると Google が判断したページの URL です。 たとえば、同じページの URL (example.com?dress=1234 と example.com/dresses/1234) がある場合、Google は 1 つを正規として選択します。 ページが完全に同一である必要はありません。 リストページの並べ替えやフィルタリングに若干の変更を加えても、ページがユニークになるわけではありません (たとえば、価格による並べ替えや商品の色によるフィルタリングなど) 。

Google はさらに次のように述べています。

複数の URL からアクセスできる 1 つのページ、または同様のコンテンツを含む別のページがある場合、Google はこれらを同じページの重複バージョンとして認識します。 Google は 1 つの URL を正規バージョンとして選択し、それをクロールします。その他の URL はすべて重複 URL とみなされ、クロールの頻度が低くなります。
どちらの URL が正規であるかを Google に明示的に伝えないと、Google が選択するか、両方の URL が同等であるとみなして、望ましくない動作が発生する可能性があります。

しかし、これらの「余分な」ページにインデックスをまったく作成したくない場合はどうすればよいでしょうか? 私の意見では、この状況では正規の解決策が最善の方法です。

しかし、過去にインデックスからページを削除するために使用されてきた解決策が他にも 2 つあります。

robots.txt でページをブロックする (推奨されません。その理由については後ほど説明します)
ロボットメタタグを使用して個々のページをブロックする

Robots.txt オプション

robots.txt を使用して Web ページをブロックする場合の問題は、これを使用しても Google が Web ページをインデックスから削除するわけではないことです。

Google 検索セントラルによると、次のようになります。

robots.txt ファイルは、検索エンジンクローラーに、サイト上のどの URL にアクセスできるかを伝えます。 これは主に、リクエストによるサイトの過負荷を避けるために使用されます。 これは、Web ページを Google から遠ざけるためのメカニズムではありません。

また、robots.txt 内の disallow ディレクティブは、ボットがページをクロールしないことを保証するものではありません。 robots.txt は任意のシステムであるためです。 ただし、主要な検索エンジンのボットがあなたの指示に従わないことはまれです。

いずれにせよ、これは最適な最初の選択肢ではありません。そしてGoogleはそれを推奨しません。

ロボットのメタタグオプション

Google は robots メタタグについて次のように述べています。

robots メタタグを使用すると、ページ固有のきめ細かなアプローチを利用して、個々のページをインデックスに登録し、Google 検索結果でユーザーに提供する方法を制御できます。

robots メタタグを任意の Web ページの <head> セクションに配置します。次に、XML サイトマップの送信を通じて、または自然にそのページをクロールするようにボットに促します (これには最大 90 日かかる場合があります)。

ボットがページをクロールするために戻ってくると、ロボットのメタタグに遭遇し、検索結果にページを表示しないという指示を理解します。

まとめ

つまり、要約すると次のようになります。

canonical タグの使用は、Google で「余分な」ページがインデックスに登録されるという問題（e コマース Web サイトの一般的な問題）に対する最良かつ最も一般的な解決策です。
ページのインデックスをまったく作成したくない場合は、robots メタタグを使用して、それらのページの処理方法を検索エンジンボットに指示することを検討してください。

まだ混乱していますか、それとも誰かにこの問題を解決してもらいたいですか? 余分なページを削除し、Google インデックスから削除するお手伝いをいたします。 無料相談の予約はこちらから。

FAQ: ウェブサイトの Google インデックスから余分なページを削除するにはどうすればよいですか?

ウェブサイトの Google インデックスに余分なページが存在するという問題は、重大な障害となる可能性があります。このような余剰ページは、e コマースサイトの製品バリエーションなどの動的なコンテンツ生成によって発生することが多く、サイトのパフォーマンスに影響を与える乱雑なインデックスが作成されます。

根本原因を理解することが重要です。特に、e コマース Web サイトは、さまざまな製品属性によって 1 つの製品に対して複数の URL が生成されるという課題に直面しています。これにより、多くのページがインデックスに登録され、サイトの SEO とユーザーエクスペリエンスに影響を与える可能性があります。

これに対処するための最も信頼できるソリューションは、canonical タグの使用です。 canonical タグは Google にページの優先バージョンを通知し、インデックス作成機能を単一の代表的な URL に統合します。 Google 自体もこの方法を推奨しており、重複に近いコンテンツを処理する場合の有効性を強調しています。

robots.txt を使用して Web ページをブロックすることを検討する人もいるかもしれませんが、それは最適ではありません。 Google は、robots.txt をインデックスから削除するツールとしてではなく、クローラーのアクセスを制御するための指示として解釈します。対照的に、ロボットメタタグは、より的を絞ったアプローチを提供し、個々のページのインデックス付けを正確に制御できます。

canonical タグは引き続き頼りになるソリューションです。ただし、インデックスから完全に削除することを強く希望する場合は、ロボットメタタグが戦略的な味方になる可能性があります。効率的なインデックスと SEO のベストプラクティスのバランスを取ることが、オンラインプレゼンスを効果的に最適化する鍵となります。

ウェブサイトの Google インデックスから余分なページを削除する方法を習得するには、問題の理解、canonical タグなどのベストプラクティスの実装、および特定のシナリオに対する代替案の検討を戦略的に組み合わせる必要があります。これらの戦略を採用することで、ウェブマスターはサイトの SEO を強化し、ユーザーエクスペリエンスを向上させ、クリーンで効率的なオンラインプレゼンスを維持できます。

段階的な手順:

余分なページを特定する: 徹底的な監査を実施して、ウェブサイトの Google インデックス内のすべての余分なページを特定します。
根本原因の特定: 動的コンテンツ要素に焦点を当てて、これらのページが生成される理由を理解します。
Canonical タグを優先する: ほぼ重複したコンテンツに対する主要なソリューションとして Canonical タグの使用を強調します。
正規タグの実装: 統合に優先するバージョンを指定して、正規タグを関連するすべてのページに適用します。
Google の推奨事項を確認する: 戦略を Google のガイドラインに合わせて調整し、互換性と順守を確保します。
Robots.txt オプションを評価する: robots.txt を検討する前に、制限事項と潜在的な欠点を理解してください。
ロボットメタタグの展開: ロボットメタタグを戦略的に使用して、必要に応じて特定のページのインデックス作成を制御します。
SEO への影響のバランスをとる: 情報に基づいた意思決定を行うために、SEO とユーザーエクスペリエンスに対する各ソリューションの影響を考慮します。
定期的なモニタリング: インデックスの変化をモニタリングし、実装された戦略の有効性を評価するためのルーチンを確立します。
反復的な最適化: 進化するサイトダイナミクスと Google アルゴリズムに基づいて戦略を継続的に改良し、最適化します。

Web サイトの独自の特性と SEO の状況の変化に基づいて、これらの手順の改良と適応を続けます。