XML サイトマップ: 最適化のための主な推奨事項

公開: 2021-03-26

サイトの Sitemap.xml は、Google ボットにインデックスを付けてもらいたいページの適切なナビゲーションとして機能します。 適切な内部リンクがない場合でも、メイン ページをすばやく見つけることができます。

この記事では、XML サイトマップを最適化するためのさまざまな推奨事項と、その最適化の理由を紹介します。

目次

機能と利点

XML サイトマップ

ボットの作業を容易にし、サイト上のページやリンクを簡単に見つけることができなかった場合に「レポート」を取得できるようにします。

SEO のメリットには次のようなものがあります。

  • インデックス作成の高速化 – 検索エンジンは新しいページをはるかに高速に見つけるため、インデックス作成と検索結果での Web サイトの表示のプロセスが高速になります。 ここでの奇妙な点は、インデックス解除にも役立つことです (詳細はこちら)。
  • 内部ページのインデックス作成の改善 – 検索エンジンは、Web サイトのクロール時に見つからなかったページを見つけることができます。 しかし、これは必ずしもそれらすべてが索引付けされることを意味するわけではありません。
  • インデックスされたページの監視。 Google Search Console と組み合わせると、Google がインデックスに登録している XML サイトマップに含まれる URL を見つけることができます。

XML サイトマップは重要ですか?

サイトでは次のことが重要です。

  • 適切な構造を持っていないか、内部リンクが適切に配布されていません。

内部リンクの良し悪し

  • 多数のページがある – XML サイトマップは、検索エンジンが新しいページまたは更新されたページを見つけるのに役立ちます。

インフォグラフィック検索エンジン

  • 多くのインバウンドリンクを持たない - これはあなたのページを見つけるのに最適な方法です.

リンクのインフォグラフィック

要件とフォーマット

Google はいくつかのサイトマップ形式をサポートしています。 すべての形式と標準は、https://www.sitemaps.org/index.html のアドレスにあります。

すべての形式で、サイトマップが 50MB (非圧縮) および 50,000 アドレスに制限されています。 ファイルが大きい場合や住所が多い場合は、すべてのマップを含むインデックス ファイルを作成する必要があります (以下の記事で説明します)。

主な推奨事項は次のとおりです。

  • ファイルは UTF-8 でエンコードする必要があります。
  • 開始タグで始まり、… のような終了タグで終わる必要があります。 ;
  • タグで標準プロトコルを指定します。
  • 各 URL エントリのメイン タグ。
  • タグ内のプロトコル (https または http) で始まる URL を指定します。これは、保存のためにメイン タグに参加する必要があります。

XML サイトマップの追加のオプション属性

Google はそのサイトでこの属性を使用していません。 他のすべての属性が使用可能ですが、それらが反映されるかどうかによって異なります。 そのため、Google はこれらのタグをあまり重要視していないことに注意してください。 彼らです:

  • – ファイルが最後に変更された日付を表します。 W3C Datetime 形式である必要があります。
  • – ページが更新される頻度。 この値は、検索エンジンに関する一般的な情報を提供します。 有効な値は、常に、毎時、毎日、毎週、毎月、毎年、決してありません。

このタグの値は、コマンドではなくヒントと見なされることに注意してください。 ロボットはこの情報を見て考慮に入れますが、他の多くの要因に応じて、最終的にそれを使用するかどうかを自分で決定します。

  • – サイトの他の URL よりもその URL を優先します。 有効な値の範囲は 0.0 です。 1.0に。

ここでも、この優先度は相対的なものであり、ロボットの必須条件ではないこと、または少なくともそのようにまだ受け入れられていないことに留意する必要があります。 ただし、試してみる場合は、次のガイドを使用してください。

    • 0 – 0.3: 古いニュース、もはや有効ではないが歴史的に有用な情報。
    • 4 – 0.7: ブログ記事、ページ カテゴリ、よくある質問。
    • 8 – 1.0: ホームページ、製品ページ、最適化されたコンテンツを含むすべてのページ。

次の例は、URL を 1 つだけ含み、イタリック体で書かれたすべてのオプション タグを使用するサイトマップを示しています。

https://netpeak.bg

2018-09-15

毎月

0.8

重要なページの特定

高品質のページと適切に最適化されたページを追加します。 全体的な品質は、ランキングを上げるために非常に重要です。 これは、Google にとって深刻な要因であり、競合他社よりも優先される可能性があります。

Google bot も同様に、品質の低いページにアクセスしたくありません。 ユーザーにとって役に立たず、十分に最適化されていない何千ものページに誘導した場合、これはあなたにとって害になるだけです. 質の高いページとは? 簡単に言えば、これらは次のようなページです。

  • 独自のコンテンツが十分にある。
  • アクション(コメント、レビューなど)を促すことで、ユーザーをすばやく引き付けます。
  • 画像、動画などが含まれます。
  • Google ポリシーに違反しない。

索引付けのために開いているページ

クロール バジェットは通常、単位時間 (日、週、月など) あたりにクロールされるページ数を表します。 したがって、不必要に無駄にすることはお勧めできません。

「Noindex」メタ タグを含むページは、サイトマップに追加しないでください。 論理的な順序に従うことは、すべてにおいて重要です。

自動チェックを行い、インデックス作成のために閉鎖されたアドレスを含めないようにする必要があります。

次の指示に従うことをお勧めします。

  • ページ https://example.com/category/product にメタ タグ「noindex」がある場合、サイトの XML マップに含めないでください。

非インデックスのスクリーンショット

  • robots.txt によるインデックス作成のためにページが閉じられている場合、そのページは XML マップに含めるべきではありません。

許可しない: /category/product

Noindex: /category/product

  • ページが HTTP ヘッダーの X-Robots-Tag を介してインデックス登録のために閉じられている場合、サイトの XML マップにも含めないでください。

HTTP/1.1 200 OK

日付: 2010 年 5 月 25 日 (火) 21:42:43 GMT

(…)

X-Robots-タグ: noindex

(…)

ページの正規バージョン

類似したコンテンツを含む複数の URL から 1 つのページにアクセスすると、Google によって複製されたと見なされます。

「link rel canonical」属性を使用して、どのページが「メイン」ページで、どのページがクロールされてインデックスに登録されるかをボットに指示する必要があります。

ウェブサイトのインフォグラフィックの正規版

たとえば、ページ https://example.com/category/product-1 が https://example.com/product に正規化されている場合、http://example.com/category/product-1 は参加しないでください。 XML サイトマップ。

プロセスの自動化によって頭痛の種が確実に減り、手作業による検査の時間を節約できるため、自動化されたチェックを実行する必要があります。

200 OK を返すページ

200 OK 応答を返すアドレスを含めます。 自動チェックを行い、200 OK 以外の応答を返すアドレス (404、301 など) を含めないことが重要です。

たとえば、ページ https://example.com/product が 200 OK 以外の応答を返した場合、そのページはサイトマップに参加すべきではありません。

HTTP 応答ヘッダーのチェック

チェックには次のツールを使用できます: https://soft.galinov.com/ チェックします。

ページネーションからのページ

すべてのページを sitemap.xml に含める必要はありません。 ボットは、適切に記述されていれば、関連するカテゴリの最初のページからナビゲートできるほどスマートです。 次のことをお勧めします。

  • カテゴリのメイン ページのみを含めます。
  • ページを rel = next / rel = prev でマークして、ロボットがページ間のつながりを認識できるようにします。
  • ページネーションの各ページには、メイン ページではなく、それ自体への正規のガイドが必要です。これが逆の場合は、ボットに「5,000 個の製品と 20 ページがあるかどうかは問題ではありません。最初のものと同じです。」

たとえば、ページ https://example.com/category/page-2 はマップに参加しないでください。 ここでは、Google の公式見解と推奨事項を確認できます。

ファイルサイズを最小限に抑える

Google と Bing は 2016 年にファイル サイズを 10 MB から 50 MB に増やしましたが、それでもサイトマップをできるだけ小さく保つことをお勧めします。

Bing と Google サイトマップ

もちろん、心配する必要はありませんが、サイトマップに 50,000 を超える URL が含まれているか、サイズが 50 MB を超える場合は、より多くの XML マップに分割する必要があります。 この場合、すべての XML マップへの参照を別のサイトマップ インデックス ファイルに記述する必要があります。

XML サイトマップ インデックス ファイルとは

サイトマップ インデックス ファイルのインフォグラフィック

複数のサイトマップ ファイルを送信できますが、各ファイルは上記の規則に準拠している必要があります。 必要に応じて、gzip を使用してファイルを圧縮し、要件に従ってサイズを小さくすることができます。

インデックス ファイルの XML 形式は、通常のサイトマップ形式と非常によく似ています。 以下が含まれている必要があります。

  • タグを次のように開閉します。
  • メイン XML 属性が である各サイトマップのエントリ。
  • タグをメイン属性に追加します。

推奨属性も含まれています。

注:サイトマップ インデックス ファイルは、同じサイトにあるマップのみを一覧表示できます。 例えば:

https://example.com/sitemap_index.xml には、https://example.com のマップが含まれる場合がありますが、https://www.saitprimer.com または https://www.example.com のマップは含まれません。

他のすべてのファイルと同様に、インデックス ファイルは UTF-8 でエンコードする必要があります。

次の例は、2 つのマップをリストするサイトマップ インデックスを示しています。

http://www.example.com/sitemap1.xml.gz

2018-10-01T18:23:17+00:00

http://www.example.com/sitemap2.xml.gz

2017-01-01

モバイル版の説明

Google ボットがコンテンツを見つけて、デスクトップ ページとモバイル ページの間の接続を理解できるようにする必要があります。 次のように、XML サイトマップに、デスクトップ バージョンのページの rel = “alternate” 属性を追加する必要があります。

xmlns:xhtml=”http://www.w3.org/1999/xhtml”>

http://www.example.com/page-1/

<xhtml:リンク

rel="代替"

media="画面のみと (最大幅: 640px)"

href="http://m.example.com/page-1" />

各デスクトップ ページは、モバイル バージョンの 1 ページに対応する必要があることに注意してください。 たとえば、複数のデスクトップ ページを rel = “alternate” を介してモバイル バージョンの 1 ページにリンクしたり、その逆を行ったりすることはお勧めしません。

リダイレクトも確認する必要があります。 デスクトップ ページがモバイル バージョンの同じコンテンツに対応し、別のページにリダイレクトしないことが重要です。 追加情報はこちら。

モバイル リダイレクトのインフォグラフィック

ボットが XML サイトマップを見つける方法

プロセスのすべての自動化が完了し、それをサーバーにアップロード (またはプラグインによって生成) したら、ボットがそれを見つけることができる手がかりを残す必要があります。

robots.txt ファイルにリンクを含めることをお勧めします。 これは Sitemap Discovery とも呼ばれ、Google、Bing、および Yahoo が 2007 年にロボットが XML サイトマップを見つけやすくするために導入したものです。

必要なのは、マップまたはインデックス ファイルへのフル パスを含めることだけです。

フル パス インデックス ファイルのスクリーンショット

住所の正しい音訳

Google の公式ドキュメント (サイトマップの作成と送信) では、すべてのデータ値 (URL を含む) に ASCII 文字のみを含める必要があることが強調されています。 制御コードや、* や {} などの特殊文字を含めることはできません。

サイトの URL にこれらの文字が含まれている場合、追加しようとするとエラーが発生します。

地図を Google に送信する
Google Search Console を介して Google にサイトマップを送信できます。

Googleサーチコンソールのスクリーンショット

送信前にエラーがないか確認してください。 主要なランディング ページのインデックス作成の障害となる可能性のあるエラーを解決することが重要です。

理想的には、インデックスされたページの数は、送信されたページの数と同じであるべきです。

結論

  1. 一貫性を保つ - ページが robots.txt または「noindex」によってブロックされている場合は、XML マップに含めない方がよいでしょう。
  2. プロセスを自動化する – 上記の推奨事項はすべて自動化に利用できるはずです。これにより、時間を節約し、クロールの予算を最適化して維持し、頭痛の種を大幅に減らすことができます。
  3. サイトが非常に大きい場合は、さまざまなマップを含むインデックス ファイルを使用すると、サーバー時間が節約され、サイトのすべての重要なページがカバーされます。