2011年に避けるべきSEOクローキングテクニック

公開: 2011-01-27

GoogleWebスパムの責任者であるMattCuttsは、2010年の終わりにOzzieとEmmy(The Matt Cuttsの「Catts」)から時間を取って、Twitter経由でウェブマスターとSEOにちょっとした情報を投稿しました。ホリデーシーズン中のいくつかのブラックハットのために。

Googleは2011年第1四半期にクローキングをさらに検討する予定です。ページのコンテンツだけでなく、重要です。 ユーザーではなくGooglebotへの異なるヘッダー/リダイレクトを避けてください。

クローキングは、ユーザーのWebブラウザーではなく、検索エンジンスパイダーに、さまざまなコンテンツ、レイアウト、機能、またはヘッダー(完全に異なるページまたはページの一部のコンポーネント、モザイククローキングと呼ばれる)を表示するために使用される手法です。

倫理的なクローキングは「ブラックハット」ではありませんが、過去にスパマーはクローキング技術を操作する方法を使用していました。わかりやすくするために、(Google)アルゴリズムをゲーム化するためにクローキングスパムと呼びましょう。 これは新しい現象ではありません。 当初、メタキーワードタグはスパマーによって悪用され、その結果、ランキング要素ではなくなり、<noscript>タグも過去に悪用されたため、疑わしい扱いを受ける可能性があります(おそらく開く必要があります)悪用されたHTML要素の避難所…。)

まず、可能であれば、クローキングを回避することをお勧めします。 クローキングはリスクの高い演習であり、実装する必要がある場合は、Googleのウェブマスターガイドラインに準拠して適切な倫理的方法で実行し、ウェブサイトがペナルティを受けたりインデックスから削除されたりしないようにする必要があります。

残念ながら、一部のWebマスターはその影響を理解しておらず、気付かないうちにコンテンツ、リンク、またはWebサイト全体を誤ってクロークしている可能性があります。 この記事では、クローキングスパムとして(誤って)解釈される可能性のある一般的なオンサイト機能のいくつかについて概説します。

Googleはクローキングスパムの事例を積極的に調査しており、ウェブサイトをインデックスから禁止していることに注意してください。 彼らはまた、ウェブマスターツールを介したウェブマスターへの通知でクローキングや不自然なリンクの検出をフォローアップしています。 グーグルは現在、クローキングスパムをアルゴリズム的に検出することでますます良くなっています。IP配信でさえ間違いありません。もちろん、グーグルはあなたのページについて何か怪しいものを検出した場合、常にあなたの競争相手にスパムレポートを使用することを勧めます。

クローキングスパムをアルゴリズムで識別するには、検索エンジンが2つ以上のメカニズム(たとえば、2つ以上のIP範囲、ユーザーエージェント識別子、または異なるレベルのHTML / JavaScript機能)を介して取得した単一のWebページを比較する必要があります。 マイクロソフトは、クロークされたWebページの検出を容易にするシステムを主張する特許を2006年後半に出願しました。

当然、これは質問につながります。検索エンジンは、比較のためにWebページの2つの例をどのように収集して分析できるでしょうか。 いくつかの方法が含まれる場合があります。

  • コンテンツトピック分析、ページセグメンテーション、潜在意味解析(LSA)、キーワードの使用、ページ上のリンク、およびその他のページ上の要素を使用した、部分的なコンテンツの差別化
  • Webスパムを分析するための異なるIPアドレス/個別のIP範囲またはプロキシ
  • さまざまなユーザーエージェント(たとえば、ブラウザーのユーザーエージェントを使用してクロークされたコンテンツをチェックします)
  • ウェブマスターコミュニティからのスパムレポート
  • ユーザーテスト
  • クローキングをチェックするための5つ以上のチェーンリダイレクトの分析(おそらく、5つのチェーンリダイレクトを介したPageRank、権限、信頼などのインデックス作成とフローの制限)
  • JavaScriptコードの解釈の改善(特に、リンクまたはリダイレクトを含む複雑なおよび/またはエンコードされたJavaScript関数の評価)
  • Cookieを受け入れるメカニズム(上記のJavaScriptおよびリダイレクト分析と組み合わせて使用​​される可能性があります)

もちろん、IP配信の問題を回避するために、データ収集を別の会社にアウトソーシングすることもできます。

会社がユーザーに異なる情報または追加情報を提供したい場合があります。 例えば:

  • ジオターゲティング
  • ログインしたユーザー(カスタマイズされたホームページエクスペリエンスなど)
  • 紹介の追跡–たとえば、クエリに一致するページ上の単語を強調表示するなど、検索エンジンのクエリに基づいてユーザーにフィードバックを提供します
  • 携帯電話およびタッチデバイスのデバイスクローキング
  • 特定のブラウザまたは下位互換性のための最適化
  • 表示の最適化(ただし、これは通常CSSを介して制御できます)
  • 最初のクリックは無料–または最初の5回のクリックは無料
  • A/Bまたは多変量テスト
  • バニティURL(リンククローキング)
  • 年齢確認の表示(www.bacardi.comは、ユーザーエージェント検出とCookieの組み合わせを使用して、年齢確認のウェルカムページをユーザーに表示しますが、検索エンジンはWebサイトにアクセスできます。Googleはまだ14歳ですが)
  • 負荷分散
  • フォントの置換(sIFRやCufonなどのテクノロジーによる)–注:Googleプレビューには最適ではない可能性があります(2010年12月現在)
  • SWFObject

上記の方法または機能のいずれかを使用する場合は、SEOの影響を考慮してください。設定を誤ると、クローキングスパムが発生したり、SEOに最適でない場合があります。

さて、これはクロークする方法のチュートリアルではありません。 これは「2011cloaking-spamno-nolist」であり、少なくとも、2011年の早い段階で回避するためのテクニックや修正すべき問題のヘッドアップです。

一部の形式のクローキングは意図的なものですが(IP配信やユーザーエージェントのクローキングなど)、多くの形式のクローキングスパムは偶発的なものである可能性があります。 ウェブマスターが問題に気付いていない可能性があるため、誤ってGoogleから追放される偶発的なタイプのクローキングスパムが最大の懸念事項です。 大企業でさえ時々それを間違えます。

以下では、ウェブマスターとSEOが自分のウェブサイトにそれらを持っていないことを確認できるように教育し、確認するために、最も一般的なクローキングスパム手法のいくつかを調査します。

通常、ウェブマスターがユーザーまたは検索エンジンからコンテンツをクロークする方法は3つあります。

  1. IP配信
  2. ユーザーエージェント分析(ブルースクレイの無料のSEOクローキングチェッカーを使用してユーザーエージェントクローキングをチェックできます。
  3. JavaScriptやリダイレクトの実行、さまざまなHTML要素のインデックス作成やスパイダー機能などの既知の検索エンジンの動作を利用する

要求しているWebブラウザまたは検索エンジンスパイダーのIPアドレスに基づいて異なるコンテンツを配信します。 [IP配信については、こちらで詳しく説明しています。]

逆引きDNSと正引きDNS

逆引きDNSおよび正引きDNSルックアップはクローキングの形式ではありませんが、要求元のIPアドレスのDNSレコードを照会するために使用できます。 Googleは、Googlebotが本人であるかどうかを確認する方法の詳細を提供します。

要求しているWebブラウザまたは検索エンジンスパイダーのユーザーエージェントに基づいて、さまざまなコンテンツを配信します。 たとえば、Googlebot / 2.1(+ http://www.google.com/bot.html)またはMozilla / 5.0(Windows; U; MSIE 7.0; Windows NT 6.0; en-US)

GoogleはJavaScriptを含むページにインデックスを付ける場合がありますが、JavaScriptリダイレクトに従わない場合がありますが、GoogleによるJavaScriptコードの解釈が大幅に改善されています(たとえば、> GoogleプレビュージェネレーターはJavaScript、AJAX、CSS3、フレーム、iframeをレンダリングします)。

ウェブマスターは、サーバー側のリダイレクトを実装できない場合にJavaScriptリダイレクトを使用することがあります。これは、誤って最初のページにGooglebotを残し、別のコンテンツを含む2番目のページにウェブブラウザ(JavaScriptリダイレクトに続く)を送信するため、クローキングスパムとしてフラグが付けられます。

次のコードに注意してください。

<script type = "text / javascript"> window.location = "http://www.yoursite.com/second-page.html" </ script>

HTMLページのheadセクションに追加されたタグで、一定期間後にユーザーを別のページにリダイレクトします。 メタリフレッシュタグは、単独で使用する場合はクローキングとは見なされませんが、JavaScript、フレーム、またはその他の手法と組み合わせて、ユーザーを検索エンジンスパイダーの別のページに移動させることができます。

次のコードに注意してください。

<meta http-equiv = "refresh" content = "0; url = http://www.yoursite.com/second-page.html">

ダブル/マルチメタリフレッシュまたはリファラークローキング

複数のメタリフレッシュを使用して、アフィリエイトWebサイトからリファラーを非表示にすることができます。 SEOに悪影響を及ぼしたり、アフィリエイトパートナーの利用規約(TOS)に違反したりする可能性があるため、あらゆる種類の複数のリダイレクトを連鎖させることは避けてください。

JavaScriptまたは<noscript>タグでのメタリフレッシュ

さて、今、私たちは「黒い帽子」の領域に入っています。 ウェブマスターがメタリフレッシュとJavaScriptを組み合わせて、うまくいかない場合を除いて、それを組み合わせる可能性はほとんどありません。

これは、検索エンジンが簡単に検出できます。 しないでください。

検索エンジンは、複数の連鎖リダイレクトに従わない場合があります(HTML仕様のガイドラインに従って、推奨数は5リダイレクトに設定されています)。 Googleは約5つの連鎖リダイレクトに従う可能性があります。 Webブラウザはもっとフォローするかもしれません。

複数の連続したリダイレクト(特に、異なるタイプのリダイレクト301、302、メタリフレッシュ、JavaScriptなどの組み合わせ)は、ページの読み込み時間に影響を与え、PageRankのフローに影響を与える可能性があり(301リダイレクトでもsomePageRankの減衰が見られる場合があります)、クローキングと見なされる可能性があります-スパム。

Webブラウザーがたどるリダイレクトの数に関するデータが見つからなかったため、マシンにインストールされているブラウザーの一部をテストし、たどったリダイレクトのおおよその数(リダイレクトタイプ別)に関する統計を提供するクイックチェーンリダイレクトスクリプトを作成しました。 。 スクリプトを最大5000の連鎖リダイレクトに制限しました。

ウェブブラウザバージョン301リダイレクトの約数302リダイレクトの約数メタリフレッシュリダイレクトのおおよその数JavaScriptリダイレクトのおおよその数
グーグルクローム8.0.552.224 21 21 21 5000より大きい
(制限不明)
インターネットエクスプローラ8.0.6001.18702IC 11 11 5000より大きい
(制限不明)
5000より大きい
(制限不明)
Mozilla Firefox 3.5.16 20 20 20 3000より大きい
(3000 JSリダイレクト後にブラウザーが停止するため、制限は不明です)
サファリ3.1.2(525.21) 16 16 5000より大きい
(制限不明)
5000より大きい
(制限不明)

スクリプトが作成されたので、追加のテストを実行して、リダイレクトURLをGoogleに送信すると思いました。 Twitterからのスクリプトにもリンクしました。 結果は以下の表にあります。

検索エンジンユーザーエージェントホストIP 約301件のリダイレクトが続きました
Microsoft*IP範囲に基づいて推定
Mozilla / 4.0(互換性、MSIE 7.0、Windows NT 6.0)
65.52.17.79 25
グーグル
Mozilla / 5.0(互換性; Googlebot / 2.1; + http://www.google.com/bot.html)
66.249.68.249 5
Yahoo
Mozilla / 5.0(互換性; Yahoo!Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
67.195.111.225 4
ツイッター
Twitterbot / 0.1
128.242.241.94 3
LinkedIn
LinkedInBot / 1.0(互換性; Mozilla / 5.0; Jakarta Commons-HttpClient / 3.1 + http://www.linkedin.com)
216.52.242.14 1
PostRank
PostRank / 2.0(postrank.com)
204.236.206.79 0

この場合、Googlebotは永続的なリダイレクトのうち5つしかクロールしませんでしたが、Googleがクロールベースの検証を実装して、約25の連鎖リダイレクトをたどる上記のMicrosoftと同様に、5つのリダイレクトボットの制限を超えるリダイレクトをテストする可能性があると考えるのが妥当かもしれません。 注:これは、ドメインツールからのIP Whois情報に基づいて、Microsoftが所有するIPであると想定しました。

フレームを使用すると、ウェブマスターはHTMLページ内に別のドキュメントを埋め込むことができます。 検索エンジンは、従来、フレーム化されたコンテンツを親ページに帰属させることに長けていませんでした。これにより、ウェブマスターは、検索エンジンがページ上のコンテンツの一部またはすべてを見るのを防ぐことができます。

フレームとiFrameは正当なHTML要素ですが(SEOの観点からはベストプラクティスではない場合が多いですが)、他の手法と組み合わせてユーザーを欺くこともできます。

JavaScriptリダイレクトのあるフレーム

JavaScriptリダイレクトを使用してフレームを埋め込むと、検索エンジンスパイダーが最初のページに残り、JavaScriptが有効になっているユーザーを2番目の「非表示」ページにこっそりリダイレクトする場合があります。

あなたがこれを使うことを選ぶ正当な「白い帽子」の理由を私は考えることができません。 ペナルティまたは禁止につながる可能性があります。 フレーム付きドキュメントのソースコードを確認するか、このコードを削除するか、適切なSEO対応リダイレクトを実装してください。

<noscript>タグは、JavaScriptコンテンツに相当する非JavaScriptを提供するように設計されているため、テキストのみのブラウザと検索エンジンがより高度な形式のコンテンツを解釈できます。 <noscript>タグは、過去にスパマーによって悪用されたことがあるため、疑わしい扱いを受ける可能性があります。

コンテンツがすべてのユーザーに適しており、<noscript>タグを使用する必要がないように、プログレッシブエンハンスメントを念頭に置いてJavaScript/AJAX機能を構築します。 ウェブサイトで<noscript>タグを使用していて、コードを更新できない場合は、<noscript>タグ内のテキスト、リンク、画像が、JavaScript、AJAX、またはFlashコンテンツを正確かつ明確かつ簡潔に記述していることを確認してください。マナー。

問題のあるページまたはWebサイトにインデックス作成の問題がある場合は、Webサイトの徹底的なSEO監査の一環として、<noscript>コードを改訂することを検討してください。

コンテンツ配信ネットワーク(CDN)を使用すると、企業は静的コンテンツを地理的に複数の場所に分散して、エンドユーザーのパフォーマンスを向上させることができます。 CDN構成に応じて、コンテンツを提供するために利用可能な最適なソースにクライアント要求をルーティングする方法は複数あります。 CDNは複雑な領域であり、通常、可能な限り迅速にユーザーコンテンツを提供する必要があるグローバル企業によって実装されます。

CDNを使用している場合は、検索エンジンがユーザーに表示されるのと同じコンテンツと情報にアクセスできることを確認し、検索エンジンが誤解を招く可能性のあるものがないことを確認してください。

ハッカーは、一般的なCMSのエクスプロイトを使用して、倫理的ではないサードパーティのWebサイトにトラフィックを誘導しました。 一例として、クローキングを使用して医薬品関連のコンテンツを検索エンジンに表示し、そのコンテンツをウェブマスターから非表示にするWordPressPharmaHackがあります。

CMS、Webサーバー、およびオペレーティングシステムソフトウェアが最新バージョンを実行しており、それらが保護されていることを確認してください。 最も一般的なエクスプロイトのいくつかは、貧弱なパスワード、安全でないソフトウェアまたはスクリプト、不満を持つ従業員、およびソーシャルエンジニアリングのトリックです。

HTTPヘッダーは、要求されたページに関する追加情報を検索エンジンスパイダーまたはWebブラウザーに送信します。 たとえば、ページのステータス、キャッシュ/有効期限情報、リダイレクト情報などです。

欺くために検索エンジンに異なるヘッダーを送信すると、ペナルティが発生する可能性があります。 たとえば、上位のページの優れたコンテンツを登録フォームに置き換えたり、検索エンジンをだまして上位のコンテンツを優れたコンテンツで維持させようとして、有効期限やキャッシュ制御ヘッダーを変更したりすることはできません。

Googlebotは、有効期限に関係なくコンテンツを定期的にダウンロードし、コンテンツが実際に変更されていないことを確認するために制御ヘッダーをキャッシュする場合があります。

無料のSEOツールの1つを使用して、サーバー応答ヘッダーのステータスを確認できます。

Googleを引用するには:

「誘導ページは通常、質の悪いページの大規模なセットであり、各ページは特定のキーワードまたはフレーズ用に最適化されています。 多くの場合、誘導ページは特定のフレーズにランク付けされ、ユーザーを単一の目的地に誘導するように作成されています。」

出典:http://www.google.com/support/webmasters/bin/answer.py?hl = en&answer = 66355

Matt Cuttsは、ここでドアウェイページについて暴言を吐いています。

Googleウェブサイトオプティマイザーなどの多変量テストツールを使用すると、ウェブサイトのコンテンツとデザインの変更をテストしてコンバージョン率(または測定されたその他の重要な指標)を改善することで、ウェブサイトの効果を向上させることができます。

多変量テストはクローキングの倫理的な使用法ですが、Googleは次のように述べています。

「元の組み合わせ以外の単一の組み合わせを100%で数か月間実行しているサイトを見つけた場合、またはサイトの元のページに、訪問者に表示されている組み合わせに関係のないキーワードが読み込まれている場合、そのサイトを削除することがあります。私たちのインデックスから」。

必ずしもクローキングスパムではありませんが、おとり商法では、無関係のドメイン(通常は販売中または期限切れであるがPageRankまたは重要な外部リンクが残っているドメイン)を、まったく異なるトピックに関する悪意のあるドメインまたは無関係のドメインにリダイレクトします。 .https://www.youtube.com/watch?v = 70LR8H8pn1Mhttps://searchengineland.com/do-links-from-expired-domains-count-with-google-17811

これは、ユーザーが別のWebサイトを期待している可能性があり、無関係のアンカーテキストをドメインに渡す可能性があるため、誤解を招く可能性があります。

また、PRまたはリンクのブーストを期待して、期限切れのドメインを外部リンクに登録したことに対するクレジットを期待しないでください。

歴史的に、検索エンジンはFlashコンテンツを効果的に解釈してインデックスを作成するのに苦労していましたが、常に改善されています。

ウェブマスターは、Flash対応のブラウザを備えていないユーザーと検索エンジンを検討する必要があり、検索エンジンの「舞台裏」で標準のHTMLウェブサイトを構築し、<noscript>タグ、JavaScript、または同様の方法を使用してテキストコンテンツのインデックスを作成しました。 残念ながら、Flashコンテンツからインデックス付けされたコンテンツがテキストコンテンツと一致しない場合、これは検索エンジンによって誤ってクローキングとして識別される可能性があります。

Flashでウェブサイト全体を構築することはSEOの観点からはまだ良い考えではありませんが、Flashコンテンツがある場合は、SWFObjectまたは同様の手法を実装して、ユーザーと検索エンジンの両方でFlashが適切に機能しないようにすることを検討してください。

ポップオーバーのdivと広告だけではクローキングではありません。 インタースティシャル広告またはポップオーバーdivを閉じることができない場合(たとえば、ユーザーが登録しない限り)、検索エンジンにコンテンツを表示し、ユーザーにサインアップフォームを表示している可能性があります。

ユーザーがインタースティシャル広告、ポップアップ、ポップオーバー、オーバーレイされたdiv、ライトボックスなどを閉じるかスキップして、利用可能なコンテンツを表示できることを確認します

AJAX(Asynchronous JavaScript And XML)は、ページをリロードせずにWebページがサーバーから動的コンテンツを取得できるようにするJavaScriptの形式です。 ここ数年で非常に人気があり、多くのWeb 2.0アプリケーションで頻繁に(過剰に)使用されています。

AJAXは、ユーザーや検索エンジンにさまざまなコンテンツを提示するために、欺瞞的な方法で使用される可能性があります。

さらに、コインの反対側では、「ネガティブクローキング」アプローチでは、ユーザーはコンテンツを見ることができますが、サーバーから動的コンテンツを取得するJavaScript呼び出しを実行できないため、検索エンジンは表示しません。 チェックするもの。

この記事で概説されているテクニックの多くは、検索エンジンをだますための無駄な試みで、組み合わせたり、切り刻んだり、操作したりすることができます。

そのような例の1つは、JavaScriptとCookieを組み合わせてコンテンツをクロークすることです。 JavaScript関数がCookie(検索エンジンスパイダーなど)を読み書きできない場合は、Cookieが有効になっている標準ユーザーとは異なるコンテンツを表示します。 悪意のある人がこれを実行できるようにするJQueryスクリプトの例もいくつかあります。

リンククローキングとは、何らかの形式のリダイレクトを使用してクリックされたURLとは異なるURLにユーザーを送信することを指します。 上で見たように、リダイレクトは良い面と悪い面で使用できます。 リンククローキングは、分析またはメンテナンスの目的でよく使用されます。 これを行うには、いくつかの実用的な理由があります。たとえば、次のとおりです。

  • シンジケート化されたPDFまたはアプリケーション内のアフィリエイトへのリンクを維持するため。 上記の同様のバニティURLとリダイレクトを使用して、アフィリエイトがURL構造を更新した場合に、バニティURLのリダイレクトを更新して、eBookとシンジケートコンテンツのリンクが引き続き機能するようにします。
  • マーケティングおよび広告資料で使用されるバニティURLで、標準バージョンのURLよりも覚えやすい

もちろん、これは、アフィリエイトリンクを偽装するなど、誤解を招いたり欺いたりするために使用される場合があります(たとえば、リンクをhttp://mysite.com/vanity-urlに置き換えて、http://affiliate.com/offer.htmlにリダイレクトします)。 ?= my-affiliate-code)。

JavaScriptまたは同様のメカニズムを使用してアンカーテキストまたはリンク属性を変更し、ユーザーをだましたり欺いたりします。 これは、ユーザーを欺くためにページの小さなコンポーネントのみを変更するクローキングの形式です。

  • onClickイベントを乗っ取って、ユーザーを検索エンジンの別のURLに送信する
  • 検索エンジンに表示されるリンクにrel=” nofollow”属性を追加し、ユーザーに表示されるコードから削除します
  • リンクのアンカーテキストを変更して、検索エンジンに送信されるアンカーテキストにキーワードを含め、ユーザーとは異なるものを表示する

リンクの乗っ取りを避けてユーザーを欺くと、検索エンジンにペナルティが科せられたり、Webサイトが禁止されたりする可能性があります。

Googleブログで推奨されているように、ユーザーと検索エンジンの両方がHiJAXを使用してAJAXコンテンツを表示できるようにするために、この手法には倫理的な形式があります。

テキストを非表示にすることは、GoogleのTOSおよびウェブマスターガイドラインに違反します。 検索エンジンはテキストコンテンツを見ることができますが、ユーザーは見ることができないため、これはクローキングの一形態です。 次の種類の非表示のテキストは避けてください。

  • 背景に識別できないテキスト(例:黒に濃い灰色)
  • フォントサイズを0に設定する
  • 標準の本文テキストのようなキーワードの豊富なアンカーテキストをスタイリングして、ユーザーがそれがリンクであることに気付かないようにする
  • カスケードスタイルシート(CSS)の表示:なし
  • 画像の背後にあるテキスト。 常にトリッキーなテーマであり、SEO間で議論されることがよくあります。 画像の背後にあるテキストが画像の正確で公正な表現である場合(たとえば、カスタムフォントのヘッダー)、MattCuttsを引用するのは「問題ないはずです」。 最終的な解決策は特定の状況によって異なりますが、ガイダンスについては次のリソースを確認してください。W3C:CSSを使用したテキストの画像への置き換え、Farner Image Replace(FIR)、Scalable Inman Flash Replace(sIFR)(sIFRで置き換えられたテキストは2010年12月現在、Googleプレビューには表示されません。)

検索エンジンのトラフィックが重要な場合は、クローキングに関して次のことを考慮してください。

  • 上記の明白な形式とそれほど明白ではない形式のクローキングに精通していることを確認し、潜在的なペナルティを回避するためにこれらがサイトでどのように使用されているかを認識してください。
  • 何らかの形のクローキングを実装している場合は、潜在的なペナルティを回避するために、これがSEOの観点から適切にレビューされていることを確認してください。