OnCrawlがデスクトップクローラー以上のものである理由:クラウドベースのSEOプラットフォームの詳細

公開: 2018-12-06

OnCrawlは、2015年にフランスのn°1eコマースプレーヤーのSEOニーズに基づいて構築されました。つまり、分析を拡大し、5,000万を超えるURLを含むWebサイトを短期間で処理する必要がありました。 新しいプレーヤーにとっては難しいと思いますか? 実際、研究開発だけで150万ユーロを費やし、以前はさまざまなデータプロジェクトをサポートしていたインフラストラクチャにより、簡単になりました。 デスクトップクローラーとクラウドベースのクローラーの違いがまだはっきりしないことがあるため、OnCrawlが単純なデスクトップクローラーよりもはるかに多くの機能を提供する理由を説明することが役立つと考えました。高度なスケーリング機能からサードパーティの統合や分析の速度までです。

無限大およびそれ以降へのスケーリング

デスクトップクローラーは、実行しているコンピューターのリソースとメモリのために、クロール容量に制限があります。 ほとんどの場合、クロールごとに数千のURLのみをクロールするように制限されます。 これは小さなWebサイトでは問題ありませんが、SaaS(Software as a Service)クローラーと比較して、これらのURLをクロールするのに時間がかかる場合があります。 クラウドベースのクローラーは多くのサーバーに分散されているため、マシンの速度やサイズに制限されることはありません。

これは、処理できないクロールがないことを意味します。 私たちは小さなウェブサイトだけでなく、フォーチュン500企業の一部を含む非常に大きなウェブサイトにも取り組んできました。 イントロで述べたように、フランス最大のeコマースウェブサイトであるCdiscountから、5,000万以上のURLとSEOのニーズを1回のクロールで処理するカスタムソリューションの構築を依頼された後、SEOクローラーを開発しました。 さらに、スケーリング機能により、検索業界をリードする式典であるEuropeanSearchAwardsで2年連続でベストSEOツールになりました。 現在、1日あたりおよびWebサイトあたり最大2500万のURL、または1か月あたり約10億のWebページと1500億のリンクを収集しています。 Googleのテクノロジーと、GDPRポリシーの処理方法について詳しくは、こちらをご覧ください。

カスタムスピード、豊富な機能

私たちのアプリケーションはクラウドベースであるため、マシンのリソースや速度機能について考える必要はありません。 また、起動できるクロールのタイミングや数に制限がないことも意味します。 サブスクリプションで許可されている数のクロールを起動し、クロール中に他のことを実行できます。 クラウドベースのソリューションを使用するということは、アプリケーションウィンドウを閉じて、クロールが完了するのを待つこともできることを意味します。それはそれ自体で機能しており、監視は必要ありません。 OnCrawlを使用すると、サイトを週に1回クロールする必要があるか、毎月クロールする必要があるかにかかわらず、SEOのニーズに基づいてクロールをスケジュールできます。 より速く必要な場合は、分析を高速化することもできます。
OnCrawlアプリは任意のウェブサイトをクロールするために使用できるため、ボットは、ターゲットWebサイトにあるrobots.txtファイルに示されているCrawl-Delayディレクティブに従います。
それ以外の場合は、1秒あたり1ページの速度でクロール速度を制限するため、ボットはターゲットのWebサイトに対してあまり攻撃的ではありません。
Webサイトに1より大きいCrawl-Delayディレクティブがある場合、アプリケーションは、クロールが要求された速度よりも遅くなることを通知する警告を発行します。
Crawl-Delayが30より大きい場合、エラーが表示されます。 このようにクロール遅延が大きいクロールを構成することはできません。
このような状況でクロールを設定する唯一の方法は、仮想robots.txtファイルを使用することです。
そのためには、まずGoogle Analyticsアカウントを使用してプロジェクトを検証する必要があります。これにより、クロールするドメインに何らかの所有権があることを確認できます。

クロールを制御できるようにするいくつかの異なるパラメーターがあります。

  • クロールをスピードアップ
  • クロールを一時停止、停止、再起動、または中止する
  • クロールをスケジュールして、トラフィックのピーク時間を回避し、ボットがサイトにアクセスしたときのサーバーへのストレスを軽減します
  • フェッチされたページ、これまでに取得したURLの数をリアルタイムで確認し、クロールの速度を低下させる問題があるかどうかを確認します。

クローラーscreenshot_progression

scroller_fetch進行状況のスクリーンショット

ログファイルの分析が簡単になりました

OnCrawlは、単なるSEOクローラー以上のものです。 過去数年にわたって、他のSEOソリューションでは発見されなかった問題に取り組む強力なログファイルアナライザーもリリースしました。

完全なログファイルは、サイトの存続期間を完全に反映しています。 訪問者であれボットであれ、表示されているページであれ、リソースへの呼び出しであれ、サイトでのアクティビティはすべてそこに書き込まれます。

IPアドレス、ステータスコード、ユーザーエージェント、リファラー、その他の技術データなどの情報を使用すると、ログの各行(サーバー側のデータ)がサイトの分析を完了するのに役立ちます。これは、ほとんどの場合、分析(より多くのクライアント側)に基づいています。指向)。

当社のログファイルアナライザーは、IIS、Ngnix上のApacheなどの標準形式から、より多くのカスタム形式まで、あらゆるタイプのログ形式をサポートしています。 私たちができない分析はありません。 また、ユーザーがSplunk、ELK / Elastic Stack、Amazon S3、OVH(ES)、Cloudflareなどのサードパーティソリューションからログデータを直接取得できるようにします。

これは、競合他社のように、追加のサードパーティのログファイルマネージャーにとらわれることがなくなることを意味します。

私たちのインターフェースは、安全でプライベートなFTPを介してログファイルを自動的にアップロードすることを容易にします。 ログファイルの分析を完了するには、ほんの数ステップしかかかりません。

昇降補助具

また、処理中のファイルをリアルタイムで監視し、アップロードをブロックするエラーがないかどうかを確認することもできます。

scroller_logマネージャーツール

無制限のサードパーティ統合

OnCrawlは、SEOがなくてはならない主要な検索マーケティングソリューション(Google Search Console、Google Analytics、Adobe Analytics、Majesticなど)を備えた組み込みコネクタの開発に取り組んできました。 これらのソリューションを監査プロセスに統合することは冗長ではありません。検索エンジンでのWebサイトのパフォーマンスと状態のより包括的なビューを提供し、ボットと訪問者がWebサイトで実際にどのように動作するかを明確にします。 また、後でExcelスプレッドシートでこれらのデータを手動で処理する必要がないため、時間と労力を節約できます。

バックリンクレポート

私たちは、主要なリンクインテリジェンスソリューションであるMajesticと信頼できる関係を築いてきました。 当社のクロスデータ分析により、クロールデータとログデータをバックリンクデータと組み合わせて、SEOトラフィックとクロール頻度に対するバックリンクの影響を理解できます。 最も重要なKPIに基づいて、ページのカスタムグループのサイト全体のセグメンテーションを設定したら。 また、ページのクリック深度レベルに関連して被リンクの数を視覚化したり、被リンクの数がGoogleの動作に影響を与えているかどうかを調べたりすることもできます。
私たちが提供する分析では、バックリンクデータが相互に関連付けられ、URLとボットのヒットレベルで結合されており、現在市場に出ているのは唯一の分析です。

昇降補助具

ランキングレポート

また、Google Search Consoleへの独自のコネクタを開発して、サイトがどのように検出されてインデックスに登録されるか、ページ上の最適化がトラフィックとインデックスにどのように影響するかを理解します。 デスクトップまたはモバイル、ブランドまたは非ブランドのキーワード、またはページのグループに関係なく、キーワードの分布、表示回数、クリック数、クリック率に関する標準的かつ網羅的な洞察を提供します。 さらに重要なのは、競合他社が達成していない独自の分析も提供することです。
OnCrawlは、ログファイルのセグメンテーションとデータを使用してランキングデータを解釈します。 したがって、ランク付けされたページの一般的な特性と、深さ、内部人気、単語数、リンク、読み込み時間、およびタイトルの評価に関係のないページの共通の特性を識別できます。 それだけでなく、説明の長さと構造化データがクリック率に与える影響を調べることもできます。
最後に、OnCrawlランキングでは、クロール、ログファイル、検索コンソールデータを大規模に組み合わせて、ランク付けされたページを強調表示し、クロール予算がポジションに影響を与えているかどうかを理解できます。 デスクトップベースであろうとクラウドベースであろうと、他のクロールはそのような機能をサポートしていません。

分析レポート

GoogleAnalyticsまたはAdobeAnalytics(ex-Omniture)を接続して、ページ上のSEOと技術的なSEOが検索エンジンからのオーガニックトラフィックのパフォーマンスにどのように影響するかを理解できます。 ウェブサイトの各セクションに関するSEOトラフィックのパフォーマンスとユーザーの行動を監視するのに役立ちます。

CSV取り込み

私たちは常にサードパーティのソリューションからの新しい統合に取り組んでいますが、技術的なSEO監査を実行するために必要となる可能性のある特定の種類のデータがないままにしたくありませんでした。 そのため、CSVファイルを大規模にアップロードして(数百万行をアップロードできます)、URLレベルでデータの新しいレイヤーを追加できます。 これらの特定のデータ(ランキング、CRM、ビジネス、Google広告データなど)に基づいて独自のセグメンテーションとフィルターを作成し、最も戦略的なページが目的を満たしているかどうかを確認できます。

オープンAPI、カスタム分析

OnCrawlは、APIを中心に構築されたプラットフォームに基づいています。 OnCrawl REST APIは、クロールデータへのアクセス、およびプロジェクトとクロールの管理に使用されます。 このAPIを使用するには、OnCrawlアカウント、アクティブなサブスクリプション、およびアクセストークンが必要です。
独自のアプリケーションを作成して、このAPIを非常に簡単にリクエストできます。 これは、ユーザーアカウントによって生成されたAPIトークンを使用するか、OAuthアプリケーションを使用してユーザーのアカウントを使用してOnCrawlに接続することで実行できます。

APIを使用すると、好みのプログラミング言語とプラットフォームを使用して、独自の環境にデプロイされたOnCrawlの多くの機能を最大限に活用するアプリケーションを作成できます。 これは、カスタムダッシュボードを作成し、データを他のプラットフォームに統合し、サイトが更新されるたびに自動的にクロールをトリガーできることを意味します。

また、統合を容易にするために、すべてのグラフの情報アイコンにAPI呼び出しと応答形式が含まれています。

昇降補助具

昇降補助具

時間の経過に伴う傾向と最適化

OnCrawlは、プロジェクト内の日付ごとにクロールを整理します。 サブスクリプションがアクティブな間、クロールデータを保存します。つまり、数か月または数年の分析を追跡できます。 ログ監視機能を使用する場合、OnCrawlアプリケーションはWebサイトへの訪問者のIPアドレスの形式で個人データを処理することに注意してください。 この情報は、Googlebotと他の訪問者を確実に区別するために必要です。 IPアドレスはOnCrawlアプリケーションに保存されません。 このデータは、プライベートで安全なFTPにアップロードする元のファイルにのみ存在します。

また、同じクロール構成に基づいて2つのクロールを比較し、時間の経過に伴う傾向や変化を見つけることができる広範な機能も提供しています。 これは、ステージングバージョンとライブバージョンを比較し、移行中にすべてがスムーズに進んだかどうかを確認するための優れた方法です。
プロジェクトをチームメートやクライアントと共有することもできます。これは、最適化の価値を証明し、結果を共有するための優れた方法です。

重複コンテンツの比較

2つのクロール間の重複コンテンツの進化を示す

深さの動き

2つのクロール間の深さの動きの進化を示す

どこでも意味論

イノベーションは私たちのコアDNAにあり、私たちは何年にもわたって技術的なSEOの伝道に取り組んできました。 OnCrawlのCTOであるTanguyMoalは、15年以上にわたって自然言語処理の問題に取り組んできましたが、セマンティックテクノロジーとビッグデータテクノロジーを統合して、Web上で利用可能な膨大な量のデータを理解するのに役立ってきました。 Simhashアルゴリズムを使用して、史上初のほぼ重複するコンテンツ検出器を実現しました。

コンテンツが重複しているページ

正規の評価を使用した類似ページのクラスター–クラスターは、ページ数またはコンテンツの類似性のパーセンテージでフィルタリングできます

また、最近、ヒートマップコンテンツ検出器に取り組んでいます。これは、ユーザーが一意のコンテンツのブロックと、WebページおよびWebサイト全体での重複の割合を特定するのに役立ちます。 セマンティクスはSEOクローラーの一部です。n-gram分析は最初から利用可能であり、単語のシーケンスがWebサイト内でどのように分散されているかを理解するのに役立ちます。 このようなセマンティック機能を備えたクラウドベースのクローラーは、私たちだけです。 会話型検索クエリが増加している分野では、セマンティックSEOは、特定の検索目的に対する答えを明確に提供できる意味のあるメタデータとセマンティックに関連するコンテンツを通じて、Webサイトへのトラフィックを改善するのに役立ちます。
OnCrawlはデスクトップクローラーをはるかに超えており、比類のないクラウドベースのSEO分析を大規模に提供します。 OnCrawlを使用すると、検索エンジンがWebサイトでどのように動作するかを実際に理解し、自信を持ってSEO戦略を作成することができます。

私たちの言葉を信じないでください。 自分で試して、今日から無料トライアルを開始してください。

無料トライアルを開始する