データスクレイピングとは何ですか?どのように使用できますか?
公開: 2017-09-13データスクレイピングとは何ですか?
データスクレイピングは、Webスクレイピングとも呼ばれ、Webサイトからコンピューターに保存されているスプレッドシートまたはローカルファイルに情報をインポートするプロセスです。 これは、Webからデータを取得し、場合によってはそのデータを別のWebサイトに送信するための最も効率的な方法の1つです。 データスクレイピングの一般的な用途は次のとおりです。
- Webコンテンツ/ビジネスインテリジェンスの調査
- 旅行予約サイト/価格比較サイトの価格
- 公開データソース(YellやTwitterなど)をクロールして、セールスリードを見つけたり市場調査を実施したりする
- eコマースサイトから別のオンラインベンダー(Googleショッピングなど)への商品データの送信
そして、そのリストは表面を傷つけているだけです。 データスクレイピングには膨大な数のアプリケーションがあります。データをある場所から別の場所に移動する必要があるほぼすべての場合に役立ちます。
データスクレイピングの基本は比較的簡単に習得できます。 Excelを使用して簡単なデータスクレイピングアクションを設定する方法を見ていきましょう。
MicrosoftExcelでの動的Webクエリによるデータスクレイピング
Microsoft Excelで動的Webクエリを設定することは、外部Webサイト(または複数のWebサイト)からスプレッドシートへのデータフィードを設定できる、簡単で用途の広いデータスクレイピング方法です。
この優れたチュートリアルビデオを見て、WebからExcelにデータをインポートする方法を学習してください。または、必要に応じて、以下の手順を使用してください。
- Excelで新しいブックを開く
- データをインポートするセルをクリックします
- [データ]タブをクリックします
- [外部データを取得]をクリックします
- 「Webから」の記号をクリックします
- Webページの左上と特定のコンテンツの横に表示される小さな黄色の矢印に注意してください
- データをインポートするWebページのURLをアドレスバーに貼り付けます(データが表に表示されるサイトを選択することをお勧めします)
- 「実行」をクリックします
- インポートするデータの横にある黄色の矢印をクリックします
- [インポート]をクリックします
- [データのインポート]ダイアログボックスが表示されます
- [OK]をクリックします(または、必要に応じてセルの選択を変更します)
これらの手順を実行すると、スプレッドシートに設定されたWebサイトのデータを表示できるようになります。
動的Webクエリの優れている点は、データを1回限りの操作としてスプレッドシートにインポートするだけでなく、データをフィードすることです。つまり、スプレッドシートは、に表示される最新バージョンのデータで定期的に更新されます。ソースWebサイト。 そのため、これらを動的と呼びます。
動的Webクエリがインポートするデータを更新する頻度を構成するには、[データ]、[プロパティ]の順に移動し、頻度を選択します(「X分ごとに更新」)。
ツールを使用した自動データスクレイピング
Excelで動的Webクエリを使用する方法を理解することは、データスクレイピングを理解するための便利な方法です。 ただし、作業でデータを定期的にスクレイピングする場合は、専用のデータスクレイピングツールの方が効果的です。
市場で最も人気のあるデータスクレイピングツールのいくつかについての私たちの考えは次のとおりです。
データスクレーパー(Chromeプラグイン)
データスクレイパーはChromeブラウザ拡張機能に直接挿入され、ブラウザに読み込まれているWebページからデータを抽出するために、さまざまな既製のデータスクレイピング「レシピ」から選択できます。
このツールは、TwitterやWikipediaなどの人気のあるデータスクレイピングソースで特にうまく機能します。プラグインには、そのようなサイト用のさまざまなレシピオプションが含まれているためです。
ツールの公開レシピの1つを使用して、PRの機会としてTwitterハッシュタグ「#jourorequest」をマイニングしてDataScraperを試してみました。 取得したデータのフレーバーは次のとおりです。
ご覧のとおり、このツールは、ハッシュタグに最近投稿されたすべてのアカウントのユーザー名と、そのツイートとそのURLを含むテーブルを提供しています。
このデータをこの形式で保持することは、いくつかの理由から、Twitterのブラウザビューでデータを表示するよりも、PR担当者にとってより便利です。
- 報道関係者のデータベースの作成に役立てることができます
- Twitterは継続的に更新されますが、このリストを参照し続けて、探しているものを簡単に見つけることができます。
- リストはソート可能で編集可能です
- それはあなたにデータの所有権を与えます-それはいつでもオフラインにされたり変更されたりする可能性があります
Data Scraperの公開レシピは時々少し荒削りですが、私たちはDataScraperに感銘を受けています。 Chromeに無料版をインストールして、データの抽出を試してみてください。 ツールがどのように機能するか、および必要なデータを抽出するためのいくつかの簡単な方法について理解するために、彼らが提供するイントロムービーを必ずご覧ください。
WebHarvy
WebHarvyは、無料の試用版を備えたポイントアンドクリックのデータスクレーパーです。 その最大のセールスポイントは柔軟性です。ツールに組み込まれているWebブラウザーを使用して、インポートするデータに移動し、独自のマイニング仕様を作成して、ソースWebサイトから必要なものを正確に抽出できます。
import.io
Import.ioは、機能が豊富なデータマイニングツールスイートであり、多くのハードワークを実行します。 「何が変わったの?」など、いくつかの興味深い機能があります。 指定されたWebサイトの更新を通知できるレポート–詳細な競合他社の分析に最適です。
マーケターはデータスクレイピングをどのように使用していますか?
この時点で収集したように、データスクレイピングは、情報が使用されるほぼすべての場所で役立ちます。 マーケターがテクノロジーをどのように使用しているかを示す重要な例を次に示します。
異種データの収集
FeedOptimiseのCEOであるMarcinRosinski氏は、データスクレイピングの大きな利点の1つは、さまざまなデータを1か所に集めるのに役立つことです。 「クロールにより、構造化されていない分散したデータを複数のソースから取得し、1つの場所に収集して、構造化することができます」とMarcin氏は言います。 「異なるエンティティによって制御されている複数のWebサイトがある場合は、それらすべてを1つのフィードに組み合わせることができます。
「これのユースケースの範囲は無限です。」
FeedOptimiseは、さまざまなデータスクレイピングおよびデータフィードサービスを提供しており、それらについてはWebサイトで確認できます。
研究の促進
データスクレイピングの最も簡単な使用法は、単一のソースからデータを取得することです。 役立つ可能性のある大量のデータを含むWebページがある場合、その情報を整然とした形式でコンピューターに取り込む最も簡単な方法は、おそらくデータスクレイピングです。
Twitterで役立つ連絡先のリストを見つけて、データスクレイピングを使用してデータをインポートしてみてください。 これにより、プロセスが日常業務にどのように適合するかを知ることができます。
XMLフィードをサードパーティのサイトに出力する
サイトからGoogleショッピングやその他のサードパーティの販売者に商品データをフィードすることは、eコマースのデータスクレイピングの主要なアプリケーションです。 これにより、製品の詳細を更新するという面倒な可能性のあるプロセスを自動化できます。これは、在庫が頻繁に変更される場合に重要です。
「データスクレイピングは、Googleショッピング用のXMLフィードを出力できます」とTargetInternetのマーケティングディレクターであるCiaranRogersは述べています。 「私は、製品の在庫が入ってきたときに、サイトに新しいSKUを継続的に追加している多くのオンライン小売業者と協力してきました。 Eコマースソリューションが適切なXMLフィードを出力しない場合は、Google Merchant Centerに接続して、問題となる可能性のある最高の商品を宣伝できます。 多くの場合、最新の製品は潜在的にベストセラーであるため、公開されたらすぐに宣伝してもらいたいと考えています。 私はデータスクレイピングを使用して、GoogleMerchantCentreにフィードする最新のリストを作成しました。 これは優れたソリューションであり、実際には、データを取得したら、データを使用して実行できることがたくさんあります。 フィードを使用すると、最もコンバージョン率の高い商品に毎日タグを付けることができるため、その情報をGoogle AdWordsと共有して、それらの商品に対してより競争力のある入札を行うことができます。 一度設定すると、すべてが完全に自動化されます。 このように制御できる優れたフィードの柔軟性は素晴らしく、クライアントが好むキャンペーンに非常に明確な改善をもたらす可能性があります。」
自分でGoogleMerchantCenterに簡単なデータフィードを設定することができます。 方法は次のとおりです。
GoogleMerchantCenterへのデータフィードを設定する方法
前述の手法またはツールのいずれかを使用して、動的なWebサイトクエリを使用してサイトにリストされている製品の詳細をインポートするファイルを作成します。 このファイルは定期的に自動的に更新されます。
詳細は、ここで指定されているとおりに設定する必要があります。
- このファイルをパスワードで保護されたURLにアップロードします
- Google Merchant Centerにアクセスしてログインします(最初にMerchant Centerアカウントが正しく設定されていることを確認してください)
- 製品に移動
- プラスボタンをクリックします
- ターゲット国を入力し、フィード名を作成します
- 「スケジュールされたフェッチ」オプションを選択します
- 製品データファイルのURLと、それにアクセスするために必要なユーザー名とパスワードを追加します
- 商品のアップロードスケジュールに最適なフェッチ頻度を選択してください
- [保存]をクリックします
- これで、商品データがGoogleMerchantCentreで利用できるようになります。 [診断]タブをクリックしてステータスを確認し、すべてがスムーズに機能していることを確認してください。
データスクレイピングのダークサイド
データスクレイピングには多くの積極的な用途がありますが、少数の少数派にも悪用されています。
データスクレイピングの最も一般的な誤用は、電子メールの収集です。Webサイト、ソーシャルメディア、ディレクトリからデータをスクレイピングして、人々の電子メールアドレスを明らかにし、スパマーや詐欺師に販売します。 一部の法域では、商業目的で電子メールアドレスを収集するためにデータスクレイピングなどの自動化された手段を使用することは違法であり、ほとんどの場合、悪いマーケティング慣行と見なされています。
多くのWebユーザーは、次のような手法を採用して、メールハーベスターが自分のメールアドレスを取得するリスクを軽減しています。
- アドレスの変更:公開するときにメールアドレスの形式を変更します。たとえば、「[email protected]」ではなく「patrick[at]gmail.com」と入力します。 これは、ソーシャルメディアでメールアドレスを保護するための簡単ですが、少し信頼性の低いアプローチです。一部のハーベスターは、通常の形式のメールだけでなく、さまざまな変更された組み合わせを検索するため、完全に気密ではありません。
- お問い合わせフォーム:ウェブサイトにメールアドレスを投稿する代わりに、お問い合わせフォームを使用してください。
- 画像:あなたのメールアドレスがあなたのウェブサイトに画像形式で提示されている場合、それはメールハーベスティングに関与するほとんどの人々の技術的範囲を超えています。
データスクレイピングの未来
仕事でデータスクレイピングを使用する予定があるかどうかに関係なく、今後数年でさらに重要になる可能性があるため、このテーマについて自分自身を教育することをお勧めします。
現在、市場にはデータスクレイピングAIがあり、機械学習を使用して、画像など、従来は人間だけが解釈できた入力の認識を向上させ続けることができます。
画像やビデオからのデータスクレイピングの大幅な改善は、デジタルマーケターに広範囲にわたる結果をもたらします。 画像のスクレイピングがより深くなるにつれて、オンライン画像を実際に見る前に、はるかに多くのことを知ることができるようになります。これは、テキストベースのデータスクレイピングと同様に、多くのことをより良く行うのに役立ちます。
次に、すべての中で最大のデータスクレーパーであるGoogleがあります。 Googleが画像からコピーのページからできるだけ多くのことを正確に推測できるようになると、ウェブ検索の全体的なエクスペリエンスが変化します。これは、デジタルマーケティングの観点からは2倍になります。
これが近い将来に発生する可能性があるかどうか疑問がある場合は、Googleの画像解釈APIであるCloud Visionを試して、ご意見をお聞かせください。 今すぐ無料メンバーシップを取得-クレジットカードはまったく必要ありません
無料会員