Qu'est-ce que le data scraping et comment pouvez-vous l'utiliser ?

Publié: 2017-09-13

Qu'est-ce que le data scraping ?

Le grattage de données, également appelé grattage Web, est le processus d'importation d'informations d'un site Web dans une feuille de calcul ou un fichier local enregistré sur votre ordinateur. C'est l'un des moyens les plus efficaces d'obtenir des données du Web et, dans certains cas, de canaliser ces données vers un autre site Web. Les utilisations courantes du data scraping incluent :

  • Recherche de contenu web/intelligence d'affaires
  • Tarification pour les sites de réservation de voyages/sites de comparaison de prix
  • Trouver des prospects/réaliser des études de marché en explorant des sources de données publiques (par exemple, Yell et Twitter)
  • Envoi de données produit d'un site e-commerce à un autre vendeur en ligne (par exemple Google Shopping)

Et cette liste ne fait qu'effleurer la surface. Le scraping de données a un grand nombre d'applications - il est utile dans à peu près tous les cas où les données doivent être déplacées d'un endroit à un autre.

Les bases du data scraping sont relativement faciles à maîtriser. Voyons comment configurer une simple action de récupération de données à l'aide d'Excel.

Data Scraping avec des requêtes Web dynamiques dans Microsoft Excel

La configuration d'une requête Web dynamique dans Microsoft Excel est une méthode de récupération de données simple et polyvalente qui vous permet de configurer un flux de données à partir d'un site Web externe (ou de plusieurs sites Web) dans une feuille de calcul.

Regardez cet excellent didacticiel vidéo pour apprendre à importer des données du Web vers Excel - ou, si vous préférez, utilisez les instructions écrites ci-dessous :

  • Ouvrir un nouveau classeur dans Excel
  • Cliquez sur la cellule dans laquelle vous souhaitez importer des données
  • Cliquez sur l'onglet "Données"
  • Cliquez sur "Obtenir des données externes"
  • Cliquez sur le symbole "Depuis le Web"
  • Notez les petites flèches jaunes qui apparaissent en haut à gauche de la page Web et à côté de certains contenus
  • Collez l'URL de la page Web à partir de laquelle vous souhaitez importer des données dans la barre d'adresse (nous vous recommandons de choisir un site où les données sont affichées dans des tableaux)
  • Cliquez sur 'Aller'
  • Cliquez sur la flèche jaune à côté des données que vous souhaitez importer
  • Cliquez sur 'Importer'
  • Une boîte de dialogue "Importer des données" apparaît
  • Cliquez sur 'OK' (ou modifiez la sélection de cellule, si vous le souhaitez)

Si vous avez suivi ces étapes, vous devriez maintenant pouvoir voir les données du site Web présentées dans votre feuille de calcul.

L'avantage des requêtes Web dynamiques est qu'elles ne se contentent pas d'importer des données dans votre feuille de calcul en une seule opération, elles les alimentent, ce qui signifie que la feuille de calcul est régulièrement mise à jour avec la dernière version des données, telle qu'elle apparaît sur le site Web source. C'est pourquoi nous les appelons dynamiques.

Pour configurer la fréquence à laquelle votre requête Web dynamique met à jour les données qu'elle importe, allez dans 'Données', puis 'Propriétés', puis sélectionnez une fréquence (« Actualiser toutes les X minutes »).

Scraping de données automatisé avec des outils

Se familiariser avec l'utilisation de requêtes Web dynamiques dans Excel est un moyen utile de comprendre le grattage des données. Cependant, si vous avez l'intention d'utiliser régulièrement le data scraping dans votre travail, vous trouverez peut-être un outil de data scraping dédié plus efficace.

Voici nos réflexions sur quelques-uns des outils de grattage de données les plus populaires sur le marché :

Gratte-données (plugin Chrome)
Data Scraper s'intègre directement dans les extensions de votre navigateur Chrome, vous permettant de choisir parmi une gamme de "recettes" de grattage de données prêtes à l'emploi pour extraire des données de la page Web chargée dans votre navigateur.

Cet outil fonctionne particulièrement bien avec les sources de récupération de données populaires telles que Twitter et Wikipedia, car le plug-in inclut une plus grande variété d'options de recettes pour ces sites.

Nous avons essayé Data Scraper en exploitant un hashtag Twitter, "#jourorequest", pour des opportunités de relations publiques, en utilisant l'une des recettes publiques de l'outil. Voici un aperçu des données que nous avons récupérées :

Exemple de sortie DataMiner

Comme vous pouvez le voir, l'outil a fourni un tableau avec le nom d'utilisateur de chaque compte qui a récemment publié sur le hashtag, ainsi que leur tweet et son URL.

Avoir ces données dans ce format serait plus utile pour un représentant des relations publiques que de simplement voir les données dans la vue du navigateur de Twitter pour un certain nombre de raisons :

  • Il pourrait être utilisé pour aider à créer une base de données de contacts presse
  • Vous pouvez continuer à vous référer à cette liste et trouver facilement ce que vous cherchez, tandis que Twitter met à jour en permanence
  • La liste est triable et modifiable
  • Il vous donne la propriété des données - qui peuvent être mises hors ligne ou modifiées à tout moment

Nous sommes impressionnés par Data Scraper, même si ses recettes publiques sont parfois un peu approximatives. Essayez d'installer la version gratuite sur Chrome et essayez d'extraire des données. Assurez-vous de regarder le film d'introduction qu'ils fournissent pour avoir une idée du fonctionnement de l'outil et des moyens simples d'extraire les données souhaitées.

WebHarvy
WebHarvy est un grattoir de données pointer-cliquer avec une version d'essai gratuite. Son principal argument de vente est sa flexibilité - vous pouvez utiliser le navigateur Web intégré de l'outil pour accéder aux données que vous souhaitez importer, puis créer vos propres spécifications d'exploration de données pour extraire exactement ce dont vous avez besoin du site Web source.

import.io
Import.io est une suite d'outils d'exploration de données riche en fonctionnalités qui fait une grande partie du travail acharné pour vous. Possède des fonctionnalités intéressantes, notamment « Qu'est-ce qui a changé ? » des rapports qui peuvent vous informer des mises à jour de sites Web spécifiés - idéal pour une analyse approfondie des concurrents.

Comment les marketeurs utilisent-ils le data scraping ?

Comme vous l'aurez compris à ce stade, le grattage des données peut être utile à peu près partout où des informations sont utilisées. Voici quelques exemples clés de la façon dont la technologie est utilisée par les spécialistes du marketing :

Collecte de données disparates
Selon Marcin Rosinski, PDG de FeedOptimise, l'un des grands avantages du data scraping est qu'il peut vous aider à rassembler différentes données en un seul endroit. "Crawling nous permet de prendre des données non structurées et dispersées à partir de plusieurs sources et de les collecter en un seul endroit et de les structurer", explique Marcin. "Si vous avez plusieurs sites Web contrôlés par différentes entités, vous pouvez tout combiner en un seul flux.

"Le spectre des cas d'utilisation pour cela est infini."

FeedOptimise propose une grande variété de services de récupération de données et de flux de données, que vous pouvez découvrir sur leur site Web.

Accélération de la recherche
L'utilisation la plus simple du data scraping consiste à récupérer des données à partir d'une source unique. S'il existe une page Web contenant de nombreuses données qui pourraient vous être utiles, le moyen le plus simple d'obtenir ces informations sur votre ordinateur dans un format ordonné sera probablement le grattage des données.

Essayez de trouver une liste de contacts utiles sur Twitter et importez les données à l'aide du grattage de données. Cela vous donnera un aperçu de la façon dont le processus peut s'intégrer dans votre travail quotidien.

Sortie d'un flux XML vers des sites tiers
La transmission des données produit de votre site à Google Shopping et à d'autres vendeurs tiers est une application clé de la collecte de données pour le commerce électronique. Il vous permet d'automatiser le processus potentiellement laborieux de mise à jour des détails de votre produit - ce qui est crucial si votre stock change souvent.

"Le grattage des données peut produire votre flux XML pour Google Shopping", explique Ciaran Rogers, directeur marketing de Target Internet. “ J'ai travaillé avec un certain nombre de détaillants en ligne qui ajoutaient continuellement de nouveaux SKU à leur site au fur et à mesure que les produits arrivaient en stock. Si votre solution de commerce électronique ne produit pas de flux XML approprié que vous pouvez connecter à votre Google Merchant Center afin de pouvoir annoncer vos meilleurs produits, cela peut poser problème. Souvent, vos derniers produits sont potentiellement les meilleurs vendeurs, vous souhaitez donc les faire connaître dès leur mise en ligne. J'ai utilisé le grattage de données pour produire des listes à jour à alimenter dans Google Merchant Center. C'est une excellente solution, et en fait, vous pouvez faire tellement de choses avec les données une fois que vous les avez. À l'aide du flux, vous pouvez baliser quotidiennement les produits qui convertissent le mieux afin de pouvoir partager ces informations avec Google Adwords et vous assurer d'enchérir de manière plus compétitive sur ces produits. Une fois que vous l'avez configuré, tout est assez automatisé. La flexibilité d'un bon flux que vous contrôlez de cette manière est excellente et peut entraîner des améliorations très nettes dans les campagnes que les clients adorent. »

Il est possible de configurer vous-même un simple flux de données dans Google Merchant Center. Voici comment c'est fait :

Comment configurer un flux de données vers Google Merchant Center

À l'aide de l'une des techniques ou des outils décrits précédemment, créez un fichier qui utilise une requête de site Web dynamique pour importer les détails des produits répertoriés sur votre site. Ce fichier devrait se mettre à jour automatiquement à intervalles réguliers.

Les détails doivent être définis comme spécifié ici.

  • Télécharger ce fichier vers une URL protégée par mot de passe
  • Accédez à Google Merchant Center et connectez-vous (assurez-vous d'abord que votre compte Merchant Center est correctement configuré)
  • Aller aux produits
  • Cliquez sur le bouton plus
  • Entrez votre pays cible et créez un nom de flux
  • Sélectionnez l'option "Récupération planifiée"
  • Ajoutez l'URL de votre fichier de données produit, ainsi que le nom d'utilisateur et le mot de passe requis pour y accéder
  • Sélectionnez la fréquence de récupération qui correspond le mieux à votre calendrier de téléchargement de produits
  • Cliquez sur Enregistrer
  • Vos données produit devraient maintenant être disponibles dans Google Merchant Center. Assurez-vous simplement de cliquer sur l'onglet "Diagnostics" pour vérifier son état et vous assurer que tout fonctionne correctement.

Le côté obscur du data scraping

Il existe de nombreuses utilisations positives du data scraping, mais une petite minorité en abuse également.

L'utilisation abusive la plus répandue du grattage de données est la collecte d'e-mails - le grattage des données des sites Web, des médias sociaux et des annuaires pour découvrir les adresses e-mail des personnes, qui sont ensuite revendues à des spammeurs ou à des escrocs. Dans certaines juridictions, l'utilisation de moyens automatisés tels que le grattage de données pour récolter des adresses e-mail à des fins commerciales est illégale et est presque universellement considérée comme une mauvaise pratique marketing.

De nombreux internautes ont adopté des techniques pour aider à réduire le risque que les collecteurs d'e-mails obtiennent leur adresse e-mail, notamment :

  • Adresse munging : changer le format de votre adresse e-mail lorsque vous la publiez publiquement, par exemple en tapant 'patrick[at]gmail.com' au lieu de '[email protected]'. Il s'agit d'une approche simple mais légèrement peu fiable pour protéger votre adresse e-mail sur les réseaux sociaux - certains moissonneurs rechercheront diverses combinaisons mungées ainsi que des e-mails dans un format normal, donc ce n'est pas entièrement hermétique.
  • Formulaires de contact : utilisez un formulaire de contact au lieu de publier votre ou vos adresses e-mail sur votre site Web.
  • Images : si votre adresse e-mail est présentée sous forme d'image sur votre site Web, elle sera hors de portée technologique de la plupart des personnes impliquées dans la collecte d'e-mails.

L'avenir du data scraping

Que vous ayez ou non l'intention d'utiliser le data scraping dans votre travail, il est conseillé de vous renseigner sur le sujet, car il est susceptible de devenir encore plus important dans les prochaines années.

Il existe désormais sur le marché une IA de grattage de données qui peut utiliser l'apprentissage automatique pour continuer à mieux reconnaître les entrées que seuls les humains ont traditionnellement été capables d'interpréter - comme les images.

De grandes améliorations dans la récupération de données à partir d'images et de vidéos auront des conséquences considérables pour les spécialistes du marketing numérique. Au fur et à mesure que le grattage d'images devient plus approfondi, nous pourrons en savoir beaucoup plus sur les images en ligne avant de les avoir vues nous-mêmes - et cela, comme le grattage de données textuelles, nous aidera à faire beaucoup mieux.

Ensuite, il y a le plus grand grattoir de données de tous - Google. Toute l'expérience de la recherche sur le Web va être transformée lorsque Google peut déduire avec précision autant d'une image que d'une page de copie - et cela va doublement du point de vue du marketing numérique.

Si vous ne savez pas si cela peut se produire dans un avenir proche, essayez l'API d'interprétation d'images de Google, Cloud Vision, et dites-nous ce que vous en pensez.

obtenez votre adhésion gratuite maintenant - aucune carte de crédit requise

  • La boîte à outils du marketing numérique
  • Séances d'apprentissage vidéo exclusives en direct
  • Bibliothèque complète du podcast de marketing numérique
  • Les outils de benchmarking des compétences numériques
  • Cours de formation en ligne gratuits

ADHÉSION GRATUITE
infographie