¿Qué es el raspado de datos y cómo puede usarlo?

Publicado: 2017-09-13

¿Qué es el raspado de datos?

El raspado de datos, también conocido como raspado web, es el proceso de importar información de un sitio web a una hoja de cálculo o archivo local guardado en su computadora. Es una de las formas más eficientes de obtener datos de la web y, en algunos casos, de canalizar esos datos a otro sitio web. Los usos populares del raspado de datos incluyen:

  • Investigación de contenido web/inteligencia empresarial
  • Precios para sitios de reservas de viajes/sitios de comparación de precios
  • Encontrar oportunidades de venta/realizar estudios de mercado mediante el rastreo de fuentes de datos públicas (p. ej., Yell y Twitter)
  • Envío de datos de productos desde un sitio de comercio electrónico a otro proveedor en línea (por ejemplo, Google Shopping)

Y esa lista es solo rascar la superficie. El raspado de datos tiene una gran cantidad de aplicaciones: es útil en casi cualquier caso en el que los datos deben moverse de un lugar a otro.

Los conceptos básicos del raspado de datos son relativamente fáciles de dominar. Veamos cómo configurar una acción simple de extracción de datos usando Excel.

Data Scraping con consultas web dinámicas en Microsoft Excel

Configurar una consulta web dinámica en Microsoft Excel es un método fácil y versátil de extracción de datos que le permite configurar una fuente de datos desde un sitio web externo (o varios sitios web) en una hoja de cálculo.

Mire este excelente video tutorial para aprender cómo importar datos de la web a Excel o, si lo prefiere, use las instrucciones escritas a continuación:

  • Abrir un nuevo libro de trabajo en Excel
  • Haga clic en la celda en la que desea importar datos
  • Haga clic en la pestaña 'Datos'
  • Haga clic en 'Obtener datos externos'
  • Haga clic en el símbolo 'Desde la web'
  • Tenga en cuenta las pequeñas flechas amarillas que aparecen en la parte superior izquierda de la página web y junto a cierto contenido
  • Pegue la URL de la página web desde la que desea importar datos en la barra de direcciones (recomendamos elegir un sitio donde los datos se muestren en tablas)
  • Haga clic en 'Ir'
  • Haga clic en la flecha amarilla junto a los datos que desea importar
  • Haga clic en 'Importar'
  • Aparece un cuadro de diálogo "Importar datos"
  • Haga clic en 'Aceptar' (o cambie la selección de celda, si lo desea)

Si ha seguido estos pasos, ahora debería poder ver los datos del sitio web establecidos en su hoja de cálculo.

Lo bueno de las consultas web dinámicas es que no solo importan datos a su hoja de cálculo como una operación única, sino que los introducen, lo que significa que la hoja de cálculo se actualiza regularmente con la última versión de los datos, tal como aparece en la sitio web de origen Por eso los llamamos dinámicos.

Para configurar la frecuencia con la que su consulta web dinámica actualiza los datos que importa, vaya a 'Datos', luego a 'Propiedades', luego seleccione una frecuencia ("Actualizar cada X minutos").

Raspado de datos automatizado con herramientas

Familiarizarse con el uso de consultas web dinámicas en Excel es una forma útil de comprender el raspado de datos. Sin embargo, si tiene la intención de usar el raspado de datos regularmente en su trabajo, puede encontrar una herramienta de raspado de datos dedicada más efectiva.

Estas son nuestras opiniones sobre algunas de las herramientas de extracción de datos más populares del mercado:

Rascador de datos (complemento de Chrome)
Data Scraper se inserta directamente en las extensiones de su navegador Chrome, lo que le permite elegir entre una variedad de "recetas" de raspado de datos listas para usar para extraer datos de cualquier página web que esté cargada en su navegador.

Esta herramienta funciona especialmente bien con fuentes populares de extracción de datos como Twitter y Wikipedia, ya que el complemento incluye una mayor variedad de opciones de recetas para dichos sitios.

Probamos Data Scraper extrayendo un hashtag de Twitter, "#jourorequest", para oportunidades de relaciones públicas, utilizando una de las recetas públicas de la herramienta. Aquí hay una muestra de los datos que obtuvimos:

Ejemplo de salida de DataMiner

Como puede ver, la herramienta ha proporcionado una tabla con el nombre de usuario de cada cuenta que haya publicado recientemente en el hashtag, además de su tweet y su URL.

Tener estos datos en este formato sería más útil para un representante de relaciones públicas que simplemente ver los datos en la vista del navegador de Twitter por varias razones:

  • Podría usarse para ayudar a crear una base de datos de contactos de prensa.
  • Puede seguir consultando esta lista y encontrar fácilmente lo que está buscando, mientras que Twitter actualiza continuamente
  • La lista es ordenable y editable.
  • Le otorga la propiedad de los datos, que pueden desconectarse o cambiarse en cualquier momento

Estamos impresionados con Data Scraper, aunque sus recetas públicas a veces son un poco toscas. Intente instalar la versión gratuita en Chrome y juegue con la extracción de datos. Asegúrese de ver la película de introducción que proporcionan para tener una idea de cómo funciona la herramienta y algunas formas sencillas de extraer los datos que desea.

WebHarvy
WebHarvy es un extractor de datos de apuntar y hacer clic con una versión de prueba gratuita. Su mayor punto de venta es su flexibilidad: puede usar el navegador web incorporado de la herramienta para navegar a los datos que le gustaría importar y luego puede crear sus propias especificaciones de minería para extraer exactamente lo que necesita del sitio web de origen.

import.io
Import.io es un conjunto de herramientas de minería de datos rico en funciones que hace gran parte del trabajo duro por usted. Tiene algunas funciones interesantes, como "¿Qué ha cambiado?" informes que pueden notificarle sobre actualizaciones de sitios web específicos, ideal para un análisis en profundidad de la competencia.

¿Cómo utilizan los especialistas en marketing el raspado de datos?

Como se habrá dado cuenta a estas alturas, el raspado de datos puede ser útil en casi cualquier lugar donde se utilice información. Estos son algunos ejemplos clave de cómo los especialistas en marketing utilizan la tecnología:

Recopilación de datos dispares
Una de las grandes ventajas del raspado de datos, dice Marcin Rosinski, director ejecutivo de FeedOptimise, es que puede ayudarlo a recopilar diferentes datos en un solo lugar. “El rastreo nos permite tomar datos dispersos y no estructurados de múltiples fuentes y recopilarlos en un solo lugar y estructurarlos”, dice Marcin. “Si tiene varios sitios web controlados por diferentes entidades, puede combinarlos en un solo feed.

“El espectro de casos de uso para esto es infinito”.

FeedOptimise ofrece una amplia variedad de servicios de extracción de datos y alimentación de datos, que puede conocer en su sitio web.

Acelerar la investigación
El uso más simple para el raspado de datos es recuperar datos de una sola fuente. Si hay una página web que contiene muchos datos que podrían serle útiles, la forma más fácil de obtener esa información en su computadora en un formato ordenado probablemente sea el raspado de datos.

Intente encontrar una lista de contactos útiles en Twitter e importe los datos utilizando el raspado de datos. Esto le dará una idea de cómo el proceso puede encajar en su trabajo diario.

Salida de un feed XML a sitios de terceros
La alimentación de datos de productos de su sitio a Google Shopping y otros vendedores externos es una aplicación clave del raspado de datos para el comercio electrónico. Le permite automatizar el proceso potencialmente laborioso de actualizar los detalles de su producto, lo cual es crucial si su stock cambia con frecuencia.

"El raspado de datos puede generar su fuente XML para Google Shopping", dice el director de marketing de Target Internet, Ciaran Rogers. “ He trabajado con una serie de minoristas minoristas en línea que continuamente agregaban nuevos SKU a su sitio a medida que los productos se agotaban. Si su solución de comercio electrónico no genera un feed XML adecuado que puede conectar a su Google Merchant Center para anunciar sus mejores productos, eso puede ser un problema. A menudo, sus últimos productos son potencialmente los más vendidos, por lo que desea que se anuncien tan pronto como se publiquen. He utilizado el raspado de datos para producir listados actualizados para alimentar a Google Merchant Center. Es una gran solución y, de hecho, hay mucho que puede hacer con los datos una vez que los tiene. Con el feed, puede etiquetar los mejores productos de conversión diariamente para que pueda compartir esa información con Google Adwords y asegurarse de ofertar de manera más competitiva en esos productos. Una vez que lo configuras, todo está bastante automatizado. La flexibilidad de un buen feed del que tiene control de esta manera es excelente, y puede conducir a algunas mejoras muy definidas en aquellas campañas que aman a los clientes”.

Es posible configurar una fuente de datos simple en Google Merchant Center para usted. Así es como se hace:

Cómo configurar un feed de datos para Google Merchant Center

Con una de las técnicas o herramientas descritas anteriormente, cree un archivo que utilice una consulta dinámica del sitio web para importar los detalles de los productos enumerados en su sitio. Este archivo debería actualizarse automáticamente a intervalos regulares.

Los detalles deben establecerse como se especifica aquí.

  • Sube este archivo a una URL protegida con contraseña
  • Vaya a Google Merchant Center e inicie sesión (primero asegúrese de que su cuenta de Merchant Center esté configurada correctamente)
  • Ir a Productos
  • Haga clic en el botón más
  • Ingrese su país de destino y cree un nombre de fuente
  • Seleccione la opción 'obtención programada'
  • Agregue la URL del archivo de datos de su producto, junto con el nombre de usuario y la contraseña necesarios para acceder a él
  • Seleccione la frecuencia de búsqueda que mejor se adapte a su programa de carga de productos
  • Clic en Guardar
  • Los datos de su producto ahora deberían estar disponibles en Google Merchant Center. Solo asegúrese de hacer clic en la pestaña 'Diagnóstico' para verificar su estado y asegurarse de que todo funcione sin problemas.

El lado oscuro del raspado de datos

Hay muchos usos positivos para el raspado de datos, pero también es abusado por una pequeña minoría.

El uso indebido más frecuente del raspado de datos es la recolección de correo electrónico: el raspado de datos de sitios web, redes sociales y directorios para descubrir las direcciones de correo electrónico de las personas, que luego se venden a los spammers o estafadores. En algunas jurisdicciones, el uso de medios automatizados como el raspado de datos para recopilar direcciones de correo electrónico con fines comerciales es ilegal y casi universalmente se considera una mala práctica de marketing.

Muchos usuarios de la web han adoptado técnicas para ayudar a reducir el riesgo de que los recolectores de correo electrónico obtengan su dirección de correo electrónico, que incluyen:

  • Cambio de dirección: cambiar el formato de su dirección de correo electrónico cuando la publica, por ejemplo, escribir 'patrick[at]gmail.com' en lugar de '[email protected]'. Este es un enfoque fácil pero un poco poco confiable para proteger su dirección de correo electrónico en las redes sociales: algunos recolectores buscarán varias combinaciones manipuladas, así como correos electrónicos en un formato normal, por lo que no es completamente hermético.
  • Formularios de contacto: usar un formulario de contacto en lugar de publicar su(s) dirección(es) de correo electrónico en su sitio web.
  • Imágenes: si su dirección de correo electrónico se presenta en forma de imagen en su sitio web, estará más allá del alcance tecnológico de la mayoría de las personas involucradas en la recolección de correo electrónico.

El futuro del raspado de datos

Ya sea que tenga la intención de utilizar el raspado de datos en su trabajo o no, es recomendable que se informe sobre el tema, ya que es probable que se vuelva aún más importante en los próximos años.

Ahora hay IA de raspado de datos en el mercado que puede usar el aprendizaje automático para seguir mejorando en el reconocimiento de entradas que tradicionalmente solo los humanos han podido interpretar, como imágenes.

Las grandes mejoras en el raspado de datos de imágenes y videos tendrán consecuencias de gran alcance para los especialistas en marketing digital. A medida que el raspado de imágenes sea más profundo, podremos saber mucho más sobre las imágenes en línea antes de que las veamos nosotros mismos, y esto, como el raspado de datos basado en texto, nos ayudará a hacer muchas cosas mejor.

Luego está el raspador de datos más grande de todos: Google. Toda la experiencia de la búsqueda web se transformará cuando Google pueda inferir con precisión tanto de una imagen como de una página de copia, y eso se duplica desde una perspectiva de marketing digital.

Si tiene alguna duda sobre si esto puede suceder en un futuro cercano, pruebe la API de interpretación de imágenes de Google, Cloud Vision, y háganos saber lo que piensa.

obtenga su membresía gratis ahora - absolutamente no se requiere tarjeta de crédito

  • El kit de herramientas de marketing digital
  • Sesiones exclusivas de aprendizaje en video en vivo
  • Biblioteca completa de The Digital Marketing Podcast
  • Las herramientas de evaluación comparativa de habilidades digitales
  • Cursos de formación en línea gratuitos

MEMBRESÍA GRATIS
infografía