什么是数据抓取以及如何使用它?

已发表: 2017-09-13

什么是数据抓取?

数据抓取,也称为网络抓取,是将信息从网站导入电子表格或保存在计算机上的本地文件的过程。 这是从网络获取数据的最有效方式之一,在某些情况下,它还可以将这些数据传输到另一个网站。 数据抓取的流行用途包括:

  • 网络内容/商业智能研究
  • 旅游预订网站/价格比较网站的定价
  • 通过抓取公共数据源(例如 Yell 和 Twitter)来寻找销售线索/进行市场研究
  • 将产品数据从电子商务网站发送到另一个在线供应商(例如 Google 购物)

而这份清单只是表面上的。 数据抓取有大量的应用程序——它在几乎任何需要将数据从一个地方移动到另一个地方的情况下都很有用。

数据抓取的基础知识相对容易掌握。 让我们来看看如何使用 Excel 设置一个简单的数据抓取操作。

在 Microsoft Excel 中使用动态 Web 查询进行数据抓取

在 Microsoft Excel 中设置动态 Web 查询是一种简单、通用的数据抓取方法,使您能够将来自外部网站(或多个网站)的数据馈送设置到电子表格中。

观看这个出色的教程视频,了解如何将数据从 Web 导入 Excel - 或者,如果您愿意,可以使用以下书面说明:

  • 在 Excel 中打开一个新工作簿
  • 单击要导入数据的单元格
  • 单击“数据”选项卡
  • 点击“获取外部数据”
  • 点击“来自网络”符号
  • 请注意出现在网页左上角和某些内容旁边的黄色小箭头
  • 将要从中导入数据的网页的 URL 粘贴到地址栏中(我们建议选择数据显示在表格中的站点)
  • 点击“开始”
  • 单击要导入的数据旁边的黄色箭头
  • 点击“导入”
  • 弹出“导入数据”对话框
  • 单击“确定”(或更改单元格选择,如果您愿意)

如果您已按照这些步骤操作,您现在应该能够看到电子表格中列出的网站数据。

动态 Web 查询的好处在于,它们不只是将数据作为一次性操作导入电子表格,而是将其输入,这意味着电子表格会定期更新最新版本的数据,因为它显示在源网站。 这就是为什么我们称它们为动态的。

要配置您的动态 Web 查询更新其导入数据的频率,请转到“数据”,然后转到“属性”,然后选择频率(“每 X 分钟刷新一次”)。

使用工具自动抓取数据

掌握在 Excel 中使用动态 Web 查询是了解数据抓取的有用方法。 但是,如果您打算在工作中定期使用数据抓取,您可能会发现专用的数据抓取工具更有效。

以下是我们对市场上一些最流行的数据抓取工具的看法:

数据抓取器(Chrome 插件)
Data Scraper 直接插入您的 Chrome 浏览器扩展程序,允许您从一系列现成的数据抓取“食谱”中进行选择,以从浏览器中加载的任何网页中提取数据。

该工具特别适用于 Twitter 和 Wikipedia 等流行的数据抓取来源,因为该插件包括用于此类网站的更多种类的食谱选项。

我们通过挖掘 Twitter 主题标签“#jourorequest”来尝试使用 Data Scraper,以获取公关机会,使用该工具的一个公共食谱。 这是我们返回的数据的味道:

DataMiner 输出示例

如您所见,该工具提供了一个表格,其中包含最近在主题标签上发布的每个帐户的用户名,以及他们的推文及其 URL

拥有这种格式的数据对于 PR 代表来说比简单地在 Twitter 的浏览器视图中查看数据更有用,原因有很多:

  • 它可用于帮助创建新闻联系人数据库
  • 您可以继续参考此列表并轻松找到您要查找的内容,而 Twitter 会不断更新
  • 该列表是可排序和可编辑的
  • 它为您提供数据的所有权 - 可以随时脱机或更改

Data Scraper 给我们留下了深刻的印象,尽管它的公共配方有时有些粗糙。 尝试在 Chrome 上安装免费版本,并尝试提取数据。 请务必观看他们提供的介绍影片,以了解该工具的工作原理以及提取所需数据的一些简单方法。

Web哈维
WebHarvy 是一个点击式数据抓取工具,有免费试用版。 它最大的卖点是它的灵活性——您可以使用该工具的内置 Web 浏览器导航到您想要导入的数据,然后可以创建自己的挖掘规范以从源网站中准确提取您需要的内容。

进口.io
Import.io 是一个功能丰富的数据挖掘工具套件,可以为您完成大部分繁重的工作。 有一些有趣的功能,包括“发生了什么变化?” 报告可以通知您指定网站的更新 - 非常适合深入分析竞争对手。

营销人员如何使用数据抓取?

正如您将在这一点上收集到的那样,数据抓取几乎可以在使用信息的任何地方派上用场。 以下是营销人员如何使用该技术的一些关键示例:

收集不同的数据
FeedOptimise 的首席执行官 Marcin Rosinski 说,数据抓取的一大优势是它可以帮助您将不同的数据收集到一个地方。 “抓取使我们能够从多个来源获取非结构化、分散的数据,并将其收集到一个地方并使其结构化,”Marcin 说。 “如果您有多个由不同实体控制的网站,您可以将它们全部合并到一个提要中。

“这方面的用例范围是无限的。”

FeedOptimise 提供各种数据抓取和数据馈送服务,您可以在他们的网站上找到相关信息。

加快研究
数据抓取最简单的用途是从单一来源检索数据。 如果有一个网页包含大量可能对您有用的数据,那么将这些信息以有序格式输入您的计算机的最简单方法可能是数据抓取。

尝试在 Twitter 上查找有用的联系人列表,并使用数据抓取导入数据。 这将使您了解该过程如何适应您的日常工作。

将 XML 提要输出到第三方站点
将产品数据从您的网站提供给 Google 购物和其他第三方卖家是电子商务数据抓取的关键应用。 它使您可以自动化更新产品详细信息的潜在费力过程——如果您的库存经常变化,这一点至关重要。

“数据抓取可以为 Google 购物输出您的 XML 提要,”Target Internet 的营销总监 Ciaran Rogers 说。 “ 我曾与许多在线零售商合作过,他们会随着产品的库存不断向他们的网站添加新的 SKU。 如果您的电子商务解决方案没有输出合适的 XML 供稿,您可以将其连接到您的 Google Merchant Center,这样您就可以宣传可能成为问题的最佳产品。 通常,您的最新产品可能是最畅销的产品,因此您希望在它们上线后立即对其进行广告宣传。 我使用数据抓取来生成最新的列表以输入 Google Merchant Center。 这是一个很好的解决方案,实际上,一旦你有了数据,你可以做很多事情。 使用 Feed,您可以每天标记转化率最高的产品,以便与 Google Adwords 共享该信息,并确保您对这些产品的出价更具竞争力。 一旦你设置它,它就完全自动化了。 您可以通过这种方式控制的良好 Feed 的灵活性非常好,它可以为客户喜爱的广告系列带来一些非常明确的改进。”

您可以为自己在 Google Merchant Center 中设置一个简单的数据馈送。 这是如何完成的:

如何设置 Google Merchant Center 的数据馈送

使用前面描述的一种技术或工具,创建一个文件,该文件使用动态网站查询来导入您网站上列出的产品的详细信息。 此文件应定期自动更新。

详细信息应按此处指定的方式列出。

  • 将此文件上传到受密码保护的 URL
  • 转到 Google Merchant Center 并登录(首先确保您的 Merchant Center 帐户已正确设置)
  • 转到产品
  • 点击加号按钮
  • 输入您的目标国家并创建提要名称
  • 选择“计划提取”选项
  • 添加您的产品数据文件的 URL,以及访问它所需的用户名和密码
  • 选择与您的产品上传计划最匹配的获取频率
  • 点击保存
  • 您的商品数据现在应该可以在 Google Merchant Center 中使用了。 只需确保单击“诊断”选项卡以检查其状态并确保一切正常。

数据抓取的阴暗面

数据抓取有很多积极的用途,但它也确实被一小部分人滥用。

数据抓取最普遍的滥用是电子邮件收集——从网站、社交媒体和目录中抓取数据以发现人们的电子邮件地址,然后将其出售给垃圾邮件发送者或诈骗者。 在某些司法管辖区,使用诸如数据抓取之类的自动化手段来获取具有商业目的的电子邮件地址是非法的,并且几乎被普遍认为是不良营销行为。

许多网络用户已采用技术来帮助降低电子邮件收集者获取其电子邮件地址的风险,包括:

  • 地址修改:在公开发布时更改电子邮件地址的格式,例如输入“patrick[at]gmail.com”而不是“[email protected]”。 这是在社交媒体上保护您的电子邮件地址的一种简单但稍微不可靠的方法 - 一些收割机会搜索各种 munged 组合以及正常格式的电子邮件,因此它并不完全密封。
  • 联系表格:使用联系表格而不是在您的网站上发布您的电子邮件地址。
  • 图片:如果您的电子邮件地址以图片形式显示在您的网站上,那么大多数参与电子邮件收集的人都无法使用它。

数据抓取的未来

无论您是否打算在工作中使用数据抓取,建议您对这个主题进行自我教育,因为它可能在未来几年变得更加重要。

现在市场上有数据抓取 AI,它可以使用机器学习来更好地识别传统上只有人类才能解释的输入——比如图像。

从图像和视频中抓取数据的重大改进将对数字营销人员产生深远的影响。 随着图像抓取变得更加深入,我们将能够在我们自己看到在线图像之前对它们有更多的了解——这就像基于文本的数据抓取一样,将帮助我们更好地做很多事情。

然后是最大的数据抓取工具——谷歌。 当谷歌能够准确地从图像中推断出与从副本页面中推断出的一样多时,整个网络搜索的体验将会发生转变——从数字营销的角度来看,这会翻倍。

如果您对这是否会在不久的将来发生有任何疑问,请试用 Google 的图像解释 API Cloud Vision,并告诉我们您的想法。

立即获得您的免费会员资格 - 绝对不需要信用卡

  • 数字营销工具包
  • 独家直播视频学习课程
  • 完整的数字营销播客库
  • 数字技能基准测试工具
  • 免费在线培训课程

免费会员
信息图