为什么 OnCrawl 不仅仅是桌面爬虫:深入了解我们基于云的 SEO 平台
已发表: 2018-12-06OnCrawl 是围绕 2015 年排名第一的法国电子商务玩家的 SEO 需求而构建的。这意味着我们必须在短时间内扩展我们的分析并处理一个拥有超过 5000 万个 URL 的网站。 你会说,对于新玩家来说很难吗? 实际上,我们仅在研发上就花费了 150 万欧元并且以前支持不同的数据项目的基础设施使这一切变得容易。 由于桌面爬虫和基于云的爬虫之间的区别有时仍不清楚,我们认为解释为什么 OnCrawl 提供的不仅仅是简单的桌面爬虫可能是有用的——从高扩展能力到第三方集成和分析速度。
扩展到无穷大和超越
由于运行它们的计算机的资源和内存,桌面爬虫的爬取能力有限。 他们很可能会被限制为每次抓取仅抓取几千个 URL。 虽然这对于小型网站来说是可以的,但与 SaaS(软件即服务)爬虫相比,爬取这些 URL 仍然需要更多时间。 基于云的爬虫分布在许多服务器上,因此您不受机器速度和大小的限制。
这意味着没有我们无法处理的爬行。 我们一直在为小型网站和大型网站工作,包括一些财富 500 强公司。 正如介绍中所说,我们在法国最大的电子商务网站 Cdiscount 要求我们为他们构建一个自定义解决方案以在一次抓取中处理他们 50M+ 的 URL 和 SEO 需求之后开发了我们的 SEO 爬虫。 此外,我们的扩展能力使我们连续两年成为欧洲搜索奖的最佳 SEO 工具,这是搜索行业的领先盛典。 目前,我们每天和每个网站收集多达 2500 万个 URL,或每月大约 10 亿个网页和 1500 亿个链接。 您可以在此处详细了解我们的技术以及我们如何处理 GDPR 政策。
自定义速度,广泛的功能
由于我们的应用程序是基于云的,因此您无需考虑机器的资源和速度能力。 这也意味着对时间或可以启动的爬网数量没有限制。 您可以在订阅允许的范围内启动尽可能多的抓取,并在抓取时执行其他操作。 使用基于云的解决方案还意味着您可以关闭应用程序窗口并等待抓取完成——它可以自行运行,不需要您的监视。 OnCrawl 让您可以根据您的 SEO 需求安排抓取,无论您需要每周或每月抓取一次您的网站。 如果您需要更快,您还可以决定加快分析速度。
由于 OnCrawl 应用程序可用于抓取任何网站,因此我们的机器人将遵循在目标网站上找到的 robots.txt 文件中表示的 Crawl-Delay 指令(如果有)。
否则,我们将抓取速度限制在每秒 1 页的速度,因此我们的机器人不会对目标网站过于激进。
当网站的 Crawl-Delay 指令高于 1 时,我们的应用程序会发出警告,告诉您抓取速度将低于请求的速度。
如果 Crawl-Delay 高于 30,我们会显示错误。 我们根本不允许您配置具有如此高的抓取延迟的抓取。
在这些情况下设置爬网的唯一方法是使用虚拟 robots.txt 文件。
为此,您必须首先使用您的 Google Analytics(分析)帐户验证该项目,这样我们才能确保您对要抓取的域拥有某种所有权。
我们有一些不同的参数可让您控制抓取:
- 加快爬行速度
- 暂停、停止、重新启动或中止爬网
- 当我们的机器人访问您的站点时,安排一次爬网以避免高峰流量时间并减轻您服务器上的压力
- 实时查看已获取的页面,到目前为止我们检索到的 URL 数量,并查看是否有任何问题会减慢您的抓取速度。
日志文件分析变得容易
OnCrawl 不仅仅是一个简单的 SEO 爬虫。 在过去的几年里,我们还发布了一个强大的日志文件分析器来解决其他 SEO 解决方案没有发现的问题。
完整的日志文件是您网站生命周期的完美反映。 无论是访问者还是机器人、显示的页面还是对资源的调用,您网站上的任何活动都写入其中。
借助 IP 地址、状态码、用户代理、引荐来源网址和其他技术数据等信息,每行日志(服务器端数据)都可以帮助您完成站点的分析,这通常基于分析(更多客户端导向)。
我们的日志文件分析器支持任何类型的日志格式,从 IIS、Ngnix 上的 Apache 等标准格式到更多自定义格式。 没有我们做不到的分析。 我们还让我们的用户直接从 Splunk、ELK / Elastic Stack、Amazon S3、OVH (ES) 或 Cloudflare 等第三方解决方案检索他们的日志数据。
这意味着您不会再像我们的一些竞争对手那样被额外的第三方日志文件管理器所困。
我们的界面使您可以轻松地通过安全和私有的 FTP 自动上传您的日志文件。 只需几个步骤即可完成您的日志文件分析。
您还可以实时监控正在处理的文件,看看是否有任何错误阻止了它们的上传。
无限的第三方集成
OnCrawl 致力于使用领先的搜索营销解决方案开发内置连接器,这些解决方案是 SEO 不可或缺的:Google Search Console、Google Analytics、Adobe Analytics 或 Majestic,仅举几例。 将这些解决方案集成到您的审核流程中并非多余:它可以更全面地了解您的网站在搜索引擎上的性能和健康状况,并阐明机器人和访问者在您的网站上的真实行为。 您还可以节省时间和精力,因为您无需稍后在 Excel 电子表格中手动处理这些数据。
反向链接报告
我们与领先的链接智能解决方案 Majestic 建立了值得信赖的关系。 我们的交叉数据分析让您可以将您的抓取数据和日志数据与您的反向链接数据结合起来,以了解反向链接对您的 SEO 流量和抓取频率的影响。 一旦您根据最重要的 KPI 设置了站点范围的自定义页面组细分。 您还可以可视化与页面点击深度级别相关的反向链接数量,或检查反向链接数量是否对 Google 的行为有影响。
我们提供的分析,其中反向链接数据在 URL 和机器人点击级别上关联和组合,是目前市场上唯一的分析。
排名报告
我们还为 Google Search Console 开发了一个独特的连接器,以了解您的网站是如何被发现和编入索引的,以及您的页面优化如何影响您的流量和索引。 我们提供有关您的关键字分布、展示次数、点击次数和点击率随时间变化的标准而详尽的见解,无论是在桌面还是移动设备上,针对品牌或非品牌关键字或关于您的网页组。 更重要的是,我们还提供了我们的竞争对手都没有做到的独特分析。
OnCrawl 使用您的细分和日志文件中的数据来解释您的排名数据。 因此,您可以识别排名页面和不排名页面的共同特征,包括深度、内部流行度、字数、链接、加载时间和标题评估。 不仅如此,您还可以检查描述长度和结构化数据对点击率的影响。
最后,OnCrawl Rankings 可让您大规模组合抓取、日志文件和 Search Console 数据,以突出显示排名页面并了解抓取预算是否影响您的排名。 没有其他爬网,无论是桌面还是基于云的,都支持此类功能。
分析报告
我们让您连接您的 Google Analytics 或 Adobe Analytics(前 Omniture),以了解页面和技术 SEO 如何影响搜索引擎的自然流量性能。 我们帮助您监控网站每个部分的 SEO 流量性能和用户行为。
CSV 摄取
虽然我们一直在努力与第三方解决方案进行新的集成,但我们不想让您没有运行技术 SEO 审核可能需要的特定类型的数据。 这就是为什么我们允许您大规模上传 CSV 文件(您可以上传数百万行)以在 URL 级别添加新的数据层。 您可以根据这些特定数据(排名、CRM、业务、Google Ads 数据等)构建您自己的细分和过滤器,以查看您最具战略意义的页面是否符合您的目标。
开放API,自定义分析
OnCrawl 基于围绕 API 构建的平台。 OnCrawl REST API 用于访问您的爬网数据以及管理您的项目和爬网。 要使用此 API,您需要拥有 OnCrawl 帐户、有效订阅和访问令牌。
您可以创建自己的应用程序来非常轻松地请求此 API。 这可以使用用户帐户生成的 API 令牌或使用 OAuth 应用程序使用用户帐户连接到 OnCrawl 来完成。
使用我们的 API,您可以使用您喜欢的编程语言和平台编写应用程序,充分利用 OnCrawl 的许多功能,部署在您自己的环境中。 这意味着您可以创建自定义仪表板,将我们的数据集成到其他平台,并在网站更新时自动触发抓取。
此外,为了让您更轻松地进行集成,我们所有的图表都在信息图标中包含 API 调用和响应格式。
随时间变化的趋势和优化
OnCrawl 在您的项目中按日期组织您的爬网。 我们会在您的订阅处于活动状态时存储您的爬网数据,这意味着您可以跟踪数月甚至数年的分析。 请注意,如果您使用我们的日志监控功能,OnCrawl 应用程序会以您网站访问者的 IP 地址形式处理个人数据。 需要此信息才能可靠地区分 Googlebot 和其他访问者。 IP 地址不存储在 OnCrawl 应用程序中。 此数据仅存在于您上传到私人安全 FTP 的原始文件中。
我们还提供了广泛的功能,让您可以比较基于相同爬网配置的两次爬网,以发现趋势和随时间的变化。 这是比较暂存版本和实时版本并检查迁移过程中是否一切顺利的好方法。
您还可以与队友或客户分享您的项目,这是证明优化价值和分享结果的好方法。
显示两次爬网之间重复内容的演变
显示两次爬行之间深度运动的演变
无处不在的语义
创新是我们的核心 DNA,多年来我们一直致力于推广技术 SEO。 OnCrawl 的首席技术官 Tanguy Moal 在自然语言处理问题上工作了超过 15 年,他帮助我们融合了语义和大数据技术,以理解网络上可用的海量数据。 我们使用 Simhash 算法实现了第一个近乎重复的内容检测器。
具有规范评估的相似页面集群 - 集群可以按页面数或内容相似性百分比进行过滤
我们最近还在研究热图内容检测器,它可以帮助我们的用户识别独特内容的块以及跨网页和整个网站的重复百分比。 语义是我们 SEO 爬虫的一部分:n-gram 分析从一开始就可以帮助您了解单词序列在网站中的分布方式。 我们是唯一具有这种语义功能的基于云的爬虫。 在对话式搜索查询不断增加的领域,语义 SEO 可帮助您通过有意义的元数据和语义相关内容来改善网站流量,这些内容可以明确地为特定搜索意图提供答案。
OnCrawl 不仅仅是一个桌面爬虫,它还提供无与伦比的大规模基于云的 SEO 分析。 OnCrawl 允许您采取行动,真正了解搜索引擎在您网站上的行为,并自信地创建 SEO 策略。
不要相信我们的话。 亲自尝试并立即开始免费试用。