如何优化您的抓取预算
已发表: 2017-07-055 月,我们针对 Google 的抓取预算举办了一次法语网络研讨会。 在 OnCrawl 的第二次网络研讨会上,Orange & Sosh(法国互联网提供商)前 SEO 负责人 Erle Alberton 介绍了抓取预算概念、优化它的最佳实践、应避免什么等。实用示例将说明谷歌团队最近确认的这一概念。
谷歌对抓取预算的评价
1 月中旬,谷歌在他们的博客上发表了一篇文章称:“我们没有一个单一的术语来描述“抓取预算”在外部代表的所有内容。 ” 换句话说,我们 SEO 将其视为抓取预算。
这家网络巨头还表示,如果您的新页面通常在其发布的同一天被抓取,那么您实际上不必担心抓取预算。 它还指出,如果一个网站的网址少于几千个,它将被正确抓取,因为抓取预算通常是为大容量网站保留的……这既对又错,因为谷歌搜索控制台中的所有网站都有抓取预算。 我们可以很容易地在 Google 指标中看到这一点。
我们还在这篇文章中发现,Google 正在尝试实现“抓取速度限制”,以限制给定网站的最大抓取速度。 我们可以看到,例如,当加载时间太长时,Google 几乎将其预算削减了 2。话虽如此,有一些因素会影响抓取预算,例如糟糕的架构(系统、状态代码、内部结构)、不良和/或重复的内容、蜘蛛陷阱等。
Google 的抓取预算如何运作?
Google 的抓取是一组简单的步骤,可对每个站点递归操作。 这是来自谷歌的一张图表,我们看到抓取从一个 txt 机器人的命中开始,然后它分成一组 URL,这些 URL 被编译成一个列表。 之后,Google 会尝试获取它们,同时与他已经知道的 URL 以及他已经备份的 URL 进行比较。
它的目标是详尽而准确地完成它的索引。 我们看到,即使网站是 JavaScript,Google 也会发送三级爬虫。 您仍然应该小心 JavaScript 网站,因为它们会消耗大量机器人资源,并且平均每季度仅发送一次。 我们需要重新考虑我们的方法,以便 Google 可以访问 JavaScript 导航之外的页面。
然后,Google 将检查页面更新的状态(与之前索引的内容进行比较),以评估该页面是重要还是不重要。 确实,谷歌需要优化其抓取资源,因为它无法抓取所有网站的每一页。 它被称为页面重要性……这是一个非常重要的分数,我们将在下面详细了解!
事实:如果谷歌优化,那是有原因的
抓取预算取决于:
- 站点快速回答的能力;
- 站点的健全性 – 4xx、5xx、3xx(当站点开始有 404 或 500 时,抓取预算会受到影响,因为它总是会仔细检查是否已进行修复);
- 内容的质量——语义和详尽;
- Anchor 的多样性(一个页面在收到大量链接时被认为是重要的。使用OnCrawl 的 InRank您可以分析整个事情);
- 页面受欢迎程度——外部和内部;
- 可优化因素——简化爬取(减少图像大小,拥有 css、js、gif、字体等的能力)
[案例研究] 增加战略页面的抓取预算
Google Page Importance 的关键组件
页面重要性定义与页面排名不同:
- 网站中的页面位置 - 抓取率的深度;
- 页面排名:页面的 TF/CF – Majestic;
- 内部页面排名 – OnCrawl 的 InRank;
- 文档类型:PDF、HTML、TXT(PDF 通常是最终定性文档,因此会被大量抓取);
- 包含在 sitemap.xml 中;
- 内部链接数:
- 锚的质量/重要性;
- 定性内容:字数,几乎没有重复(如果页面内容太接近,谷歌会惩罚相似的内容);
- “主页”页面的重要性。
如何规划要抓取的重要 URL
URL 调度: Google 想要访问哪些页面以及访问频率如何?
在上面的示例中,(观察同一网站的抓取频率)Google 不会以相同的频率抓取不同的组。 我们看到,当谷歌抓取网站的一部分时,排名的影响很快就会显现出来。
有关 Google 抓取预算的更多信息
- Google Search Console 100% 的网站都有抓取数据;
- 由于日志分析可以帮助您快速检测机器人行为中的异常,我们可以跟踪其爬取行为;
- 糟糕的内部结构(分页、孤立页面、蜘蛛陷阱)可能会阻止 Google 抓取正确的页面;
- 抓取预算与排名直接相关。
页面速度优先
最重要的因素是页面的加载时间,因为它对抓取预算起着决定性的作用。 事实上,我们今天处于一个移动世界。 因此,您最好的资产是页面的加载时间,以优化您的抓取预算和您的 SEO。 随着移动革命,加载时间是评估网站质量的重要因素。 它的快速响应能力——尤其是对于移动和索引移动优先。
为了优化它,我们可以使用Cloudflare 等CDN 解决方案(内容交付网络)。 这些解决方案可以让 Google 的机器人尽可能靠近资源并尽可能快地加载页面。
谷歌不断测试网站快速响应的能力。 架构和编码质量对 Google 的符号有很大的影响。
加载时间
这是抓取预算的第一个分配因素!
服务器方面,您需要:
- 避免重定向;
- 授权压缩;
- 提高响应时间。
上面是一个Manageo网站的示例,它具有线性抓取预算并且我们可以看到线性增长。 5 月,每天抓取的页面数量有所下降,因此网站的速度发生了变化。 Google 发现该网站的响应速度较慢,因此将其抓取预算削减了一半。 要纠正这一切,您必须优化服务器端的代码、减少重定向、使用压缩等等。
从正面看,您需要:
- 操作浏览器缓存
- 减少资源大小(图片优化,使用CDN/延迟加载/删除阻塞显示的JS;
- 使用异步脚本。
质量下降=没有更多的爱=没有更多的预算
有必要检查发送回 Google 机器人的状态代码,以确保 IS 是干净的。 这是 Google 验证您的代码质量和架构是否干净的唯一方法。
随着时间的推移跟踪它们的演变可确保代码更新对 SEO 友好。 Google 在资源(css、img、js)上花费了大量资源,因此请确保它们完美无缺。
独特而丰富的内容
一个页面越重要,它的文本就越丰富。 如上图,谷歌抓取和未抓取的页面数量与页面上的字数有关。 因此,您的页面应尽可能定期进行增强和更新。
谨防规范和重复的内容
当两个相似的页面不指向同一个规范 URL 时,Google 将花费两倍的预算。 因此,规范管理对于带有构面的站点或带有 queryString 的外部链接可能变得至关重要。
几乎重复和规范的内容管理成为爬网预算优化的重要方面。
内部结构和 InRank 分布
产生 SEO 访问的页面被认为是活跃的。 这些是位于网站架构顶部的那些。 另一方面,我们在这里看到,在第 15 页上出现了一组页面。 也许这些页面被您的用户搜索的次数比您想象的要多得多,并且需要在架构中进行升级以提高他们的排名。
众所周知,页面越深,Google 访问它们的次数就越少!
我的钱页位置是否正确?
提示:如果您想优化某些页面组的深度,请不要犹豫创建 html 站点计划,这意味着页面对于管理您的深度至关重要。
谷歌将比较你的结构页面与抓取的页面和活动的页面。 也就是说,解决孤立页面的问题对您有利,Google 会为此花费不必要的预算,并修复网站的架构以返回指向活动但结构外页面的链接。
有时页面不再接收链接,它们被称为孤立页面。 另一方面,谷歌并没有忘记它们。 他将继续拜访他们。 他们不再接收链接,因此失去了重要性,但在右图中,一些孤立页面继续接收 SEO 访问。 您需要知道的是如何快速识别它们并修复架构中的链接问题。 这是优化抓取预算的好方法。
远离的错误
- 404 中的 Robots.txt;
- Sitemap.xml & sitemap.html 已过期;
- 50x / 40x / 软 404 错误;
- 有链式重定向;
- 规范错误;
- 重复内容(页脚)/接近重复/HTTP vs HTTPS;
- 响应时间过长;
- 页面重量太重要了;
- AMP/ 错误。 该协议被谷歌广泛使用,尤其是用于电子商务网站(不仅仅是媒体网站);
- 内部链接错误 + Rel=nofollow;
- 使用 JS 没有任何其他选择。
结论
要优化抓取预算,您需要:
- 了解您的资金页面并了解 Google 的反应;
- 提高加载时间;
- 优化您的内部链接:将您所有的资金页面放在结构的顶部;
- 修复您的孤立页面;
- 将文本添加到您的货币页面;
- 最大限度地更新您的货币页面——新鲜度;
- 减少不良内容和重复内容;
- 优化您的规范、图像、资源权重;
- 避免链式重定向;
- 监控您的日志并在出现异常时做出反应(在 SEOcamp Lyon 期间查看 Manageo 的这个用例)。
为了优化您的抓取预算,您需要精确监控 Google 的抓取工具
Google 在您网站上的路径的某些时刻比其他时刻更重要,因此您必须知道如何优化它们。
为了优化您的抓取预算,有必要正确管理您的 HTTPS (HTTP2) 迁移
您需要能够跟踪和监控它。 挑战您的 IT 团队使用 HTTPS 迁移到 HTTP2。
OnCrawl 可帮助您每天跟踪 Google 的抓取预算,并快速定位修复和结构更改以提高您的 SEO 性能。