更新前后的抓取预算跟踪
已发表: 2019-12-10嘘……有个秘密想告诉你。
您的网站有 Google 设置的“抓取预算”。
这是谷歌用来衡量两件事的秘密指标:
- 您的网站构建得如何
- 您的网站有多受欢迎
本文将重点介绍第一点。
提高网站的构建质量将增加您的抓取预算。
您的抓取预算越大,Google 就会越频繁地停下来阅读您的网页。
让我们首先分享对抓取预算是什么的理解。
什么是抓取预算
Google 使用一种称为网络爬虫(或蜘蛛)的特殊软件程序来读取您网站上的页面。
他们将这种网络爬虫称为 Googlebot。
抓取预算是描述 Googlebot 抓取您网页的频率的术语。
通过优化您的网站,您可以增加抓取预算。
谷歌表示您的抓取预算是以下各项的组合:
- 抓取速度 – Googlebot 在不破坏服务器的情况下抓取您的网站的速度
- 抓取需求——你的网页对谷歌用户的重要性
随着这些指标的改进,您会看到 Googlebot 更频繁地访问。 每次访问时阅读更多页面。
一旦谷歌抓取了一个页面,它就会将内容添加到谷歌索引中。 然后更新谷歌搜索结果中显示的信息。
通过优化抓取预算,您可以提高从您的网站更新到 Google 搜索的速度。
为什么你应该提高你的抓取预算
谷歌有一项艰巨的任务。 他们需要对互联网上的每一页进行抓取和索引。
他们需要这样做的力量是巨大的,他们不能索引每一页。
优化您的抓取预算将使您的网站有最好的机会出现在搜索中。
[案例研究] 管理 Google 的机器人抓取
如何提高您的抓取预算
改进网站是为了让 Googlebot 在网站上的时间尽可能高效。
我们不希望:
- Googlebot 正在阅读我们不希望在 Google 搜索中出现的页面。
- Googlebot 发现服务器错误
- Googlebot 跟踪损坏/死链接
- Googlebot 正在等待页面加载
- Googlebot 读取重复内容
以上都是在浪费谷歌宝贵的资源,可能会看到你的抓取率下降。
抓取预算和技术搜索引擎优化
作为技术 SEO 的一部分,您需要做的很多事情与优化抓取预算相同。
我们需要:
- 优化 robots.txt 并检查错误
- 修复任何 hreflang 和规范链接标签
- 解决非 200 页
- 修复重定向和任何重定向循环
- 确保任何站点地图都没有错误
接下来让我们看看如何为 Googlebot 创建完美的页面。
如何创建完美的页面
好的,所以也许不是完美的页面,但我们应该尽可能地尝试和改进页面。
让我们看一些您可以改进的常见页面问题。
页面问题
- 重复内容 - 使用规范链接标签标记您网站上的任何重复内容。
- 非 SSL 页面 – 查找任何 HTTP 链接并将其转换为 HTTPS。 如果您没有 SSL 证书,请从 Let's Encrypt 获得免费证书。
- 只抓取有用的页面 - 使用您的 robots.txt 文件来减少 Googlebot 可以去的地方。 例如,如果您有用于管理员的页面,则在您的 robots.txt 文件中禁止此操作。
- 内容稀少 - 考虑阻止对内容稀少或非常少的页面的抓取。 如果您的页面对用户没有什么价值,那么不要在这些页面上浪费 Googlebot 的时间。
- 服务器错误——服务器错误是网络服务器不健康的标志。 如果您的网站返回 5xx 错误,则修复这些错误可以提高抓取速度。
缓慢加载页面
提高爬网预算的一种方法是使页面快速。
快速页面使 Googlebot 更快,这向 Google 表明网络服务器“健康”。
谷歌已经说过页面速度会提高抓取速度:
使网站更快可以改善用户体验,同时还可以提高抓取速度。

- 页面权重- 该指标是页面的整体大小。 这包括页面上的所有 Javascript CSS 和图像。 总共应该小于 1mb。
- 优化图像– 图像应尽可能小,以 KB 为单位,而不会损失质量。 使用像 Squoosh 这样的工具可以帮助解决这个问题。
- 缩小的 CSS 和 JS – 缩小你的 JS 和 CSS 文件。 这是从文件中删除所有不必要字符的过程。 使用 CSSNano 和 UglifyJS 来缩小文件。
- 压缩和缓存- 确保服务器上的 GZip 或 BR 压缩。 这将加快获取文件所需的时间。 添加缓存,以便文件只下载一次。
有关页面速度改进的列表,请查看此深入的网站性能审查。 它有 30 个步骤来提高网站性能。
衡量你的改变的方法
作为一个聪明的 SEO,你知道在开始任何优化之前你需要跟踪变化。
您需要选择具有两个属性的数据点:
- 您必须能够随时间跟踪数据点。
- 您必须能够通过您的行动影响该数据。
那么我们应该为抓取预算跟踪的数据点是什么?
我们之前说过,Google 在决定抓取预算时会考虑两个因素:
- 抓取速度– Googlebot 在不破坏服务器的情况下抓取您的网站的速度
- 抓取需求——你的网页对谷歌用户的重要性
由于我们是技术 SEO,我们的工作是提高抓取速度。
所以这是我们应该跟踪的数据点。
跟踪抓取率
那么我们如何跟踪 Googlebot 的抓取率呢?
我们需要使用您的网络服务器访问日志。
日志存储向您的网络服务器发出的每个请求。 每次用户或 Googlebot 访问您的网站时,都会将日志条目添加到访问日志文件中。
以下是 Googlebot 条目的外观:
127.0.0.1 - - [11/Nov/2019:08:29:01 +0100]“GET /example HTTP/1.1”200 2326“-”“Mozilla/5.0(兼容;Googlebot/2.1;+http://www .google.com/bot.html)"
每个日志中有三个重要的数据点。 日期:
[2019 年 11 月 11 日:08:29:01 +0100]
网址:
“GET /example HTTP/1.1”
用户代理告诉我们是 Googlebot 发出请求:
“Mozilla/5.0(兼容;Googlebot/2.1;+http://www.google.com/bot.html)”
以上日志来自 Nginx 网络服务器。 但是,所有 Web 服务器(例如 Apache 或 IIS)都将具有类似的访问日志条目。
根据您的设置,您可能拥有内容交付网络 (CDN)。 Cloudflare 或 Fastly 等 CDN 也会创建访问日志。
尽管有可能,但手动分析访问日志并不是最有趣的。
您可以下载 access.log 并使用 Excel 对其进行分析。 但是,我建议您使用日志分析器,例如 OnCrawl 的日志分析器。
这将允许您在图表上实时查看 Googlebot 的抓取速度。 一旦你有了这个监控设置来跟踪抓取率,你就可以开始改进它。
做出改变
现在我们知道我们正在跟踪什么,我们可以考虑进行一些改进。 但是,不要同时进行很多更改。 有条不紊,一一做出改变。
建造、测量、学习。
使用这种技术,您可以在学习时调整您所做的更改。 专注于提高爬取率的任务。
如果你急于一次改变太多,可能很难理解结果。
很难分辨什么有效,什么无效。
随着页面的改进,随着时间的推移,您会看到随着抓取速度的提高,抓取预算也会增加。
总结,更新前后的预算跟踪
我们已经准确地涵盖了抓取预算是什么。
作为技术 SEO,您有能力提高网站的抓取速度。
提高技术健康度可以让 Googlebot 在您的网站上的时间更高效。
使用您的日志跟踪抓取速度以获得准确的结果。
使用构建、测量、学习作为一种技术,一次做出一个改变,并随着你的进步而改进。
随着时间的推移,您的抓取速度会提高。 您的网页会更快地出现在 Google 搜索结果中。 用户将在您的网站上获得出色的体验。