谷歌的抓取预算:它是如何工作的以及如何最大化你的

已发表: 2021-03-02

对于互联网上的每个网站,谷歌都有一个固定的预算,用于确定他们的机器人可以并且愿意抓取多少页面。 互联网是一个很大的地方,所以 Googlebot 只能花这么多时间来抓取和索引我们的网站。 抓取预算优化是确保我们网站的正确页面最终出现在 Google 索引中并最终显示给搜索者的过程。

Google 对优化抓取预算的建议相当有限,因为 Googlebot 抓取大多数网站时都没有达到其限制。 但是,拥有数千个登陆页面的企业级和电子商务网站面临着超出预算的风险。 2018 年的一项研究甚至发现,谷歌的爬虫在实验中未能爬取超过一半的大型网站的网页。

影响抓取预算的使用方式对于战略家来说可能是更难以实施的技术优化。 但是对于企业级和电子商务网站,尽可能地最大化抓取预算是值得的。 通过一些调整,网站所有者和 SEO 策略师可以指导 Googlebot 定期抓取和索引他们表现最好的页面。

Google 如何确定抓取预算?

抓取预算本质上是 Google 愿意花费在抓取您的网站上的时间和资源。 方程如下:

抓取预算 = 抓取率 + 抓取需求

域权限、反向链接、网站速度、抓取错误和登陆页面的数量都会影响网站的抓取速度。 较大的站点通常具有较高的爬网率,而较小的站点、较慢的站点或具有过多重定向和服务器错误的站点通常爬网频率较低。

谷歌还通过“抓取需求”来确定抓取预算。 热门网址具有更高的抓取需求,因为谷歌希望为用户提供最新鲜的内容。 谷歌不喜欢其索引中的陈旧内容,因此一段时间没有被抓取的页面也会有更高的需求。 如果您的网站进行网站迁移,Google 将增加抓取需求,以便更快地使用您的新网址更新其索引。

您网站的抓取预算可能会波动,而且肯定不是固定的。 如果您提高服务器托管或网站速度,Googlebot 可能会更频繁地开始抓取您的网站,因为它知道这不会降低用户的网络体验。 要更好地了解您网站当前的平均抓取速度,请查看您的 Google 搜索控制台抓取报告。

每个网站都需要担心他们的抓取预算吗?

只专注于获得一些着陆页排名的小型网站不需要担心抓取预算。 但是较大的网站——尤其是页面损坏和重定向过多的不健康网站——很容易达到其抓取限制。

最有可能超出其抓取预算的大型网站类型通常具有数万个登录页面。 特别是主要的电子商务网站通常会受到抓取预算的负面影响。 我遇到过多个企业网站,它们的大量着陆页未编入索引,这意味着在 Google 中排名的机会为零。

电子商务网站特别需要更多地关注其抓取预算的去向,有几个原因。

  • 许多电子商务网站以编程方式为他们的 SKU 或他们销售产品的每个城市或州构建了数千个登陆页面。
  • 当商品缺货、添加新产品或发生其他库存变化时,这些类型的网站会定期更新其登录页面。
  • 电子商务网站倾向于重复页面(例如产品页面)和会话标识符(例如 cookie)。 两者都被 Googlebot 视为“低附加值”网址,这会对抓取速度产生负面影响

影响抓取预算的另一个挑战是谷歌可能随时增加或减少它。 尽管站点地图是大型网站改进其最重要页面的抓取和索引的重要步骤,但它不足以确保 Google 不会在价值较低或性能不佳的页面上最大化您的抓取预算。

那么站长如何进行爬取预算优化呢?

尽管网站所有者可以在其 Google Search Console 帐户中设置更高的抓取限制,但该设置并不能保证增加抓取请求或影响 Google 最终抓取哪些页面。 可能感觉最自然的解决方案是让 Google 更频繁地抓取您的网站,但是与增加的抓取速度直接相关的优化非常有限。

我们都知道,良好的预算并不是要增加您的支出限额。 这是关于在花钱的时候更有选择性。 当您将相同的概念应用于抓取预算时,它可以产生巨大的结果。 以下是帮助 Google 充分利用您的预算的一些战略步骤。

第 1 步:确定 Google 实际在您的网站上抓取了哪些页面

直到最近,Google Search Console 的抓取报告只告诉网站所有者他们的网站在给定日期收到了多少抓取请求。 尽管 Google 的新抓取统计报告提供了更多关于抓取的详细信息,但了解 Google 如何抓取您的网站的最佳位置仍然是您的服务器日志文件。

当 Google 访问您的网站时,他们会使用特定的用户代理。 这让您的服务器知道流量实际上是 Googlebot 而不是真人。

(你也会在那里找到 Bingbot 和 Ahrefs 的机器人)。

Oncrawl 日志分析器

用于机器人监控和爬网预算优化的日志文件分析。 检测网站健康问题并提高您的抓取频率。
学到更多

分析此日志文件内容的网站所有者将获得有关 Google 对其网站的抓取预算的大量信息。 该文件将揭示一些内容:

  • 用户代理访问哪些页面
  • 代理每天抓取多少页面
  • 是否有任何已爬取的页面是 404 或损坏的

理想情况下,您希望 Google 抓取您网站上针对最高价值关键字进行了优化的目标网页。 此外,网站所有者不应将抓取预算浪费在 404 上。 Google Search Console 只会显示您的一些软 404 错误,但您可以在服务器日志中识别所有这些错误。

获得有关正在抓取您网站的哪些页面的更多详细信息后,请完成以下操作项:

  • 添加漫游器标签:如果 Googlebot 正在抓取那些 404 或损坏的页面,则第一要务应该是添加漫游器标签 [noindex, nofollow] 以防止 Googlebot 抓取这些页面并将其编入索引。
  • 调整您的站点地图:如果您的服务器日志显示 Google 没有抓取您潜在的高性能页面,请将它们放在您的站点地图中较高的位置,以确保它们被抓取。

第 2 步:接受并非所有目标网页都需要在 Google 中排名的事实

这么多企业级网站浪费抓取预算的主要原因是它们允许 Google 抓取其网站上的每个着陆页。 许多网站甚至喜欢将所有页面放入他们的移动应用程序中,以便 Google 可以找到并抓取所有页面。 这是一个错误,因为实际上,并非我们所有的着陆页都会排名。

在 Google 的索引中拥有一个着陆页有什么价值? 排名和转换。 如果您的网站的着陆页没有通过对多个关键字进行排名或将网站访问者转化为潜在客户和收入来发挥作用,那么为什么还要冒险让 Google 抓取它们呢?

企业级和电子商务网站所有者应该知道他们网站的哪些页面是转换优化的,并且最有可能获得排名和转换。 然后,他们应该利用一切可能的优势来确保 Google 将抓取预算花在那些高性能页面上。

您网站的具有高排名和转化潜力的目标网页值得花费抓取预算。 以下是一些提示,可确保 Googlebot 将这些网页包含在您的预算中。

  • 减少站点地图中的页面数量。 只关注那些实际上有很大机会排名和获得自然流量的页面。
  • 删除表现不佳或不必要的页面。 删除那些因为没有排名、转化或功能目的而没有价值的页面。
  • 内容修剪。 修剪实际上没有获得任何自然流量的页面,并将它们重定向到您网站上相关且确实获得流量的其他登陆页面。 请注意,重定向确实会占用您的抓取预算,因此请尽量少用它们,切勿连续使用两次。

任何网站所有者都很难放弃内容,但阻止 Google 抓取某些页面比让 Google 增加您的总体抓取预算要容易得多。 如果您想明智地使用抓取预算,那么清理您的网站以便 Google 的抓取工具更有可能找到并索引最好的内容是重中之重。

第 3 步:使用内部链接为 Google 的爬虫提升高性能页面

一旦您确定了 Google 正在抓取哪些页面、添加了必要的漫游器标签、删除或修剪了表现不佳的页面,并对您的站点地图进行了调整,Google 的抓取工具将更倾向于将预算花在您网站的正确页面上。

但为了真正最大化预算,您的页面需要具备排名所需的条件。 页面 SEO 最佳实践是关键,但更高级的技术策略是使用您的内部链接结构来提升那些潜在的高性能页面。

就像 Googlebot 只有有限的抓取预算一样,您的网站也只有基于其互联网足迹的一定数量的网站资产。 您有责任以聪明的方式集中您的资产。 这意味着将网站资产引导到那些定位关键字的页面,这些关键字很有可能为您排名,以及那些为您带来正确类型客户流量的页面,这些客户可能会转化并实际上具有经济价值。

这种 SEO 策略被称为 PageRank 雕刻。 如果您有一个拥有数千个登录页面的大型网站,高级策略师可以运行 SEO 实验来优化您网站的内部链接配置文件,从而更好地分配 PageRank。 如果您是一个新网站,您可以通过将 PageRank 雕刻融入您的网站架构并在您创建的每个新着陆页中考虑网站资产,从而领先一步。

以下是我最喜欢的两种策略,用于分析我的页面以确定哪些最能从 PageRank 雕刻中受益。

  • 找到您网站中流量不错但 PageRank 不足的页面。 想办法让这些页面获得更多内部链接并在那里发送更多 PageRank。 将它们添加到网站的页眉或页脚是快速完成此操作的好方法,但不要过度使用导航菜单中的链接。
  • 专注于有很多内部链接,但没有获得太多流量、搜索印象和很少关键字排名的页面。 接收大量内部链接的页面通常包含大量 PageRank。 如果他们没有使用 PageRank 为您的网站带来自然流量,那么他们就是在浪费它。 最好将 PageRank 移动到可以实际移动指针的页面。

了解您网站上的每个链接所扮演的角色,不仅是在您的网站周围发送 Googlebot,而且在分配您的链接资产方面,是抓取预算优化的最后一步。 正确设置内部链接结构可以显着提高金钱页面的排名。 最后,花费抓取预算的最佳方式是在最有可能将收入收入囊中的目标网页上。

实施更改后,请注意 Google Search Console 工具中那些改进页面的关键字排名。 如果这些页面的排名有所提高,则表明您的抓取预算优化正在发挥作用。 然后,当您将新页面添加到您的网站时,请更加谨慎地选择它们是否应该耗尽您的抓取预算。 如果没有,请继续将爬虫仅引导到对您的品牌最有效的页面。