如何使用更优化的抓取预算开始更高的排名
已发表: 2018-09-06影响排名的因素有很多——外部链接、关键字使用、网站速度等等。 但是,当您开始优化您的网站时,您需要记住的是,为了获得回报,您的网站需要被抓取和索引。
您的网站被抓取的方式取决于您的抓取预算——Googlebot 在特定时间段内访问您网站的次数。 您网站的可见性取决于抓取预算的平衡程度。
为什么抓取预算会影响您的网站在 Google 中的知名度?
抓取预算有限。 这带来了几个挑战:
- 如果未优化抓取预算,Googlebot 不会访问所有网站页面。 因此,它们不会被编入索引,也不会在搜索结果中排名。
- 由于其他网站页面的爬取频率,更新后的页面很长一段时间都不会受到 Googlebot 的关注。 这会对您的 SEO 时间表产生负面影响:只要 Google 不了解您的优化工作,您的 SERP 可见性就不会提高。
因此,为了确保所有重要页面都被定期访问,需要优化爬取预算。 这是你如何做到的。
如何确定您当前的抓取预算
要确定您的抓取预算是否需要优化,请首先检查您是否缺少预算。 根据 Google 的 Gary Illyes 的说法,只有大型网站才真正需要优先考虑要抓取的内容,尤其是那些根据参数自动生成大量 URL 的网站。 如果您认为您的网站需要额外的抓取预算平衡,请从这里开始。
在 Google Search Console 中,您可以找到您当前网站的抓取统计信息,并了解您的抓取预算的详细信息。
大致的抓取预算可以这样计算:
平均每天抓取的页面数 x 一个月的天数 =
大概的抓取预算
例如,从下面的报告中,您可以看到谷歌在这个网站上每天抓取 371 个页面。
Google Search Console 中的抓取统计信息图表
因此,本网站的大致抓取预算为:
371 x 30 = 11130
但要准确了解 Google 爬虫访问您网站的频率,您需要检查服务器日志。 Google Search Console 显示 12 个机器人的汇总抓取预算,要查看准确的抓取预算分布,您需要一个日志分析工具。
爬网图中的起伏可能是问题的征兆,但情况并非总是如此。 例如,上图中的峰值代表重新提交的站点地图,这是 Googlebot 重新访问该网站的触发器。
如何优化您的抓取预算
要优化您的抓取预算,您需要遵守一个简单的规则:
确保需要爬取的被爬取,不需要爬取的不被爬取。
这意味着,重要的页面得到了足够的关注,而那些没有给您的网站带来任何价值的页面被排除在外。 以下是带您到那里的确切步骤。
1.确保您的所有重要页面都可以被 Googlebot 访问(例如没有被 robots.txt 阻止)
令人惊讶的是,当重要页面在 robots.txt 文件中具有拒绝状态时,这种情况很常见。 通过这种方式,它们会被 Googlebot 忽略,因此不会被索引。 您的任务是确保您要抓取的页面不具有该状态并且可供抓取工具访问。
您可以在 Google Search Console 中找到 robots.txt 文件。 为确保您的重要页面未被拒绝,只需浏览文件即可。
2. 检查您网站的总体健康状况,因为它会影响 Googlebot 的访问频率(也称为抓取速度限制)
正如谷歌自己所说,抓取速度限制是给定网站的最大抓取速度。 简而言之,它指定了 Googlebot 可以创建多少个并行连接来抓取网站,以及它应该在两次抓取之间等待多长时间。 当站点速度很高时,限制会上升,Googlebot 会创建更多的同时连接。 当网站响应率低或返回服务器错误时,限制会降低,Googlebot 抓取的次数也会减少。
因此,您网站的抓取方式也会受到网站健康状况的影响。 这包括网站速度、移动友好性、404 错误数量等。
可以使用这些工具检查站点的运行状况。
- OnCrawl 允许您查找具有重复和几乎重复内容的页面、404 和孤立页面(没有指向它的内部链接)等。
OnCrawl 中的重复内容小部件
OnCrawl 中的孤立页面小部件
- 谷歌的移动友好测试检查网站的移动友好性
- 可以借助 PageSpeed Insights 或 GTmetrix 免费工具检查网站的速度。
然后,您可以使用 OnCrawl 等日志文件分析器监控您的抓取频率,并查看 Googlebot 是否更频繁地访问您的网页。
3.排除没有给用户带来任何价值的页面
这些是内容薄弱或没有内容的页面、技术页面等。由于它们被编入索引并且印象很少,因此可以在 Google Search Console 中找到它们。 另一个发现它们的地方是 OnCrawl 的 SEO Impact 报告。 例如,它显示了字数对抓取频率的影响。
例如,大型电子商务网站的一个常见问题是分面导航。 Ryan Stewart 在他关于抓取预算优化的视频中谈到了这一点(您可以跳到 7:20 来查看这一点,但整个视频也非常有用)。 当用户在网站上选择一个类别时,它的参数将添加到页面 URL。 根据 Googlebot 的说法,从那一刻起,它就是一个不同的 URL,需要单独访问。 由于可能的类别组合的数量很大,并且可能会大大超出爬网预算,因此需要过滤掉此类页面。
当会话标识符放置在 URL 中时,会出现类似的问题。 这些页面也应该被过滤掉。
4. 优先考虑您的页面,以便更频繁地抓取最重要的页面
如果页面具有巨大的流量潜力,它就很重要。
首先,这些是已经有很多流量的页面; 你可以在谷歌分析中发现它们。 在行为报告下,转到网站内容→所有页面并按浏览量对页面进行排序。
其次,是排名在提高的页面,这意味着它们越来越受欢迎。 此类页面可以在 Google Search Console 中找到,但由于其过滤选项有限,您可能需要一段时间才能发现它们。
另一种方法是使用 AccuRanker,因为它可以让您查看哪些类型的页面具有不断增长的可见性趋势。 要开始使用它,您可以一键从 Google Search Console 导入关键字列表,然后找出最有希望的页面。
此外,还有一种方法可以在接下来的几周和几个月内发现可能有额外 SEO 流量的页面。 它涉及一些使用 Google Search Console API 和 Google Data Studio 的操作,但结果有些惊人。 通过使用着陆页作为维度和印象、URL 点击和 URL CTR 作为指标,您可以找到比其他页面更受欢迎的页面。
当您发现哪些页面需要优先排序时,您可以执行以下操作以确保更频繁地抓取它们:
- 将最重要的页面移到更靠近主页的位置,甚至在此处提供指向它们的链接。 例如,您可以将页面链接添加到导航或“特别优惠”部分。
- 在没有产品(缺货/季节性产品)的所有页面类别中放置 301 重定向。 一旦有问题的产品重新入库,不要忘记关闭该重定向。
5.提供足够的页面内部链接
内部链接对于作为 Googlebot 主要途径的抓取至关重要。 如果页面上没有内部链接,它根本无法前进。 因此,通过添加指向页面的链接,您可以增加其更快被索引的机会。
例如,如果您希望更频繁地抓取旧页面,请将指向它的链接添加到新页面。 当 Googlebot 访问新页面时,它也会重新索引旧页面。
通过将页面链接添加到网站的导航菜单,您还可以让用户和 Googlebot 轻松访问它。 SEMrush 使用这种技术来加快其新博客文章的抓取速度。 所有新文章都会出现在其主页的“最近的帖子”部分,因此会被 Googlebot 优先处理。
该技术还可用于加快电子商务网站上新产品页面的索引。
包起来
如上所述,抓取预算优化对于具有分支结构的大型网站(例如电子商务网站)更为重要。 但是由于正确的页面抓取是 SEO 的基础,并且直接影响 SERP 可见性,您可能需要修改抓取统计数据并平衡抓取预算以加快 SEO 工作的结果。
抓取预算优化的基本工具包包括:
- Google Search Console 查看您当前的抓取预算估算
- 站点健康审计器(例如 OnCrawl)可查找重复内容、404 页面、孤立页面等。
- 用于检查您网站的移动设备友好性的工具,例如 Google 的移动设备友好性测试
- 网站速度检查器,例如 PageSpeed Insights 或 GTmetrix
- 用于查找具有高人气潜力的页面的工具——那些已经拥有大量流量的页面(您可以在 Google Analytics 中看到那些页面)或具有不断增长的可见度趋势的页面(可以在 AccuRanker 的帮助下找到)。