XML 站点地图:为什么 URL 排序很重要,即使谷歌说它不重要

已发表: 2023-02-09

显示站点地图插图的笔记本电脑。
SEO 争论的事情有很多——做这个,不做那个,这会有所不同,但那不会。

除了谷歌,没有人知道谷歌算法的秘密(有时我想知道算法是否过于复杂以至于谷歌的一些人不知道它是如何工作的)。

也就是说,有些事情 Google 直截了当地说我们做与不做并不重要。 这是否意味着我们不应该这样做? 不,它没有。

在一个完美的世界中,我们的网站和谷歌将完全按照它们应该的方式运行,并且对我们有利。 实际上,当搜索引擎抓取网站时,许多事情都会发生变化。

如果实施一些可以使搜索引擎更好地抓取和理解的东西不会损害网站——而且这很容易做到——那么为什么不这样做呢?

XML 站点地图和优先级标签、更改频率标签和 URL 排序是其中一些有争议的 SEO 策略。 来!我们讨论一下:

  • XML 站点地图基础
  • 优先标签
  • 更改频率标签
  • 那么,我们应该使用标签吗?
  • 网址排序

XML 站点地图基础

XML 站点地图是网站管理员创建并放置在其站点上的文件,用于告知 Google 和 Bing 等搜索引擎有关站点上的页面、图像和视频的信息。

站点地图像地图一样工作,有助于确保更彻底的抓取和索引。 但是,XML 站点地图并不能保证搜索引擎会索引或抓取所有页面,站点地图也不会影响您的排名。

(查看我们的 XML 站点地图入门了解更多信息。)

有些人喜欢在他们的站点地图中包含一些可选标签,例如优先级标签和更改频率标签。 谷歌的官方立场是忽略两者。

Google 一般站点地图指南的屏幕截图。

然后是实践或 URL 排序(按照您的优先级对站点地图中的 URL 进行排序)。 谷歌表示它也忽略了这一点。

屏幕截图显示了 Google 的一般站点地图指南。

但是我们应该忽略它吗? 下面我们就来谈谈这三种做法。

优先标签

优先级标签告诉 Google 页面的重要性从 1(最高)到 0(最低)。

站点地图优先级值从 1.0 到 0.0,1.0 值表示站点上最重要的页面。 优先级值如下所示:1.0、0.9、0.8、0.7、0.6、0.5、0.4、0.3、0.2、0.1 和 0.0。 例如,1.0 可能是主页。

如果您使用此标记,并不意味着 Google 会抓取您认为最重要的网页。 由算法决定什么是最相关的,优先级可能不匹配。 您可以通过查看服务器日志来尝试找出哪些页面被抓取最多。

通常,在使用优先级标签时,您会像这样分配值:

  • 1.0 – 0.8 = 类别页面、主页、热门着陆页
  • 0.7 – 0.4 = 博客文章、二级类别页面、子类别页面
  • 0.3 = 0.0 = 不像过时内容或实用类型页面那样重要的页面

更改频率标签

更改频率标签旨在告诉 Google 您网站上的页面更新频率。 理论上,Google 会查看它并根据最后更新的时间来决定是否再次抓取该页面。

同样,谷歌的官方立场是忽略更改频率标签。 而且,谷歌的约翰·穆勒 (John Mueller) 澄清说,最好“直接指定时间戳,这样我们就可以查看我们的内部系统,并说自该日期以来我们还没有抓取过,因此我们应该再次抓取。”

如果这个标签不准确,那么它肯定是无关紧要的。 正如 Mueller 在上面的视频中提到的那样,“我们看到很多网站在站点地图中向我们提供了这些信息,他们说这些信息每天或每周都在变化,我们查看我们的数据库发现它在一个月或几年内没有变化。 ”

那么,我们应该使用标签吗?

Google 的 XML 站点地图文档中将标签完全称为“可选”这一事实令人困惑——尤其是当他们说他们忽略它们时。 Googlebot 真的每次都忽略它们吗? 很难知道。 使用它们总是更好,尤其是上次修订日期 (<lastmod>)。

我相信您可以使用站点地图进行另一种选择,以指示您希望搜索引擎如何抓取。 谷歌还表示它忽略了这种方法,但请坚持使用我的方法。

我们已经看到通过 URL 排序在索引方面取得了一些成功,我将在接下来讨论。

网址排序

URL 排序是根据优先级对站点地图中的 URL 进行排序的做法——但不是按照优先级标签的工作方式。 Google 忽略了优先级标签,因此 Google 认为所有页面都是“平等的”,因此顺序无关紧要……至少对于优先级而言。 但是这些页面在现实生活中并不相等,尤其是在您的爬行预算很低的情况下。

我们强烈建议您对 XML 站点地图中的 URL 进行排序,使其在不使用标签的情况下同时解决优先级和更改频率的概念。 在这里,目标是更快地索引关键页面。

顺便说一句,只使用与在您网站某处找到的规范标签相匹配的 URL 或重要页面!

例如,这是一个强调最近修改页面的序列:

  1. 一天前最近更改的条目(新的重定向目标、新的或修订的页面)[每个 XML 页面 500 个条目]
  2. 一周前的条目如上所述,只是稍旧 [每个 XML 页面 500 个条目]
  3. 剩余 200 个代码页(按展示次数降序排列)[每页 1000 个条目]
  4. 任何其他重定向页面(30x 代码)[每页 5k]
  5. 图片和视频 [每页 500 张]
  6. 404 页 [每页 10k]
  7. 其余【每页10k】

本质上,您正在做的是向搜索引擎提供关于您认为需要根据新内容进行抓取的页面的路线图。 您希望所有页面都进入索引并相信上周爬取的页面已经存在 - 但新页面不存在。 使用我们上面的排序指令。

如果谷歌明确表示它忽略了优先级和顺序,为什么还要这样做呢?

给定无限的抓取预算、很少的网站重定向且没有错误,所有文件都会被抓取。 优先级和顺序无关紧要。 如果假设成立,谷歌是正确的。

但他们不持有。 有一个抓取预算,它被重定向和 404 吃掉了。 如果您有页面以外的任何内容(图像、视频、hreflang 等),则时间估计是错误的。 抛出任何重大错误,XML 站点地图中的其余文件将被忽略。

虽然在理想世界中优先级和顺序并不重要,但在爬行预算世界中它们确实很重要。 根据我的经验,搜索引擎的 URL 顺序才是最重要的。

我们发现这会增加被抓取的页面数量并减少“因错误而被放弃”的问题。

最后的想法

是的,由机器人决定如何处理 XML 站点地图。 然而,实施一些可能有助于搜索引擎抓取和索引您的网站内容的东西——如果足够简单的话——绝不是一个坏主意。

我们的 SEO 专家可以帮助您优化您的网站,以便它可以轻松地被抓取和索引。 联系我们进行免费咨询。