HTTP状态码对SEO的影响以及如何优化
已发表: 2021-03-30使用 OnCrawl 分析 HTTP 状态代码是技术 SEO 审核的重要组成部分,它允许您单击几下即可查看站点结构中的错误代码。 您所要做的就是检查这些 HTTP 状态代码是否确实是预期的,如有必要,应用更正并更正您的内部链接。
本文解释了主要 HTTP 状态代码的 SEO 影响以及如何优化它们的使用以充分利用它们。 在继续之前,您可以阅读我们专门介绍 HTTP 状态代码及其含义的文章。
HTTP 状态码 200
200 好
向服务器发出的请求成功,一切正常。 Google 漫游器和其他搜索引擎可以抓取相关页面(如果没有被 robots.txt 阻止)。
但请注意,这并不意味着此页面不需要任何操作,并且 HTTP 状态代码是预期的。 在某些情况下,错误或不存在的页面可能会在 200 中响应,而从 SEO 的角度来看它并不是最佳的。
这些页面可以在 OnCrawl 上通过多个标准的组合来识别:
- 出现在包含您的细分的未分类页面的其他组中
- 字数非常少
- 不匹配的规范标签
- 非常高的相似率
- 未优化的标题和描述标签
- 重复的 H1、标题、描述标签
- 没有 H1 的页面
正如我们将在文章的其余部分中看到的这些错误页面,不仅有必要将它们从内部链接中删除,而且最好让它们响应状态 HTTP 代码对 SEO 更有用。
最佳实践:
- 确保您要索引的页面以 200 响应
- 确保响应 200 的页面是“真实”页面,以控制其内部链接和爬取预算
HTTP 3XX 状态码
301 永久搬家
请求的页面已被移动并永久重定向到另一个 URL。 在 SEO 中非常有用,永久重定向允许管理任何类型的站点迁移案例(更改域、http 迁移到 https、重新设计等),但特别是在不丢失传入流量的情况下修改页面的 URL。
Google bot 将无法再访问原始页面,并将按照重定向来发现目标页面。 它将了解该页面已被移动,并且不应再抓取原始页面。
对您的 SEO 的影响:
- 最终原始页面将被取消索引
- 目标页面将被索引,但不能保证它会恢复原始页面的位置
- 在原始页面上收到的反向链接的 SEO 汁被传输到目标页面
最后一点是您的 SEO 策略在迁移或简单更新网站内容时的重要资产。 如果 Google 建议仅设置相同或相似内容的 301 重定向,因此不自动重定向到主页,则您必须考虑原始页面收到的反向链接。 如果页面不存在或不再存在但接收到有趣的反向链接,至少设置一个301是明智的。如果没有类似的内容,则必须在主页上优先重定向到父页面,如下所示站点的树形结构(我们可以基于面包屑路径或 URL 中的文件夹)。 例如,对于产品页面,我们将重定向到产品列表而不是主页。
您站点的内部链接的逻辑不同。 最好更正所有指向 HTTP 301 状态代码页面的链接,但考虑到 SEO 汁液已传输,不要将其作为优先事项。 另一方面,所有指向在 200 中未响应的页面的重定向都应被视为优先级。
最佳实践:
- 确保目标页面响应 200。 OnCrawl 可以轻松检测重定向链和不指向 200 页面的重定向
- 正确链接指向 301 中的页面
- 限制使用 301 并自动将所有 4XX 错误重定向到主页
- 对于没有类似内容的重定向,首选父部分而不是主页
- 在以下情况下设置重定向:
- 内容已移动
- 一个类似的内容替换了原来的页面
- 该页面被删除但收到有趣的反向链接
302 找到
请求的页面被临时重定向到另一个 URL。 与永久 301 重定向一样,临时 302 重定向可让传入流量保持无缝的用户体验,但它不会提供相同的 SEO 优势。 Google bot 将理解原始页面暂时无法访问,并将再次访问。
对您的 SEO 的影响:
- Google bot 将继续尝试抓取原始页面
- 原始页面将保持其受欢迎程度
- 网络链接的 SEO 汁液不会传输到目标页面
- 原页面不会被反索引(如果页面没有被索引,只要响应302就不会)
因此,没有必要在内部链接中更正您的 302,但建议定期检查使用爬网或日志在您的结构中检测到的 302 是否确实是临时的。
最佳实践:
- 仅将 302 用于临时需求,例如维护
- 不要对已移动或永久删除的内容使用 302
- 如果 302s 成为永久性的,则用 301s 替换它们
304 未修改
自上次咨询以来,请求的页面尚未修改。 Google bot 不需要再次抓取相关页面,它将使用缓存版本。 这个 HTTP 304 状态代码并不为人所知,但它提供了节省爬网预算的可能性。 Google bot 将使用缓存版本并立即访问请求的页面。
对您的 SEO 的影响:
- 页面不再爬取,避免资源消耗和爬取预算
- 页面加载时间改善(缓存版)
为“经典”页面实现这种类型的响应可能很困难,需要开发。 另一方面,对于 CSS 类型的资源页面,它可以是一个真正的快赢。
最佳实践:
- 对于从不修改的页面,首选 304 到 200
- 研究推广资源页面实践的可能性
HTTP 4XX 状态码
404 文件未找到
服务器没有为请求的 URL 找到任何页面,这意味着该页面不存在。 这可以是临时的或永久的,通常可以通过非功能链接或用户输入错误的 URL 访问该页面。
对您的 SEO 的影响:
- Google bot 了解此页面不存在且不应将其编入索引
- 如果页面已经被索引,它最终会被取消索引
- 一旦页面被取消索引,网络链接的 SEO 汁液将丢失
通常被视为在 SEO 中不惜一切代价纠正的错误,HTTP 404 状态代码实际上对 SEO 非常有用。 它可以防止 Google 索引错误的 url 或不再存在的内容(即使我们稍后会看到 HTTP 410 代码在这种情况下更有效)。 谷歌在这个问题上也很清楚,404是没有问题的。 相反,它们可以防止错误的 URL 被视为您网站的真实页面。
为了提供良好的用户体验,建议创建一个自定义 404 错误页面,该页面:
- 明确声明该页面不存在
- 集成到您的网站设计中
- 提供可访问内容的链接
- 不可索引(404 响应和元机器人 noindex)
请注意,个性化 404 页面上的链接将计入内部链接。 建议更正您网站上所有指向 404 的链接,以避免因菜单和页脚链接的利益而稀释内部流行度,并且不会浪费您的抓取预算。
良好做法:
- 在以下情况下设置 404:
- 该页面不存在(如果它不再存在,首选 410)
- 该页面没有重要的反向链接
- 没有可用的等效内容
- 创建自定义 404 页面
- 避免使用 soft-404,即响应 HTTP 200 状态代码的个性化 404 页面
- 不要使用 301 系统地重定向 404
- 不要通过 robots.txt 阻止对 404 页面的访问
- 更正所有指向 404 的链接
- 在以下情况下设置 404:
410 走了
请求的页面不再可用。 与 HTTP 404 状态码的区别就在于这个微妙之处,页面已经存在但是已经被移除并且不会被替换。 因此,发送到 Google bot 的消息更加准确和明确。
对您的 SEO 的影响:
- Google 将立即考虑这些信息(与 404 不同)
- 该页面将(几乎)立即被取消索引
- 谷歌指定将进行检查以确保该页面不再存在
因此,当您想要快速取消索引页面时,HTTP 410 状态代码比 404 更可取。 但这也是一种 HTTP 代码状态,如果发生错误,后果会更加严重。
有手动方法可以取消索引页面,对已删除页面执行 410 响应允许该过程自动化。 确保没有链接指向响应 410 的页面也很重要,因为不会像使用自定义 404 那样保证用户体验。
最佳实践:
- 首选 410 到 404 来取消索引已删除的页面
- 不要通过 robots.txt 阻止对 410 页面的访问
- 更正所有指向 410 的链接
使用 OnCrawl 采取行动
使用抓取报告识别您网站的 HTTP 状态代码
转到 CRAWL REPORT > Indexability > Status Code 报告以查看按 HTTP 状态代码划分的页面。
以下报告允许您按状态代码和细分细分您的操作优先级。
单击要检索的数据以将其导出为 csv 格式。
更进一步,您还可以通过访问日志检索状态代码。
转到 LOG MONITORING > Exploration sanity 报告,通过 google bots 遇到的 HTTP 状态代码发现页面细分。
更正内部链接
要更正内部链接,您需要找到指向未响应 HTTP 状态代码 200 的页面的链接。您将需要原始页面、锚点和目标页面的 HTTP 状态代码。
转到数据资源管理器,选择 Links 数据集并编写以下查询:
现在您只需导出到 csv。
对于 301,如果您还想知道重定向页面,请参阅如何创建文件列出所有指向 301 URL、旧 URL 和新 URL 的链接的文件?