了解网站爬行能力并对常见爬行问题进行故障排除

已发表: 2023-06-28

如果您依靠网站来销售产品和服务,那么您已经知道创建一个网站需要做多少工作。 除了网站本身之外,您还需要专业的照片和视频、高质量的书面内容以及大量的内部和外部链接来建立您的声誉。 在页面上添加链接的另一个好处是允许搜索引擎机器人“抓取”它们以获取信息并为其建立索引。 事实上,可抓取性是构建网站的重要组成部分。 在这里,我们准确介绍什么是可爬行性以及如何克服常见的可爬行性问题。

什么是网站可抓取性?

文件组织在架子上,类似于搜索引擎组织的可爬网链接。

“可抓取性”是指搜索引擎解释您网站内容的能力。 他们通过发送自动网络爬虫跟踪链接来确定其引导位置并扫描每个页面上的内容,然后根据爬虫的发现为页面建立索引来实现此目的。 您的网站越容易被抓取,网络爬虫就越容易对其进行索引并提高您在搜索引擎结果页面上的排名。

网络爬虫总是搜索可爬行的链接,并且会定期访问您的网站,因此最好不时刷新您的内容并修复任何可爬行问题。 请记住,内容是公司的“肉”。 它应该写得好、易于阅读,并且具有无可挑剔的 SEO 优化。

要避免哪些常见的可抓取性问题?

一位女士分析了她网站的可抓取性。

虽然创建可爬网链接似乎很容易,但现实是可能会出现许多问题。 了解可抓取性问题以及如何解决这些问题对于确保您到达搜索引擎结果页面的顶部至关重要。

您的元标记中的问题

如果您使用类似于下面代码的元标记,它会阻止爬行机器人查看您页面上的内容,并导致它们继续前进。 这意味着您根本不会出现在搜索引擎结果页面中。

<元名称=“机器人”内容=“noindex”>

您可能有另一种类型的编码,如下所示:

<元名称=“机器人”内容=“nofollow”>

发生这种情况时,网站抓取工具可以对您页面的内容编制索引,但无法跟踪您的任何链接。 您网站上的单个链接也可能发生这种情况。 在这种情况下,您会发现这种类型的代码:

<href=”pagename.html” rel=”nofollow”/>

最后,您可能会使用 robots.txt 文件阻止机器人抓取您的网站。 这是网络爬虫查看的第一个文件。 如果您的文件中有以下代码,则意味着您的页面被阻止建立索引。

用户代理: *
不允许: /

虽然这意味着无法抓取整个页面,但类似“服务”之类的代码意味着只能抓取您的服务页面。 通过删除这些代码片段,您可以帮助确保您的网站可以提升搜索引擎排名。

您的 SEO 策略需要帮助吗?

SEO 非常耗时,这已不是什么秘密。 为了赢得排名,您需要确保您的网站持续更新和管理。 我们可以通过 SEO 优化的内容和博客管理服务帮助您增加带宽。

了解更多

站点地图问题

最好在网站的页脚部分添加 XML 站点地图,以便人们更轻松地在您的网站上找到他们需要的内容。 但是,保持站点地图中的链接处于最新状态至关重要。 当链接指向丢失或过时的页面时,它不仅会让人类读者感到困惑,也会让搜索引擎机器人感到困惑。

如果网络爬虫感到困惑,它就会阻止搜索引擎对您的网页建立索引。 一个好的网站应该有一个经常更新的站点地图,该地图具有相同的域名和子域名,并且 URL 少于 50,000 个。

重复页面

网络爬虫的一大困惑是遇到重复的页面。 您可能没有意识到人们可以通过两种不同的方式输入您的网页地址。 他们可以在开头输入“www”,也可以不输入“www”。 这些链接将指向同一页面; 但是,机器人不知道要抓取您地址的哪个版本并建立索引。

机器人也只会在每个网站上花费一定的时间。 如果他们浏览同一页面的两个页面,他们就会识别出相同的内容,而不会在更重要的页面上花费太多时间。 幸运的是,有一种解决方案可以解决此类可爬行性问题。 您可以通过一些代码应用 URL 规范化

“rel = 规范”

当您将其添加到标头时,它可以确保机器人仅抓取您需要他们查看的信息。

还要考虑一下您是否在网站的多个页面上使用了相同的大块内容。 如果有,请重新设计内容以使其独一无二。 这提高了搜索引擎结果页面的可爬行性和位置。

使用 JavaScript 链接

如果您的网站使用大量 JavaScript,尤其是在链接中,则网络爬虫的导航速度可能会更慢且更困难。 对于 JavaScript 密集型网站,您需要确保它使用服务器端渲染。 如果它有客户端渲染,搜索引擎将无法正确抓取它。 CSR 是资源密集型的,会降低网站速度,导致机器人无法定期抓取网站。

此问题的一个示例是基于 Shopify 的网站,该网站使用 JavaScript 应用程序来显示产品列表。 当搜索引擎必须运行 JavaScript 时,它们无法抓取 URL 并赋予它们价值。 对于每天增加或减少库存的快节奏电子商务网站来说,服务器端渲染是一个更好的主意。

页面加载速度慢

页面加载缓慢是常见的爬网问题。

当网络爬虫需要查看数十亿个网站时,他们不会在每个网站上花费大量时间。 这意味着您网站的速度需要达到标准。 如果未在特定时间范围内加载,机器人将离开您的网站并降低搜索引擎结果页面上的结果。

您有时可以使用 Google 的工具来检查网站的速度。 如果运行缓慢,请找到问题的根源并修复它。 加载速度慢的常见原因包括过多的 CSS、JavaScript 和 HTML 代码。 消除或减少重定向也很有帮助。

损坏的内部链接

损坏的链接是一些最常见的爬网问题,几乎在任何网站上都可能发生。 各种类型的损坏链接都可能导致爬网问题。 其中最大的问题之一是图像、文本或表单链接中的 URL 输入错误。

过时的 URL 是另一个大问题。 如果您最近迁移了网站、删除了一堆内容或更改了 URL 结构,请仔细检查所有链接。 这可以确保它们都指向正确的页面,并且不会妨碍您网站的可抓取性。

最后,如果您的页面只能由注册用户访问,请将这些链接标记为 nofollows。 太多拒绝访问的页面将导致网络机器人无法定期访问您的页面。

服务器相关问题

一些与服务器相关的问题可能会导致您的可爬网链接出现问题。 最重要的是服务器错误。 这些“5xx 错误”需要您网站的开发团队来修复。 向处理网站后端的人员提供有错误的页面列表,以便他们修复错误。

另一个问题是服务器容量有限。 当您的服务器过载时,它会停止响应来自人类用户和机器人的请求。 如果您的访问者抱怨收到“连接超时”错误,这可能就是罪魁祸首。 您的网络维护专家将需要确定您是否需要提高服务器容量以及提高多少。 然后他们需要再次检查可爬行性以确保解决所有问题。

解决您的可抓取性问题并提高 SERP 排名

从刷新页面内容到确保网站的花哨功能不会减慢速度,您可以采取很多措施来提高网站的可抓取性、解决任何可抓取性问题并提高搜索引擎结果页面的排名。 联系 BKA Content以了解我们如何提供帮助!