无处可藏:阻止搜索引擎蜘蛛的内容

已发表: 2022-06-12

TL;博士

  1. 如果您正在考虑从搜索引擎中排除内容,请首先确保您这样做是出于正确的原因。
  2. 不要错误地假设您可以隐藏机器人无法理解的语言或格式的内容; 这是一种短视的策略。 使用 robots.txt 文件或 Meta Robots 标签与他们保持联系。
  3. 不要忘记,仅仅因为您使用推荐的方法来阻止您的内容是安全的。 了解阻止内容如何使您的网站出现在机器人面前。

何时以及如何从搜索引擎索引中排除内容

SEO 的一个主要方面是让搜索引擎相信您的网站是有信誉的,并为搜索者提供了真正的价值。 搜索引擎要确定您的内容的价值和相关性,他们必须设身处地为用户着想。

现在,查看您网站的软件具有某些限制,SEO 传统上利用这些限制将某些资源隐藏在搜索引擎之外。 然而,这些机器人仍在继续发展,并且在努力像人类用户在浏览器上一样查看您的网页方面不断变得更加复杂。 是时候重新检查您网站上搜索引擎机器人无法使用的内容,以及这些内容无法使用的原因了。 机器人仍然存在限制,网站管理员有正当理由阻止或外部化某些内容。 由于搜索引擎正在寻找能够为用户提供优质内容的网站,因此让用户体验指导您的项目,剩下的一切都会落实到位。

为什么要完全阻止内容?

何时阻止搜索引擎蜘蛛
Steven Ferris (CC BY 2.0) 拍摄,已修改
  1. 私人内容。 将页面编入索引意味着它们可以显示在搜索结果中,因此对公众可见。 如果您有私人页面(客户的帐户信息、个人的联系信息等),您希望将它们排除在索引之外。 (一些 whois 类型的网站在 JavaScript 中显示注册人信息,以阻止爬虫程序窃取个人信息。)
  2. 重复的内容。 无论是文本片段(商标信息、标语或描述)还是整个页面(例如,您网站中的自定义搜索结果),如果您的内容显示在您网站的多个 URL 上,搜索引擎蜘蛛可能会将其视为低质量. 您可以使用其中一个可用选项来阻止这些页面(或页面上的单个资源)被编入索引。 您可以让它们对用户可见,但在搜索结果中被阻止,这不会影响您希望在搜索中显示的内容的排名。
  3. 来自其他来源的内容。 由第三方来源生成并在网络上多个位置复制的内容(例如广告)不是页面主要内容的一部分。 如果该广告内容在整个网络中多次重复,则网站管理员可能希望阻止广告被视为页面的一部分。

这需要照顾为什么,怎么样?

我很高兴你问。 一种用于将内容排除在索引之外的方法是使用机器人无法解析或执行的语言从被阻止的外部源加载内容; 这就像当您向另一个成年人拼写单词时,因为您不希望房间里的小孩知道您在说什么。 问题是,在这种情况下蹒跚学步的孩子变得越来越聪明。 长期以来,如果您想对搜索引擎隐藏某些内容,您可以使用 JavaScript 来加载该内容,这意味着用户可以得到它,而机器人不会。

但谷歌对他们希望用他们的机器人解析 JavaScript 一点也不害羞。 他们开始这样做了; 网站管理员工具中的 Fetch as Google 工具允许您以 Google 机器人看到的方式查看各个页面。

Fetch as Google Webmaster Tool 的屏幕截图

如果您使用 JavaScript 来阻止您网站上的内容,您应该检查此工具中的一些页面; 很有可能,谷歌看到了。

但是请记住,仅仅因为 Google 可以在 JavaScript 中呈现内容并不意味着内容正在被缓存。 “获取和渲染”工具向您展示机器人可以看到的内容; 要找出正在索引的内容,您仍然应该检查页面的缓存版本。

如何找到您网站的 Google 缓存的屏幕截图

还有很多其他方法可以将人们讨论的内容外部化:iframe、AJAX、jQuery。 但早在 2012 年,实验表明 Google 可以抓取 iframe 中的链接; 所以就有了这种技术。 事实上,说机器人无法理解的语言的日子已经接近尾声。

但是如果你礼貌地要求机器人避免看某些东西呢? 阻止或禁止 robots.txt 或 Meta Robots 标签中的元素是防止元素或页面被索引的唯一确定方法(缺少密码保护服务器目录)。

John Mueller 最近评论说,如果您禁止抓取您的 JavaScript,使用 AJAX/JSON 提要生成的内容将“对 [Google] 不可见”。 他进一步澄清说,简单地阻止 CSS 或 JavaScript 不一定会损害您的排名:“绝对没有简单的‘CSS 或 JavaScript 不允许抓取,因此质量算法对网站的看法是负面的’关系。” 因此,将内容排除在索引之外的最佳方法是简单地要求搜索引擎不要索引您的内容。 这可以是单个 URL、目录或外部文件。

那么,这将我们带回到起点:为什么。 在决定阻止您的任何内容之前,请确保您知道这样做的原因以及风险。 首先,阻止您的 CSS 或 JavaScript 文件(尤其是那些对您的网站布局有重大贡献的文件)是有风险的; 除其他外,它还可以阻止搜索引擎查看您的网页是否针对移动设备进行了优化。 不仅如此,在 Panda 4.0 推出之后,一些受到重创的网站能够通过解除对 CSS 和 JavaScript 的阻止而反弹,这表明它们是谷歌阻止这些元素免受机器人攻击的算法的专门目标。

您在阻止内容时遇到的另一种风险:搜索引擎蜘蛛可能无法看到被阻止的内容,但它们知道某些内容被阻止,因此他们可能被迫对内容是什么做出假设。 例如,他们知道广告通常隐藏在 iframe 甚至 CSS 中; 因此,如果您在页面顶部附近有太多被阻止的内容,您就有被“Top Heavy”页面布局算法击中的风险。 任何正在考虑使用 iframe 的网站管理员都应该强烈考虑首先咨询信誉良好的 SEO。 (在此处插入无耻的 BCI 促销。)