[网络研讨会文摘] Orbit 中的 SEO：解开索引的秘密

已发表: 2019-11-06

网络研讨会Unlocking the secrets of indexing是 SEO in Orbit 系列的一部分，于 2019 年 6 月 12 日播出。在这一集中，Kevin Indig 分享了他对将页面编入索引的想法，以及为网站编入索引的页面如何影响整个网站排名，以及哪些页面不应该被索引。在发现页面和让它们出现在 SERP 之间的中间步骤的正确方法是什么？

Orbit 中的 SEO 是第一个将 SEO 送入太空的网络研讨会系列。在整个系列中，我们与一些最优秀的 SEO 专家讨论了技术 SEO 的现在和未来，并于 2019 年 6 月 27 日将他们的重要技巧发送到了太空。

在这里观看重播：

介绍凯文·英迪格

在过去的 10 年里，Kevin Indig 帮助初创公司获得了超过 1 亿用户。他是 G2 的 SEO 和内容副总裁，Growth @ GermanAccelerator 的导师，之前曾在 Atlassian 和 Dailymotion 运行过 SEO。他的专长是用户获取、品牌建设和用户保留。凯文合作过的公司包括 eBay、Eventbrite、博世、三星、Pinterest、哥伦比亚、瑞银和许多其他公司。他还经营策划的技术营销通讯，Tech Bound。

本集由 OnCrawl 的内容经理 Rebecca Berbel 主持。 Rebecca 着迷于 NLP 和语言的机器模型，以及系统和它们的一般工作方式，对于技术 SEO 主题的兴奋，Rebecca 永远不会不知所措。她相信传播技术和使用数据来了解网站在搜索引擎上的表现。

定义

谈论索引很重要的原因之一是它是一个复杂的话题。许多 SEO 都在努力建立索引以及如何影响它。

是时候进行另一个 SEO 测验了。
您创建一个新页面。以下哪项会将其排除在 Google 的索引之外？
A. 元机器人 noindex
B. Robots.txt 块
C. 给页面元 noindex *并* 在 robots.txt 中阻止它
— Will Critchlow (@willcritchlow) 2019 年 6 月 9 日

– 爬行

简单来说，爬行是搜索引擎理解网页及其所有组件的技术发现过程。

这有助于 Google 找到所有可以返回并呈现的 URL，然后编制索引并最终排名。

– 谷歌的三步流程

抓取是谷歌创建搜索结果的三步过程的一部分：

爬行
渲染
索引

这些在技术上是不同的过程，由不同的程序或搜索引擎的部分处理。

排名可能是此过程的第四步。

– 索引

索引是 Google 将 URL 添加到它的可能结果的长“列表”的过程。如果 Kevin 必须在索引的定义中避免使用“索引”一词，他更愿意谈论一个隐喻的“列表”：Google 有一个 URL 的“列表”，它可以用来对用户进行排名和显示为最佳结果.

- 日志文件

任何时候任何人或任何事物在服务器上请求页面或资源时，Web 服务器都会保留历史记录。

在了解 Google 如何抓取和呈现您的网站时，Kevin 非常热衷于将日志文件作为事实来源。

在日志中，我们可以以非常简单明了的方式找到有关 Google 访问您网站的频率以及它在那里做什么的服务器信息。日志文件包含每次访问该站点的单独记录。

您可以从日志文件中获取大量信息：

特定状态码错误
爬行的问题
渲染问题
Googlebot 在您的网站上花费了多少时间
哪些 Googlebot 会访问您的网站。例如，使用 Mobile First 索引，用于索引的主要 Googlebot 最近已更新。
无论您的网站技术结构是否符合 Google 的要求，或者您是否有可以优化的内容。

检查索引的方法

– 不推荐：“site:”查询

大约 10 年前，当 Kevin 开始从事 SEO 时，他会通过在 Google 上运行“site:”搜索来查看他网站上的哪些页面被索引。虽然他有时仍然使用它，但它不再是确定 URL 是否被索引的可靠方法。

最近，他向 John Mueller 询问了这个策略。他证实，不再推荐使用这种方法来检查 Google 已编入或未编入索引的内容。

– 推荐：Search Console URL 检查

相反，John Mueller 建议使用 Search Console 中的 URL 检查工具来检查已编入索引的内容。

缓存页面并不总是代表被索引的内容，它通常只是获取的静态 HTML（如果上面有 JavaScript，它通常不会在缓存主机中运行）。我会更多地关注 URL 检查工具。
——？？？约翰？？？？（@JohnMu）2019 年 5 月 8 日

– 推荐：XML 站点地图和覆盖率报告

在 Search Console 中提交 XML 站点地图是检查一批 URL，然后在搜索控制台的覆盖率报告中检查站点地图的一种方法。

区分 crawl-render-index 的重要性

如前所述，Google 抓取、呈现和索引页面有一个 3 步过程。区分这些步骤中的每一个是非常重要的。随着网络变得越来越复杂，谷歌不得不单独调整、分离和改进这些流程。

不同的 Googlebot

Google 使用多个 Googlebot 来抓取和呈现网站。您拥有不同类型的资源：图片、视频、新闻、文本……Google 使用不同的 Googlebot 来理解每种类型的内容。

大约一个月前，谷歌宣布他们升级了他们的渲染引擎，以在常青的 Googlebot 和最新的 Chromium 引擎上运行。

这很重要，因为爬行和渲染是导致索引的必要步骤。

改变 Google 流程中的优先级

出于索引目的，Google 曾经使用桌面 Googlebot 进行抓取。那已经改变了；他们现在使用智能手机 Googlebot 进行索引。

移动优先索引将从 2019 年 7 月开始对所有新站点实施，并且如果尚未切换所有已知的现有站点，则将对它们进行索引。

抓取：Google 查找要索引的 URL 的方式

为了能够索引一个页面，谷歌必须抓取它。

作为索引过程的第一步，为确保您的页面被正确快速地编入索引，您需要确保您的爬网是“安全可靠的”。

Google 查找网址的方式基本上有以下三种：

链接：这就是整个 PageRank 专利的基础——通过超链接查找新站点
XML 站点地图
过去的爬网

– Google 如何优先考虑 URL（抓取预算）

Google 会优先考虑其抓取的网站以及抓取频率。这通常被称为“抓取预算”。

谷歌网站管理员博客中有一篇关于抓取预算的文章，它提供了一些关于谷歌如何优先抓取哪些网站的想法。

– 流行度：反向链接和 PageRank

本文确立的观点之一是，PageRank 是网站索引速度和数量背后的主要驱动力。

当然，反向链接是 PageRank 的主要组成部分，因此会影响抓取速度和索引。

– 状态码

状态码也被考虑在内。例如，如果您的网站上有很多 404 页面，这可能会导致 Google 降低抓取频率。

另一个例子是重定向链和循环。

– 现场卫生

如果您的网站的组织方式浪费了大量的抓取预算，那么 Google 可能会减少在您的网站上花费的时间。

- 页面速度和服务器响应时间

抓取预算还受到页面速度和服务器响应时间的影响。 Google 不想对您的网站进行 DDoS 攻击；如果它发现您的服务器很难按照请求的速度提供页面和资源，它将根据您的服务器在抓取方面可以处理的内容进行调整。

渲染：咖啡因更新

几年前推出的 Caffeine 更新基本上是对 Google 渲染结构的更新。

索引：内容类型的不同集群

Google 使用不同的索引存档来返回不同的结果。可以合理地想象，索引中有不同的集群用于新闻结果，而另一个用于图像结果等。

排名：单独的算法

最后，对索引 URL 进行排名——但这是一种完全不同的算法。

提高索引速度

更快地索引页面和索引更多页面都受到 PageRank 的严重影响，因此也受到反向链接的影响。但是改善每一个的策略是不同的。

如果您希望页面更快地被索引，您需要优化前两个步骤（抓取和呈现）。这将包括以下组件：

内部链接
站点地图
服务器速度
页面速度

提高索引页数

如果你想获得更多的页面索引，那就是爬虫方面更重要的地方。您将希望让 Google 更轻松地找到您的所有网页。这在具有一千个 URL 的小型网站上很简单，但在具有数百万个 URL 的大型网站上要困难得多。

例如，G2 有大量不同页面类型的页面。 Kevin 的 SEO 团队希望确保 Google 能够找到所有页面，无论抓取深度如何，也无论该类型页面存在多少；这是一项重大挑战，必须从不同角度加以应对。

根据页面配置文件的爬取率变化

根据页面的类型，Kevin 经常会发现 Google 的抓取速度不同。这通常取决于 URL 的反向链接配置文件和内部链接。这是他发现日志文件使用最多的地方。

他按页面类型对站点进行细分，以了解站点在哪些地方缺乏爬网效率或在哪些地方爬网效率太高。

抓取速度、索引速度和排名之间的关系

凯文绝对观察到爬网速度、索引速度和每种页面的排名之间的明确相关性。这不仅适用于他合作过的网站，而且适用于业内其他 SEO。

在没有假定抓取、索引和排名之间的因果关系的情况下，在对页面进行排名时，驱动索引的类似元素似乎也被考虑在内。例如，如果对于给定类型的页面（例如：登录页面），您有大量指向某个页面模板的反向链接，那么您会在日志文件中发现，如果 Google 在这些页面上的抓取率更高网站，Google 也会更快地索引这些页面，并且通常将这些页面排名高于其他页面。

很难做出对所有网站都有效的通用声明，但 Kevin 鼓励每个人检查他们的日志文件，看看在他们自己的网站上是否也是如此。 OnCrawl 还发现在他们分析的许多不同站点中都是这种情况。

这是他试图用他提出的 TIPR 内部链接模型概述的部分内容。

测量抓取速度

要衡量抓取速度，您需要回答以下问题：给定的 Googlebot 多久访问一次特定的 URL？

你如何“切片和切块”这是另一个问题。 Kevin 喜欢每周查看 Googlebot 的点击次数。您也可以每天或每月查看它。

– 关注之前/之后

比您使用的时间段更重要的是查看抓取速度的变化。您应该在进行更改之前和实施之后查看费率。

– 关注页面类型之间的差异

衡量抓取率的另一个关键是查看您网站上的差距在哪里。在页面类型级别上，爬取率之间的差异在哪里？什么页面类型被抓取了一吨？哪些页面类型很难被抓取？

– 爬行行为的常见观察结果

凯文过去做过的一些有趣的观察包括：

抓取次数最多的网址：robots.txt
大多数时间花在一个 URL/一组 URL 上：XML 站点地图，尤其是当它们变得有点大时

挖掘日志文件以发现页面类型之间爬取行为的差异非常令人大开眼界。查看每天抓取哪些 URL 与每月抓取哪些 URL。这可以告诉你很多关于你的网站结构对于抓取（和索引——即使中间有一个步骤）的效率。

基于商业模式的抓取预算分配

为了提高抓取效率，策略通常是减少谷歌对某些类型页面的关注，并将其重定向到对网站更重要的页面。

您要处理的方式将取决于网站上处理转化的方式。 Kevin 区分了两种基本的站点模型：集中式和分散式业务模型：

去中心化模型可以在任何页面上转换用户。一个很好的例子是 Trello：你可以在任何页面上注册。他们所有的页面类型都比较相似。因为对于注册来说，没有一个页面比另一个页面更有价值，所以目标可能是在整个网站上实现均匀的抓取速度：您希望所有类型的页面都以大致相同的速度抓取。
集中式模型可能类似于 Jira。 Jira 没有可以复制一百万次的单一页面类型：只有少数登录页面可供人们注册。您希望确保您在此类网站上的抓取预算集中在您的转化点（您的目标网页）上。

您希望如何分配抓取预算回到您的网站如何赚钱以及哪些类型的页面在其中发挥最重要作用的问题。

解决爬行浪费

为了防止 Googlebots 将抓取预算花费在对转化不太重要的网页上，有几种方法。

跳过抓取的最佳方法是 robots.txt：

在 99.99999% 的情况下，Google 尊重 robots.txt 指令。
Robots.txt 可以帮助阻止对您网站的大部分内容薄或重复的内容的抓取（经典示例：论坛上的用户个人资料；参数 URL……）

在某些合法情况下，您可能希望页面不被编入索引，但仍有助于抓取。凯文会考虑一些中心页面属于这一类。这是他将使用元 noindex 的地方。

他认识到 John Mueller 曾说过 meta noindex 标签最终会被视为 nofollow，但 Kevin 迄今为止从未见过这种情况发生在实际中。他承认这可能是因为它需要很长时间才能发生（超过一年，或更长时间）。相反，他倾向于发现 Googlebots 是“贪婪的”，并且会尽可能多地搜索和跟踪链接。

Kevin 的建议是使用 robots.txt，并充分利用它。您可以使用通配符和一些非常复杂的技术来保护某些内容不被抓取。

要遵循的经验法则是，内容越薄，就越有可能被排除在爬网之外。

如果页面有内部链接或反向链接指向它们，则通过 robots.txt 被排除在抓取之外的页面仍然可以被 Google 索引。如果发生这种情况，搜索结果中的说明文本将显示由于 robots.txt 的限制，Google 无法抓取该网页。不过，一般来说，这些页面的排名并不高，除非它们最近才被排除在 robots.txt 中。

类似页面导致的索引问题

– 典型错误

以编程方式，规范声明非常容易出错。 Kevin 见过几次这样的情况，即规范使用分号 (;) 而不是冒号 (:)，然后您会遇到大量问题。

规范在某些情况下非常敏感，可能导致 Google 不信任您的所有规范，这可能是一个大问题。

然而，规范最常见的问题之一是被遗忘的规范。

– 站点迁移

站点迁移通常是规范问题的根源； Kevin 发现了网站刚刚忘记将新域添加到规范的问题。

这很容易忘记，尤其是当您的 CSM 需要手动（而不是编程）调整以在迁移期间进行更改时。

默认设置是页面的规范应指向自身，除非有特定原因指向另一个 URL。

– HTTP 到 HTTPS

这是另一个常见的规范错误，它会阻止正确的 URL 被编入索引。有时在规范中使用了错误的协议。

– 当 Google 忽略声明的规范时查找错误源

谷歌有时会选择自己的规范。当他们不信任您声明的规范时，通常有根本原因。

Kevin 建议避免您可能会向 Google 发送两个相互冲突的信号的情况：

查看您的 XML 站点地图
爬取你自己的网站并搜索有缺陷的规范
查看 Search Console 中的参数设置以查找冲突设置
不要同时使用 noindex 和 canonical

导致索引膨胀的页面类型

在十年前的 SEO 中，您希望发送尽可能多的页面进行索引：索引的页面越多越好。

今天，情况已不再如此。你只想要你店里最优质的东西。您不希望索引中有任何低于标准的内容。

“索引膨胀”通常用于描述不提供任何价值的页面类型。这通常会回到任何类型的薄内容，特别是在您增加或放大现有页面的数量而没有在每个新页面上提供实质性价值的情况下。

您可能希望查看有多少特定类型的页面被编入索引以及它们是否提供额外价值的经典案例包括：

参数
分页
论坛
目录相关页面或门口页面
广泛的本地（城市）页面，不区分服务或内容
分面导航

索引如何影响整个网站

您现在不希望将低于标准的页面编入索引，因为它们会影响 Google 如何看待和评价您的网站作为一个整体。

其中大部分是为了抓取预算。虽然 Gary Illyes 和 John Mueller 经常说大多数网站不需要担心抓取预算，但我们今天所进行的讨论类型的受众是更大的网站，这会产生很大的不同。

您要确保 Google 只找到高质量的内容。

就像 Kevin 观察到的抓取率、索引和排名之间的关系一样，他还观察到关注索引页面的质量似乎对整个网站都有好处。虽然很难做出普遍的陈述，但 Google 似乎有某种网站质量指标，该指标取决于该网站的索引页面。换句话说，如果你有很多被索引的低质量内容，它似乎会伤害你的网站。

这就是索引膨胀有害的地方：它是一种稀释或降低整体网站质量“分数”的方法，并且会浪费您的爬网预算。

用于快速索引的 XML 站点地图

凯文的观点是，随着谷歌变得越来越聪明，“黑客”的数量随着时间的推移而减少。

然而，在索引的主题上，他发现快速获得索引的一种方法是使用 XML 站点地图。

最近 G2 迁移到了一个新域。他们有一种页面类型需要很长时间才能重新抓取，因此在 Google 的索引中，您仍然可以在此类页面的片段中看到旧域。当 Kevin 发现 301 重定向因为尚未被抓取而未被考虑在内时，他将所有此类页面放入 XML 站点地图，并在 Search Console 中将站点地图提供给 Google。

如果 Kevin 希望 Google 尽快了解网站上的重大技术变化，也可以使用此策略。

技术搜索引擎优化的日益突出

技术搜索引擎优化在过去三年中获得了突出地位。很多时候，技术 SEO 问题突出了真正被低估的领域。

您经常听说内容和反向链接是您唯一需要注意的事情。虽然 Kevin 认为这些是 SEO 的超级影响力领域，但他认为如果您的技术 SEO 正确，它们会产生更大的影响。

[电子书] 可抓取性

确保您的网站满足搜索引擎对可抓取性的要求，以提高 SEO 性能。

阅读电子书

问答

– Bing 和索引 10,000 个 URL/天

Bing 使网站管理员能够通过其网站管理员工具每天直接提交多达 10,000 个 URL，从而加快索引速度。

凯文认为这也是谷歌可能会发展的方向。即使是谷歌，作为世界上最有价值的公司之一，也必须保护他们的资源。这就是为什么如果你浪费了他们的爬取资源，他们会做出相应的调整的原因之一。

对于网站管理员来说，这种功能是否值得也取决于您网站的大小。每天能够提交如此多 URL 的网站数量是有限的——可能是数千或一万个。凯文推测，谷歌已经为这些网站投入了大量资源。似乎对于网络上最大的网站，谷歌在索引它们方面做得不错，当然，通常的例外情况除外。

Bing 在这种规模上实现某些东西可能要容易得多：一方面，它们的市场份额要小得多，因此对这个功能的需求较少。它们的索引大小也可能要小得多，因此它们可能会受益更多。

– 当谷歌忽略 robots.txt

谷歌很少忽略 robots.txt。

有时让我们认为 Google 忽略 robots.txt 的原因是，正如我们之前谈到的，Google 有时可以索引被 robots.txt 阻止的页面，而这些页面仍然可以通过多种其他方式找到。

如果您在 robots.txt 文件中的语法不正确，您也可以让 Google 忽略 robots.txt 中的指令：

错误字符
使用不起作用或不应该起作用的标签，例如 noindex 指令

[注：Kevin 引用了一个案例研究，该研究发现 Google 尊重 robots.txt 文件中的 noindex 指令。然而，在本次网络研讨会播出后不久，Google 宣布终止在 robots.txt 文件中对该指令的默认支持，自 2019 年 9 月 1 日起生效。]

然而，谷歌是保持机器人高标准并且不忽略 robots.txt 的公司之一。

最重要的提示

“PageRank 是索引速度和数量背后的主要驱动力。”

Orbit 中的 SEO 进入太空

如果您错过了 6 月 27 日的太空之旅，请点击此处了解我们发送到太空的所有提示。