[网络研讨会文摘] Orbit 中的 SEO:Rankbrain、人工智能、机器学习和搜索的未来
已发表: 2019-11-13网络研讨会Rankbrain、人工智能、机器学习和搜索的未来是 SEO in Orbit 系列的一部分,于 2019 年 6 月 19 日播出。在这一集中,Bill Slawski 利用他对谷歌专利和搜索工作原理的了解来打破记下今天使用的可能搜索算法,并假设它在未来版本的谷歌引擎盖下的样子。 加入我们,探索技术 SEO 的未来。
Orbit 中的 SEO 是第一个将 SEO 送入太空的网络研讨会系列。 在整个系列中,我们与一些最优秀的 SEO 专家讨论了技术 SEO 的现在和未来,并于 2019 年 6 月 27 日将他们的重要技巧发送到了太空。
在这里观看重播:
介绍比尔·斯拉夫斯基
作为一名自学成才的搜索引擎专利专家,Bill Slawski 是 Go Fish Digital 的 SEO 范围总监和 SEO by the Sea 的博主。 用比尔自己的话来说:“我不是计算机科学家,也不是数学家。 我拥有英语本科学位和法学博士学位。 自 2005 年左右以来,我一直在阅读来自搜索引擎的专利,以了解他们对搜索、搜索者和 Web 的看法。 其中许多专利涵盖了旨在解决特定问题的算法,我发现在执行 SEO 方面有很多帮助。”
本期节目由连续创业者、OnCrawl 的联合创始人兼首席执行官 Francois Goube 主持。 他创立了几家公司,并积极参与创业生态系统。 他对语义分析和搜索引擎充满热情,喜欢分析 Google 的科学出版物,并且经常在 SEO 会议上发表演讲。
什么是人工智能和机器学习?
AI有很多定义。
谷歌的很多工作都集中在神经网络上,这导致了机器学习的工作原理。 它使用一组代表理想数据集的数据,标记以强调它的某些特征,用于训练分类器。 然后,这些数据会在其他数据集上松散,以根据他们从样本集中学到的知识对新信息进行分析和分类。 那就是机器学习。
人工智能涵盖的领域
- 自然语言
人工智能可以涵盖不同的领域,比如更好地理解自然语言。 涉及到许多技术,谷歌提供的许多东西都说明了自然语言分析所涉及的内容。
– 问答
最近的一项专利(链接)试图填补问答模式中的空白。
它解释了谷歌如何使用知识图来理解问题的答案可能是什么。 例如,如果实体的信息缺失或数据不正确,Google 可能会尝试根据与相关事实相关的信息来估计答案。
这项专利的有趣之处不是谷歌使用估计来回答问题,而是他们正在为他们的估计提供解释。
– 模仿人类思维(神经网络)
机器学习基于人工智能,模仿人类思维的运作方式。 机器学习网络之所以被称为神经网络,是因为它们旨在尝试复制大脑中神经元的工作方式。
Rankbrain
– 与蜂鸟和单词上下文的关系
Rankbrain 和 Hummingbird 都是查询重写方法。 Hummingbird 试图通过查看查询中的所有单词来更好地理解查询的上下文。 以前,谷歌只会查看并排的单词来理解上下文; 蜂鸟的目光超越了紧挨着的单词。 它甚至可能会考虑会话查询中的完整句子。 Hummingbird 尝试将查询中的所有单词一起使用来理解上下文。
– 使用词嵌入方法在 Rankbrain 中重写查询
与蜂鸟不同,Rankbrain 使用词嵌入方法。 它检查一个简短的文本段落,并能够确定是否缺少单词。 它通过对大量数据(2000 亿字)进行训练来做到这一点。
- 在查询中查找缺失的单词
例如,查询“纽约时报拼图”可以正确解释为缺少“填字游戏”一词。 Rankbrain 将缺失的单词添加到查询中,并将纽约时报填字游戏的结果返回给搜索者,因为这可能是他们想要的。
– 您可以针对 Rankbrain 进行优化吗?
请务必注意,您无法针对 Rankbrain 优化页面。 一些 SEO 写过文章说你可以。 然而,从 Bill 所看到的关于算法的所有内容来看,它表明这是一个查询重写过程,而不是影响页面评估的过程。
使用机器学习的其他 Google 算法
谷歌没有驱动搜索引擎的单一“算法”。 它有许多不同的算法有助于它的工作方式。 Rankbrain 就是其中之一。
– 在类别中使用质量分数
这可能意味着,例如,当 Google 确定给定查询有很多信息类型的结果时,他们可能会考虑类别,而不是根据信息检索分数或 PageRank 等权威评级对页面进行排名。 从那里,他们可能会在网站类别中给出质量分数。 这将提供更多样化的结果集,并确保更高质量的结果可以更快地移动到结果的顶部。
- 导航结果的页面受欢迎程度
这种类型的排名算法也有利于更受欢迎的页面(人们倾向于访问的页面),特别是对于导航类型的结果。 当搜索者已经知道该页面是他们想要查看的内容时,该页面将倾向于在类别质量得分范例中排名靠前。
– SERP CTR的影响
类别质量分数还表明,在搜索结果中经常选择的页面也是高质量页面,并且在此类别质量方法下也将排名很高。
然而,尽管类别质量评分方法绝对是机器学习,但它不是 Rankbrain。
Rankbrain 满足搜索者的情境需求
Rankbrain 试图了解查询中可能缺少的内容。 Rankbrain 最重要的方面是它试图满足搜索者的情境需求:这个人在输入框中输入查询时的真正意思是什么?
过去的关键字查询与当前的口语和会话查询
如果我们转向口语和对话类型的查询,将涉及比过去使用的关键字方法更多的词。
作为搜索者,您试图猜测需要使用哪些词来查找所需信息。 你不应该做这种猜测。 如果你问你想要什么,谷歌应该能够分析它并确定你可能的意思。 这就是 Rankbrain 的作用。
自然语言处理方法
我们看到的一件事是谷歌更加关注自然语言处理。 我们正在看到自然语言处理方法的出现。
– 神经匹配
丹尼沙利文在推特上发布了一些他称之为神经匹配的东西。
过去几个月,谷歌一直在使用神经匹配——AI 方法来更好地将单词与概念联系起来。 在某种程度上,超级同义词影响了 30% 的查询。 不知道搜索“肥皂剧效果”是什么? 我们可以更好地弄清楚。 pic.twitter.com/Qrwp5hKFNz
- 丹尼沙利文 (@dannysullivan) 2018 年 9 月 24 日
他说这是一种更好地理解页面上的单词以及这些单词在上下文中的含义的方法。 他提供了一些例子,说明一个词可能意味着三到四种不同的事物,具体取决于它在句子中的位置。
- 词嵌入
谷歌一直在发布关于使用词嵌入类型方法的专利(就像他们在 Rankbrain 中使用的那样,以理解那些简短的文本查询)来处理更长的文本,比如网页。
– 语义框架
语义框架是指您使用适合特定情况的语言。 在每种情况下,都会使用特定的语言。 例如,抵押贷款或房地产购买中的积分与骰子或棋盘游戏中的积分具有不同的含义。
如果您了解该框架,则可以更好地理解页面上单词的上下文。
这也可以帮助区分含义本身因情况而异的单词。 例如,“马”对于骑马者和木匠来说并不是同一个意思。 其他专利也探索了理解上下文含义差异的其他方法。
使用机器学习根据写作风格识别作者
机器很容易识别个人的写作风格。 由于房地产、体育等行业的标准化风格,这与内容的主题分类有相似之处。
作为一名英国学生,比尔分析了文学作品并研究了作者表达自己的不同方式以及原因。
– 作者使用引用频率对专利进行评分
谷歌确实拥有关于作者评分的专利。 为了给作者打分,考虑的因素之一是他们被其他作者引用的频率。
- Google Books N-Gram 查看器
谷歌在语言模型方面做了很多工作。 他们扫描了大量的书籍。 N-Gram 查看器可让您查看短语的流行度多年来如何演变。
– N. Panda 使用语言模型的质量得分专利
N. Panda 的质量得分专利讨论了使用 N-gram 和构建语言模型,以根据网页与其他语言模型的比较来了解网页的质量。
这是搜索引擎技术中机器学习的一个很好的例子。 我们有一个先前评分页面的数据集,我们正在将新页面与基于原始样本集数据的页面进行比较。 由于这用于确定质量,因此包含原始集合中编写良好的页面特征的页面将获得更高的分数。
这种语言模型也可以用来理解不同作者的写作风格。
结构化数据的未来机器学习
机器学习在 Google 如何管理实体、翻译以及 Cindy Krum 命名为 Fraggles 的外观中也很明显。
- 回答段落和加强文本内容
还有另一项关于答案段落的专利,其中谷歌提出了一种机制,使用网页上的文本段落来提供问题的答案。 这最近已更新,不仅可以查看文本段落,还可以查看强化文本的结构化数据。

– 事实核查和一致性
使用模式提供了信息冗余。 这为 Google 提供了一种通过将文本信息与结构化标记中提供的信息进行比较来检查网页上信息事实的一致性的方法。
这与谷歌地图上发生的事情相同,谷歌查看姓名、地址和电话号码。
一致性提供了一定程度的信心,即答案可能更可能是正确的。
– 常见问题页面和操作方法页面
随着 Google 引入常见问题解答页面和 How-to Schema 支持,我们看到他们正朝着让网站所有者构建 Schema 的方式发展,以反映他们可能在网页上的文本中放置的内容。
了解网页上下文的策略
谷歌已经采取了其他措施来尝试更好地理解网页中的内容。 这里有几个:
– 使用知识库和上下文术语
谷歌专利表明他们可能会查看知识库,并可能从这些知识库中收集上下文术语的定义。 然后,他们可能会在网页上寻找这些上下文术语的存在,以帮助确定单词的哪个上下文相关的含义最有可能。
因此,关于马(一种动物)的页面可能包含诸如“马鞍”之类的词,而关于其他类型马的页面可能包含诸如“木工”之类的词。
– 基于短语的索引
另一种用于理解页面主题的语义学习方法可以追溯到 2004 年左右。 基于短语的索引不仅古老,而且至少有 20 项专利的主题,并且已经更新和修改了几次。 所有这些都向 Bill 表明,基于短语的索引在 Google 的算法中非常重要。
- 建立主题预测短语的倒排索引
与基于短语的索引相关的一项专利描述了构建出现在页面上并且可以预测主题的短语的倒排索引。 例如,“美国总统”、“国务卿”或“玫瑰园采访”等短语可以预测“白宫”的语义主题。
Schema中的站长学科知识
Google 正在开发使用 Schema 之类的东西,但是 Schema 所描述的事物类型的定义是由网站管理员提供的。 通过这种方式,网站管理员能够与搜索引擎一起为构建知识图谱做出贡献。
例如,谷歌添加了“知道”作为 Schema 的一个方面。 但是,网站管理员表明律师可以了解海事法或专利法,这反过来又有助于填写知识图谱。
基于机器的知识表示是一种协作努力。
[案例研究] 管理 Google 的机器人抓取
不断发展的搜索和过时的 SEO 实践
- 替代文本中的重复单词
告诉谷歌一张人的照片需要被命名两次并不能帮助谷歌理解它两次。 它甚至可能会降低搜索引擎对页面价值的估计。
– 用于小型静态数据库的 LSI
工具制造商不断建议 SEO 使用旧技术。 一个例子是 1989 年开发的潜在语义索引 (LSI)。它旨在用于小型静态数据库,这些数据库不是网络大小,也不会以网络的速度增长。
每次要使用 LSI 时,都需要拥有最新版本的数据库。 如果您继续向语料库添加信息,则需要再次运行它。 这意味着它对网络不是很有用。
– TF-IDF 只能访问完整语料库
TF-IDF(词频-索引文档频率)是另一个例子。 如果您可以访问被索引信息的完整语料库(在这种情况下是万维网),则此方法效果最佳。 当您想知道哪些是最常见的词,哪些是整个语料库中的稀有词时,您可以使用 TF-IDF。 但是如果你只使用某些词的前十排名页面的语料库而不是整个网络,你就无法建立实际的词频。
这会严重影响分析的准确性。
站长期望与谷歌能力:需要来自谷歌的沟通
尽管最近有公告,但我们实际上并不知道分页标记对搜索引擎没有用处。
虽然分页标记不再用于管理分页页面上的重复内容,但我们对 Google 有一定的期望。 他们应该能够理解页面何时在一个系列中。 像这样的公告揭示了了解谷歌在他们所做的事情上有多好或多坏的困难。
使用频繁出现的词
Bill 最喜欢的技术技巧是查看在某些术语中排名很高的频繁出现的词,并确保他在内容中使用这些词,包括正文和从他的页面指向相关页面的锚文本。 这利用了“锚点命中”,搜索引擎将其视为“专家链接”。
该策略源自基于短语的索引。
– 短语共现的统计概率
基于短语的索引专利大约在两年前更新。 这种方法现在使用页面上出现的相关术语的数量来对页面进行排名。
但是,如果页面上出现的相关术语数量超过统计上可能的数量,则可以将其标记为垃圾邮件。 例如,如果您从一个主题上抓取了很多页面并将它们全部放在一个页面上,那么您将拥有太多相关的术语,以至于它自然而然地发生了。
这与比尔进行关键字研究的方式非常吻合。 他查看相似的页面并创建一个经常出现的相似短语或单词的列表。 他可能会尝试在自己的页面上使用其中的一些,即使他没有尝试为它们排名。 这会构建与他想要排名的关键字相关的内容。
LSI 与使用同义词或语义相关内容
围绕 LSI 的炒作是比尔最不喜欢的话题之一,部分原因是该术语具有误导性。 当谈论 LSI 与潜在语义索引无关时,许多人的建议是什么。 相反,他们只是建议向页面添加同义词或语义相关的内容。
Phrased-based indexing 的倒排索引和可以提供上下文术语的知识库表明存在术语和可以访问的资源,如果您严格地寻找高排名的共现术语,则可以找到可能有用的词您的关键字的页面。
在 Google 的估计中,看起来像是同义词的词有时不是。
使用 URL 提交工具进行快速索引
新版 Google Search Console 中的 URL 提交工具是一种非常快速的将页面编入索引的方法。 比尔看到更新在一两分钟内传播到 SERP。
比尔对未来加价的希望:有关专利的更多信息
观众问题:您希望将来添加什么 Schema 标记?
因为他写了很多关于专利的文章,Bill 希望看到一种更好的方法来捕捉专利的独特特征。 其中一些功能包括:
- 类别(专利旨在解决的问题)
- 专利名称,尽管“页面的主要实体”可以涵盖此功能
由于 Google 已经允许您基于 Schema 功能进行搜索,最终将能够改进专利查找,以便人们可以要求查看涵盖某些类别的专利。
答案引擎优化是搜索的未来吗?
观众提问:你认为SEO未来会成为AEO吗?
比尔认为,在某种程度上,搜索引擎优化一直是 AEO。
– 谷歌作为答案引擎的旧迹象
我们不一定要经历进化。 有 15 年的迹象表明 Google 正朝着这个方向前进,例如:
- 2004:字典功能允许用户搜索单词的含义
- 2005 年:“Just the facts”博客文章展示了第一个精选片段或直接答案,但通过提供十个蓝色链接不满意,但更喜欢提供文本回复。
– Sergey Brin:了解事实和事实之间关系的算法专利
另一个表明谷歌作为答案引擎并不新鲜的迹象是谢尔盖·布林(Sergey Brin)的一项算法专利,该算法可以理解事实和事实之间的关系。 该专利包括五本书、书名、出版商、作者等。
理论是机器人会爬网搜索这些书,然后——
[OK Google 打断]
- 音频水印
还有利用超高频的音频水印的概念。 它们将超出人类听觉范围,但狗和计算机将能够识别它们。 这可能允许不同的提供商跟踪您听过带有水印的商业广告并可能对该产品感兴趣的事实。
这已经存在了至少五年,并且在 SEO 中没有讨论过。
最重要的提示
“网络上有很多关于 RankBrain、神经匹配和机器学习等主题的错误信息。 其中一些包括经过仔细研究的事实和错误信息,所以要小心你所依赖的。”
Orbit 中的 SEO 进入太空
如果您错过了 6 月 27 日的太空之旅,请点击此处了解我们发送到太空的所有提示。