Google 的工作原理:Google 排名工程师的故事#SMX

已发表: 2022-06-12

Google 软件工程师 Paul Haahr 在 Google 工作超过 14 年。 对于其中两个,他与马特·卡茨共用一个办公室。 他将在 SMX West 2016 舞台上从 Google 工程师的角度分享 Google 的工作原理,或者至少在 30 分钟内尽可能多地分享。 之后,网站管理员趋势分析师 Gary Illyes 将与他一起上台,两人将回答 SMX 观众的问题,搜索引擎土地编辑 Danny Sullivan 主持(跳转到问答部分!)。

左起:Google 网站管理员趋势分析师 Gary Illyes、Google 软件工程师 Paul Haahr 和搜索引擎土地编辑 Danny Sullivan 在圣何塞的 SMX West 2016 舞台上。

谷歌的工作原理

Haahr 首先告诉我们 Google 工程师的工作。 他们的工作包括:

  • 为搜索编写代码
  • 优化指标
  • 寻找新信号
  • 以新方式结合旧信号
  • 将具有良好收视率的结果向上移动
  • 将评分不佳的结果向下移动
  • 修复评级指南
  • 必要时制定新指标

搜索引擎的两个部分:

  • 提前(查询前)
  • 查询处理

查询前

  • 爬网
  • 分析爬取的页面
    • 提取链接
    • 渲染内容
    • 注释语义
  • 建立索引

指数

  • 就像一本书的索引
  • 对于每个单词,它出现的页面列表
  • 分成数百万页的组
  • 加上每个文档的元数据

查询处理

  • 查询理解与扩展
    查询是否命名任何已知实体?
  • 检索和评分
    • 将查询发送到所有分片
      每个分片

      • 查找匹配的页面
      • 计算查询+页面的分数
      • 按分数发回前 N 页
    • 合并所有首页
    • 按分数排序
  • 检索后调整
    • 主机集群
    • 是否有重复

评分信号

一个信号是:

  • 用于评分的一条信息
  • 查询独立——页面的特性
  • 查询依赖

指标

“如果你不能衡量它,你就不能改进它”——开尔文勋爵

  • 关联
    • 页面是否有用地回答了用户的查询
    • 排名的顶级指标
  • 质量
    • 我们展示的结果有多好
  • 见效时间(越快越好)

谷歌通过现场实验来衡量自己:

  • 真实流量的 A/B 实验
  • 寻找点击模式的变化
  • 大量流量在一个实验或另一个实验中

有一次,谷歌测试了 41 种不同的蓝调,以确定哪种最好。

谷歌还进行了人类评估实验:

  • 显示真人实验性搜索结果
  • 询问结果如何
  • 跨评分者的汇总评分
  • 发布指南,解释评估者的标准
  • 工具支持以自动化方式执行此操作,类似于 Mechanical Turk

谷歌根据两个主要因素来判断页面:

  • 满足需求(移动设备处于前沿和中心位置)
  • 页面质量

需求满足等级:

  • 完全符合
  • 非常满足
  • 高度满足
  • 适度满足
  • 稍微满足
  • 未能见面

页面质量概念:

  • 专长
  • 权威性
  • 可信赖

谷歌工程师开发流程:

  • 主意
  • 重复直到准备好
    • 编写代码
    • 生成数据
    • 运行实验
    • 分析
  • 量化分析师发布报告
  • 启动审查
  • 发射

出了什么问题?

有两种问题:

  • 系统性差评
  • 指标无法捕捉到我们关心的事情

这是一个差评的例子。 有人搜索[德州农场肥料],搜索结果提供了制造商总部的地图。 这不太可能是他们想要的。 谷歌通过现场实验确定了这一点。 如果评价者看到地图并将其评价为“高度满足”需求,那么这是评价点的失败。

或者,如果缺少指标怎么办? 在 2009-2011 年,有很多关于低质量内容的投诉。 但由于内容农场,相关性指标不断上升。 结论:谷歌没有衡量他们需要的指标。 因此,质量指标是在相关性之外开发的。

这是 Paul Haahr 的幻灯片,值得一看:
7/19 更新:作者现在已将演示文稿标记为私有。

Google 的工作原理:排名工程师的观点 作者:来自 Search Marketing Expo – SMX 的 Paul Haahr

Gary Illyes 和 Paul Haahr 回答 SMX 观众的问题

SMX:RankBrain 如何融入这一切?

Haahr: RankBrain 可以看到信号的一个子集。 我无法详细介绍 RankBrain 的工作原理。 我们了解它是如何工作的,但并不了解它在做什么。 它使用了我们发布的关于深度学习的大量内容。

RankBrain 如何知道页面的权限?

Haahr:这都是它所获得的训练的一个功能。 它看到查询和其他信号。 我不能说更多有用的东西。

SMX:当您登录 Google 应用程序时,您会根据收集的信息进行区分吗? 如果您使用的是 Google Now 与 Chrome,那会影响您所看到的内容吗?

Haahr:这真的是一个你是否登录的问题。 我们提供一致的体验。 您的浏览历史记录会跟随您。

Google 是否会在一天中的不同时间为相同的查询提供不同的结果?

Illyes:我不确定。 例如,在地图中,如果我们显示与地图相关的内容,我们将显示小时。 据加里所知,它不会改变显示的内容。

SMX:熊猫和企鹅怎么了?

Illyes:我放弃了在 Penguin 上给出日期或时间表。 我们正在研究它,考虑如何发布它,但老实说我不知道​​日期,我不想说日期,因为我已经错了三四次,这对业务不利。

SMX:Post-Google Authorship,您如何跟踪作者权限?

Haahr:我不打算详细说明。 我要说的是,评估者应该手动查看他们所看到的页面。 我们衡量的是:我们是否能够很好地服务于评估者认为是良好权威的结果。

SMX:这是否意味着权威被用作直接或间接因素?

Haahr:我不会说是或否。 它比这要复杂得多,我无法给出直接的答案。

SMX:当明确的作者身份结束时,谷歌确实说过要保留署名。 你应该打扰 rel=author 吗?

Illyes:至少有一个团队仍在考虑使用 rel=author 标签,只是为了未来的发展。 如果我是 SEO,我仍然会留下标签。 拥有它并没有什么坏处。 然而,在新页面上,它可能不值得拥有。 虽然我们将来可能会用它来做一些事情。

SMX:你现在在读什么?

哈尔:我读了很多新闻,但书很少。 然而,我刚刚完成了“City on Fire”——它讲述的是 70 年代的纽约。 有900页,当它结束时我很失望。 我刚刚开始“这里不可能发生”。

订阅 BCI 博客链接