Google 的工作原理:Google 排名工程师的故事#SMX
已发表: 2022-06-12Google 软件工程师 Paul Haahr 在 Google 工作超过 14 年。 对于其中两个,他与马特·卡茨共用一个办公室。 他将在 SMX West 2016 舞台上从 Google 工程师的角度分享 Google 的工作原理,或者至少在 30 分钟内尽可能多地分享。 之后,网站管理员趋势分析师 Gary Illyes 将与他一起上台,两人将回答 SMX 观众的问题,搜索引擎土地编辑 Danny Sullivan 主持(跳转到问答部分!)。
谷歌的工作原理
Haahr 首先告诉我们 Google 工程师的工作。 他们的工作包括:
- 为搜索编写代码
- 优化指标
- 寻找新信号
- 以新方式结合旧信号
- 将具有良好收视率的结果向上移动
- 将评分不佳的结果向下移动
- 修复评级指南
- 必要时制定新指标
搜索引擎的两个部分:
- 提前(查询前)
- 查询处理
查询前
- 爬网
- 分析爬取的页面
- 提取链接
- 渲染内容
- 注释语义
- 建立索引
指数
- 就像一本书的索引
- 对于每个单词,它出现的页面列表
- 分成数百万页的组
- 加上每个文档的元数据
查询处理
- 查询理解与扩展
查询是否命名任何已知实体? - 检索和评分
- 将查询发送到所有分片
每个分片- 查找匹配的页面
- 计算查询+页面的分数
- 按分数发回前 N 页
- 合并所有首页
- 按分数排序
- 将查询发送到所有分片
- 检索后调整
- 主机集群
- 是否有重复
评分信号
一个信号是:
- 用于评分的一条信息
- 查询独立——页面的特性
- 查询依赖
指标
“如果你不能衡量它,你就不能改进它”——开尔文勋爵
- 关联
- 页面是否有用地回答了用户的查询
- 排名的顶级指标
- 质量
- 我们展示的结果有多好
- 见效时间(越快越好)
谷歌通过现场实验来衡量自己:
- 真实流量的 A/B 实验
- 寻找点击模式的变化
- 大量流量在一个实验或另一个实验中
有一次,谷歌测试了 41 种不同的蓝调,以确定哪种最好。
谷歌还进行了人类评估实验:
- 显示真人实验性搜索结果
- 询问结果如何
- 跨评分者的汇总评分
- 发布指南,解释评估者的标准
- 工具支持以自动化方式执行此操作,类似于 Mechanical Turk
谷歌根据两个主要因素来判断页面:
- 满足需求(移动设备处于前沿和中心位置)
- 页面质量
需求满足等级:
- 完全符合
- 非常满足
- 高度满足
- 适度满足
- 稍微满足
- 未能见面
页面质量概念:
- 专长
- 权威性
- 可信赖性
谷歌工程师开发流程:
- 主意
- 重复直到准备好
- 编写代码
- 生成数据
- 运行实验
- 分析
- 量化分析师发布报告
- 启动审查
- 发射
出了什么问题?
有两种问题:
- 系统性差评
- 指标无法捕捉到我们关心的事情
这是一个差评的例子。 有人搜索[德州农场肥料],搜索结果提供了制造商总部的地图。 这不太可能是他们想要的。 谷歌通过现场实验确定了这一点。 如果评价者看到地图并将其评价为“高度满足”需求,那么这是评价点的失败。
或者,如果缺少指标怎么办? 在 2009-2011 年,有很多关于低质量内容的投诉。 但由于内容农场,相关性指标不断上升。 结论:谷歌没有衡量他们需要的指标。 因此,质量指标是在相关性之外开发的。
这是 Paul Haahr 的幻灯片,值得一看:
7/19 更新:作者现在已将演示文稿标记为私有。
Gary Illyes 和 Paul Haahr 回答 SMX 观众的问题
SMX:RankBrain 如何融入这一切?
Haahr: RankBrain 可以看到信号的一个子集。 我无法详细介绍 RankBrain 的工作原理。 我们了解它是如何工作的,但并不了解它在做什么。 它使用了我们发布的关于深度学习的大量内容。
RankBrain 如何知道页面的权限?
Haahr:这都是它所获得的训练的一个功能。 它看到查询和其他信号。 我不能说更多有用的东西。
SMX:当您登录 Google 应用程序时,您会根据收集的信息进行区分吗? 如果您使用的是 Google Now 与 Chrome,那会影响您所看到的内容吗?
Haahr:这真的是一个你是否登录的问题。 我们提供一致的体验。 您的浏览历史记录会跟随您。
Google 是否会在一天中的不同时间为相同的查询提供不同的结果?
Illyes:我不确定。 例如,在地图中,如果我们显示与地图相关的内容,我们将显示小时。 据加里所知,它不会改变显示的内容。
SMX:熊猫和企鹅怎么了?
Illyes:我放弃了在 Penguin 上给出日期或时间表。 我们正在研究它,考虑如何发布它,但老实说我不知道日期,我不想说日期,因为我已经错了三四次,这对业务不利。
SMX:Post-Google Authorship,您如何跟踪作者权限?
Haahr:我不打算详细说明。 我要说的是,评估者应该手动查看他们所看到的页面。 我们衡量的是:我们是否能够很好地服务于评估者认为是良好权威的结果。
SMX:这是否意味着权威被用作直接或间接因素?
Haahr:我不会说是或否。 它比这要复杂得多,我无法给出直接的答案。
SMX:当明确的作者身份结束时,谷歌确实说过要保留署名。 你应该打扰 rel=author 吗?
Illyes:至少有一个团队仍在考虑使用 rel=author 标签,只是为了未来的发展。 如果我是 SEO,我仍然会留下标签。 拥有它并没有什么坏处。 然而,在新页面上,它可能不值得拥有。 虽然我们将来可能会用它来做一些事情。
SMX:你现在在读什么?
哈尔:我读了很多新闻,但书很少。 然而,我刚刚完成了“City on Fire”——它讲述的是 70 年代的纽约。 有900页,当它结束时我很失望。 我刚刚开始“这里不可能发生”。