Google 的工作原理:Google 排名工程師的故事#SMX
已發表: 2022-06-12Google 軟件工程師 Paul Haahr 在 Google 工作超過 14 年。 對於其中兩個,他與馬特·卡茨共用一個辦公室。 他將在 SMX West 2016 舞台上從 Google 工程師的角度分享 Google 的工作原理,或者至少在 30 分鐘內盡可能多地分享。 之後,網站管理員趨勢分析師 Gary Illyes 將與他一起上台,兩人將回答 SMX 觀眾的問題,搜索引擎土地編輯 Danny Sullivan 主持(跳轉到問答部分!)。
谷歌的工作原理
Haahr 首先告訴我們 Google 工程師的工作。 他們的工作包括:
- 為搜索編寫代碼
- 優化指標
- 尋找新信號
- 以新方式結合舊信號
- 將具有良好收視率的結果向上移動
- 將評分不佳的結果向下移動
- 修復評級指南
- 必要時制定新指標
搜索引擎的兩個部分:
- 提前(查詢前)
- 查詢處理
查詢前
- 爬網
- 分析爬取的頁面
- 提取鏈接
- 渲染內容
- 註釋語義
- 建立索引
指數
- 就像一本書的索引
- 對於每個單詞,它出現的頁面列表
- 分成數百萬頁的組
- 加上每個文檔的元數據
查詢處理
- 查詢理解與擴展
查詢是否命名任何已知實體? - 檢索和評分
- 將查詢發送到所有分片
每個分片- 查找匹配的頁面
- 計算查詢+頁面的分數
- 按分數發回前 N 頁
- 合併所有首頁
- 按分數排序
- 將查詢發送到所有分片
- 檢索後調整
- 主機集群
- 是否有重複
評分信號
一個信號是:
- 用於評分的一條信息
- 查詢獨立——頁面的特性
- 查詢依賴
指標
“如果你不能衡量它,你就不能改進它”——開爾文勳爵
- 關聯
- 頁面是否有用地回答了用戶的查詢
- 排名的頂級指標
- 質量
- 我們展示的結果有多好
- 見效時間(越快越好)
谷歌通過現場實驗來衡量自己:
- 真實流量的 A/B 實驗
- 尋找點擊模式的變化
- 大量流量在一個實驗或另一個實驗中
有一次,谷歌測試了 41 種不同的藍調,以確定哪種最好。
谷歌還進行了人類評估實驗:
- 顯示真人實驗性搜索結果
- 詢問結果如何
- 跨評分者的匯總評分
- 發布指南,解釋評估者的標準
- 工具支持以自動化方式執行此操作,類似於 Mechanical Turk
谷歌根據兩個主要因素來判斷頁面:
- 滿足需求(移動設備處於前沿和中心位置)
- 頁面質量
需求滿足等級:
- 完全符合
- 非常滿足
- 高度滿足
- 適度滿足
- 稍微滿足
- 未能見面
頁面質量概念:
- 專長
- 權威性
- 可信賴性
谷歌工程師開發流程:
- 主意
- 重複直到準備好
- 編寫代碼
- 生成數據
- 運行實驗
- 分析
- 量化分析師發布報告
- 啟動審查
- 發射
出了什麼問題?
有兩種問題:
- 系統性差評
- 指標無法捕捉到我們關心的事情
這是一個差評的例子。 有人搜索[德州農場肥料],搜索結果提供了製造商總部的地圖。 這不太可能是他們想要的。 谷歌通過現場實驗確定了這一點。 如果評價者看到地圖並將其評價為“高度滿足”需求,那麼這是評價點的失敗。
或者,如果缺少指標怎麼辦? 在 2009-2011 年,有很多關於低質量內容的投訴。 但由於內容農場,相關性指標不斷上升。 結論:谷歌沒有衡量他們需要的指標。 因此,質量指標是在相關性之外開發的。
這是 Paul Haahr 的幻燈片,值得一看:
7/19 更新:作者現在已將演示文稿標記為私有。
Gary Illyes 和 Paul Haahr 回答 SMX 觀眾的問題
SMX:RankBrain 如何融入這一切?
Haahr: RankBrain 可以看到信號的一個子集。 我無法詳細介紹 RankBrain 的工作原理。 我們了解它是如何工作的,但並不了解它在做什麼。 它使用了我們發布的關於深度學習的大量內容。
RankBrain 如何知道頁面的權限?
Haahr:這都是它所獲得的訓練的一個功能。 它看到查詢和其他信號。 我不能說更多有用的東西。
SMX:當您登錄 Google 應用程序時,您會根據收集的信息進行區分嗎? 如果您使用的是 Google Now 與 Chrome,那會影響您所看到的內容嗎?
Haahr:這真的是一個你是否登錄的問題。 我們提供一致的體驗。 您的瀏覽歷史記錄會跟隨您。
Google 是否會在一天中的不同時間為相同的查詢提供不同的結果?
Illyes:我不確定。 例如,在地圖中,如果我們顯示與地圖相關的內容,我們將顯示小時。 據加里所知,它不會改變顯示的內容。
SMX:熊貓和企鵝怎麼了?
Illyes:我放棄了在 Penguin 上給出日期或時間表。 我們正在研究它,考慮如何發布它,但老實說我不知道日期,我不想說日期,因為我已經錯了三四次,這對業務不利。
SMX:Post-Google Authorship,您如何跟踪作者權限?
Haahr:我不打算詳細說明。 我要說的是,評估者應該手動查看他們所看到的頁面。 我們衡量的是:我們是否能夠很好地服務於評估者認為是良好權威的結果。
SMX:這是否意味著權威被用作直接或間接因素?
Haahr:我不會說是或否。 它比這要復雜得多,我無法給出直接的答案。
SMX:當明確的作者身份結束時,谷歌確實說過要保留署名。 你應該打擾 rel=author 嗎?
Illyes:至少有一個團隊仍在考慮使用 rel=author 標籤,只是為了未來的發展。 如果我是 SEO,我仍然會留下標籤。 擁有它並沒有什麼壞處。 然而,在新頁面上,它可能不值得擁有。 雖然我們將來可能會用它來做一些事情。
SMX:你現在在讀什麼?
哈爾:我讀了很多新聞,但書很少。 然而,我剛剛完成了“City on Fire”——它講述的是 70 年代的紐約。 有900頁,當它結束時我很失望。 我剛剛開始“這裡不可能發生”。