Google 的工作原理:Google 排名工程師的故事#SMX

已發表: 2022-06-12

Google 軟件工程師 Paul Haahr 在 Google 工作超過 14 年。 對於其中兩個,他與馬特·卡茨共用一個辦公室。 他將在 SMX West 2016 舞台上從 Google 工程師的角度分享 Google 的工作原理,或者至少在 30 分鐘內盡可能多地分享。 之後,網站管理員趨勢分析師 Gary Illyes 將與他一起上台,兩人將回答 SMX 觀眾的問題,搜索引擎土地編輯 Danny Sullivan 主持(跳轉到問答部分!)。

左起:Google 網站管理員趨勢分析師 Gary Illyes、Google 軟件工程師 Paul Haahr 和搜索引擎土地編輯 Danny Sullivan 在聖何塞的 SMX West 2016 舞台上。

谷歌的工作原理

Haahr 首先告訴我們 Google 工程師的工作。 他們的工作包括:

  • 為搜索編寫代碼
  • 優化指標
  • 尋找新信號
  • 以新方式結合舊信號
  • 將具有良好收視率的結果向上移動
  • 將評分不佳的結果向下移動
  • 修復評級指南
  • 必要時制定新指標

搜索引擎的兩個部分:

  • 提前(查詢前)
  • 查詢處理

查詢前

  • 爬網
  • 分析爬取的頁面
    • 提取鏈接
    • 渲染內容
    • 註釋語義
  • 建立索引

指數

  • 就像一本書的索引
  • 對於每個單詞,它出現的頁面列表
  • 分成數百萬頁的組
  • 加上每個文檔的元數據

查詢處理

  • 查詢理解與擴展
    查詢是否命名任何已知實體?
  • 檢索和評分
    • 將查詢發送到所有分片
      每個分片

      • 查找匹配的頁面
      • 計算查詢+頁面的分數
      • 按分數發回前 N 頁
    • 合併所有首頁
    • 按分數排序
  • 檢索後調整
    • 主機集群
    • 是否有重複

評分信號

一個信號是:

  • 用於評分的一條信息
  • 查詢獨立——頁面的特性
  • 查詢依賴

指標

“如果你不能衡量它,你就不能改進它”——開爾文勳爵

  • 關聯
    • 頁面是否有用地回答了用戶的查詢
    • 排名的頂級指標
  • 質量
    • 我們展示的結果有多好
  • 見效時間(越快越好)

谷歌通過現場實驗來衡量自己:

  • 真實流量的 A/B 實驗
  • 尋找點擊模式的變化
  • 大量流量在一個實驗或另一個實驗中

有一次,谷歌測試了 41 種不同的藍調,以確定哪種最好。

谷歌還進行了人類評估實驗:

  • 顯示真人實驗性搜索結果
  • 詢問結果如何
  • 跨評分者的匯總評分
  • 發布指南,解釋評估者的標準
  • 工具支持以自動化方式執行此操作,類似於 Mechanical Turk

谷歌根據兩個主要因素來判斷頁面:

  • 滿足需求(移動設備處於前沿和中心位置)
  • 頁面質量

需求滿足等級:

  • 完全符合
  • 非常滿足
  • 高度滿足
  • 適度滿足
  • 稍微滿足
  • 未能見面

頁面質量概念:

  • 專長
  • 權威性
  • 可信賴

谷歌工程師開發流程:

  • 主意
  • 重複直到準備好
    • 編寫代碼
    • 生成數據
    • 運行實驗
    • 分析
  • 量化分析師發布報告
  • 啟動審查
  • 發射

出了什麼問題?

有兩種問題:

  • 系統性差評
  • 指標無法捕捉到我們關心的事情

這是一個差評的例子。 有人搜索[德州農場肥料],搜索結果提供了製造商總部的地圖。 這不太可能是他們想要的。 谷歌通過現場實驗確定了這一點。 如果評價者看到地圖並將其評價為“高度滿足”需求,那麼這是評價點的失敗。

或者,如果缺少指標怎麼辦? 在 2009-2011 年,有很多關於低質量內容的投訴。 但由於內容農場,相關性指標不斷上升。 結論:谷歌沒有衡量他們需要的指標。 因此,質量指標是在相關性之外開發的。

這是 Paul Haahr 的幻燈片,值得一看:
7/19 更新:作者現在已將演示文稿標記為私有。

Google 的工作原理:排名工程師的觀點 作者:來自 Search Marketing Expo – SMX 的 Paul Haahr

Gary Illyes 和 Paul Haahr 回答 SMX 觀眾的問題

SMX:RankBrain 如何融入這一切?

Haahr: RankBrain 可以看到信號的一個子集。 我無法詳細介紹 RankBrain 的工作原理。 我們了解它是如何工作的,但並不了解它在做什麼。 它使用了我們發布的關於深度學習的大量內容。

RankBrain 如何知道頁面的權限?

Haahr:這都是它所獲得的訓練的一個功能。 它看到查詢和其他信號。 我不能說更多有用的東西。

SMX:當您登錄 Google 應用程序時,您會根據收集的信息進行區分嗎? 如果您使用的是 Google Now 與 Chrome,那會影響您所看到的內容嗎?

Haahr:這真的是一個你是否登錄的問題。 我們提供一致的體驗。 您的瀏覽歷史記錄會跟隨您。

Google 是否會在一天中的不同時間為相同的查詢提供不同的結果?

Illyes:我不確定。 例如,在地圖中,如果我們顯示與地圖相關的內容,我們將顯示小時。 據加里所知,它不會改變顯示的內容。

SMX:熊貓和企鵝怎麼了?

Illyes:我放棄了在 Penguin 上給出日期或時間表。 我們正在研究它,考慮如何發布它,但老實說我不知道日期,我不想說日期,因為我已經錯了三四次,這對業務不利。

SMX:Post-Google Authorship,您如何跟踪作者權限?

Haahr:我不打算詳細說明。 我要說的是,評估者應該手動查看他們所看到的頁面。 我們衡量的是:我們是否能夠很好地服務於評估者認為是良好權威的結果。

SMX:這是否意味著權威被用作直接或間接因素?

Haahr:我不會說是或否。 它比這要復雜得多,我無法給出直接的答案。

SMX:當明確的作者身份結束時,谷歌確實說過要保留署名。 你應該打擾 rel=author 嗎?

Illyes:至少有一個團隊仍在考慮使用 rel=author 標籤,只是為了未來的發展。 如果我是 SEO,我仍然會留下標籤。 擁有它並沒有什麼壞處。 然而,在新頁面上,它可能不值得擁有。 雖然我們將來可能會用它來做一些事情。

SMX:你現在在讀什麼?

哈爾:我讀了很多新聞,但書很少。 然而,我剛剛完成了“City on Fire”——它講述的是 70 年代的紐約。 有900頁,當它結束時我很失望。 我剛剛開始“這裡不可能發生”。

訂閱 BCI 博客鏈接