[網絡研討會文摘] Orbit 中的 SEO:Rankbrain、人工智能、機器學習和搜索的未來
已發表: 2019-11-13網絡研討會Rankbrain、人工智能、機器學習和搜索的未來是 SEO in Orbit 系列的一部分,於 2019 年 6 月 19 日播出。在這一集中,Bill Slawski 利用他對谷歌專利和搜索工作原理的了解來打破記下今天使用的可能搜索算法,並假設它在未來版本的谷歌引擎蓋下的樣子。 加入我們,探索技術 SEO 的未來。
Orbit 中的 SEO 是第一個將 SEO 送入太空的網絡研討會系列。 在整個系列中,我們與一些最優秀的 SEO 專家討論了技術 SEO 的現在和未來,並於 2019 年 6 月 27 日將他們的重要技巧發送到了太空。
在這裡觀看重播:
介紹比爾·斯拉夫斯基
作為一名自學成才的搜索引擎專利專家,Bill Slawski 是 Go Fish Digital 的 SEO 範圍總監和 SEO by the Sea 的博主。 用比爾自己的話來說:“我不是計算機科學家,也不是數學家。 我擁有英語本科學位和法學博士學位。 自 2005 年左右以來,我一直在閱讀來自搜索引擎的專利,以了解他們對搜索、搜索者和 Web 的看法。 其中許多專利涵蓋了旨在解決特定問題的算法,我發現在執行 SEO 方面有很多幫助。”
本期節目由連續創業者、OnCrawl 的聯合創始人兼首席執行官 Francois Goube 主持。 他創立了幾家公司,並積極參與創業生態系統。 他對語義分析和搜索引擎充滿熱情,喜歡分析 Google 的科學出版物,並且經常在 SEO 會議上發表演講。
什麼是人工智能和機器學習?
AI有很多定義。
谷歌的很多工作都集中在神經網絡上,這導致了機器學習的工作原理。 它使用一組代表理想數據集的數據,標記以強調它的某些特徵,用於訓練分類器。 然後,這些數據會在其他數據集上鬆散,以根據他們從樣本集中學到的知識對新信息進行分析和分類。 那就是機器學習。
人工智能涵蓋的領域
- 自然語言
人工智能可以涵蓋不同的領域,比如更好地理解自然語言。 涉及到許多技術,谷歌提供的許多東西都說明了自然語言分析所涉及的內容。
– 問答
最近的一項專利(鏈接)試圖填補問答模式中的空白。
它解釋了谷歌如何使用知識圖來理解問題的答案可能是什麼。 例如,如果實體的信息缺失或數據不正確,Google 可能會嘗試根據與相關事實相關的信息來估計答案。
這項專利的有趣之處不是谷歌使用估計來回答問題,而是他們正在為他們的估計提供解釋。
– 模仿人類思維(神經網絡)
機器學習基於人工智能,模仿人類思維的運作方式。 機器學習網絡之所以被稱為神經網絡,是因為它們旨在嘗試複製大腦中神經元的工作方式。
Rankbrain
– 與蜂鳥和單詞上下文的關係
Rankbrain 和 Hummingbird 都是查詢重寫方法。 Hummingbird 試圖通過查看查詢中的所有單詞來更好地理解查詢的上下文。 以前,谷歌只會查看並排的單詞來理解上下文; 蜂鳥的目光超越了緊挨著的單詞。 它甚至可能會考慮會話查詢中的完整句子。 Hummingbird 嘗試將查詢中的所有單詞一起使用來理解上下文。
– 使用詞嵌入方法在 Rankbrain 中重寫查詢
與蜂鳥不同,Rankbrain 使用詞嵌入方法。 它檢查一個簡短的文本段落,並能夠確定是否缺少單詞。 它通過對大量數據(2000 億字)進行訓練來做到這一點。
- 在查詢中查找缺失的單詞
例如,查詢“紐約時報拼圖”可以正確解釋為缺少“填字遊戲”一詞。 Rankbrain 將缺失的單詞添加到查詢中,並將紐約時報填字遊戲的結果返回給搜索者,因為這可能是他們想要的。
– 您可以針對 Rankbrain 進行優化嗎?
請務必注意,您無法針對 Rankbrain 優化頁面。 一些 SEO 寫過文章說你可以。 然而,從 Bill 所看到的關於算法的所有內容來看,它表明這是一個查詢重寫過程,而不是影響頁面評估的過程。
使用機器學習的其他 Google 算法
谷歌沒有驅動搜索引擎的單一“算法”。 它有許多不同的算法有助於它的工作方式。 Rankbrain 就是其中之一。
– 在類別中使用質量分數
這可能意味著,例如,當 Google 確定給定查詢有很多信息類型的結果時,他們可能會考慮類別,而不是根據信息檢索分數或 PageRank 等權威評級對頁面進行排名。 從那裡,他們可能會在網站類別中給出質量分數。 這將提供更多樣化的結果集,並確保更高質量的結果可以更快地移動到結果的頂部。
- 導航結果的頁面受歡迎程度
這種類型的排名算法也有利於更受歡迎的頁面(人們傾向於訪問的頁面),特別是對於導航類型的結果。 當搜索者已經知道該頁面是他們想要查看的內容時,該頁面將傾向於在類別質量得分範例中排名靠前。
– SERP CTR的影響
類別質量分數還表明,在搜索結果中經常選擇的頁面也是高質量頁面,並且在此類別質量方法下也將排名很高。
然而,儘管類別質量評分方法絕對是機器學習,但它不是 Rankbrain。
Rankbrain 滿足搜索者的情境需求
Rankbrain 試圖了解查詢中可能缺少的內容。 Rankbrain 最重要的方面是它試圖滿足搜索者的情境需求:這個人在輸入框中輸入查詢時的真正意思是什麼?
過去的關鍵字查詢與當前的口語和會話查詢
如果我們轉向口語和對話類型的查詢,將涉及比過去使用的關鍵字方法更多的詞。
作為搜索者,您試圖猜測需要使用哪些詞來查找所需信息。 你不應該做這種猜測。 如果你問你想要什麼,谷歌應該能夠分析它並確定你可能的意思。 這就是 Rankbrain 的作用。
自然語言處理方法
我們看到的一件事是谷歌更加關注自然語言處理。 我們正在看到自然語言處理方法的出現。
– 神經匹配
丹尼沙利文在推特上發布了一些他稱之為神經匹配的東西。
過去幾個月,谷歌一直在使用神經匹配——AI 方法來更好地將單詞與概念聯繫起來。 在某種程度上,超級同義詞影響了 30% 的查詢。 不知道搜索“肥皂劇效果”是什麼? 我們可以更好地弄清楚。 pic.twitter.com/Qrwp5hKFNz
- 丹尼沙利文 (@dannysullivan) 2018 年 9 月 24 日
他說這是一種更好地理解頁面上的單詞以及這些單詞在上下文中的含義的方法。 他提供了一些例子,說明一個詞可能意味著三到四種不同的事物,具體取決於它在句子中的位置。
- 詞嵌入
谷歌已經發布了關於使用詞嵌入類型方法的專利(就像他們在 Rankbrain 中使用的那樣,以便理解那些簡短的文本查詢)來處理更長的文本量,比如網頁。
– 語義框架
語義框架是指您使用適合特定情況的語言。 在每種情況下,都會使用特定的語言。 例如,抵押貸款或房地產購買中的積分與骰子或棋盤遊戲中的積分具有不同的含義。
如果您了解該框架,則可以更好地理解頁面上單詞的上下文。
這也可以幫助區分含義本身因情況而異的單詞。 例如,“馬”對於騎馬者和木匠來說並不是同一個意思。 其他專利也探索了理解上下文含義差異的其他方法。
使用機器學習根據寫作風格識別作者
機器很容易識別個人的寫作風格。 由於房地產、體育等行業的標準化風格,這與內容的主題分類有相似之處。
作為一名英國學生,比爾分析了文學作品並研究了作者表達自己的不同方式以及原因。
– 作者使用引用頻率對專利進行評分
谷歌確實擁有關於作者評分的專利。 為了給作者打分,考慮的因素之一是他們被其他作者引用的頻率。
- Google Books N-Gram 查看器
谷歌在語言模型方面做了很多工作。 他們掃描了大量的書籍。 N-Gram 查看器可讓您查看短語的流行度多年來如何演變。
– N. Panda 使用語言模型的質量得分專利
N. Panda 的質量得分專利討論了使用 N-gram 和構建語言模型,以根據網頁與其他語言模型的比較來了解網頁的質量。
這是搜索引擎技術中機器學習的一個很好的例子。 我們有一個先前評分頁面的數據集,我們正在將新頁面與基於原始樣本集數據的頁面進行比較。 由於這用於確定質量,因此包含原始集合中編寫良好的頁面特徵的頁面將獲得更高的分數。
這種語言模型也可以用來理解不同作者的寫作風格。
結構化數據的未來機器學習
機器學習在 Google 如何管理實體、翻譯以及 Cindy Krum 命名為 Fraggles 的外觀中也很明顯。
- 回答段落和加強文本內容
還有另一項關於答案段落的專利,其中谷歌提出了一種機制,使用網頁上的文本段落來提供問題的答案。 這最近已更新,不僅可以查看文本段落,還可以查看強化文本的結構化數據。
– 事實核查和一致性
使用模式提供了信息冗餘。 這為 Google 提供了一種通過將文本信息與結構化標記中提供的信息進行比較來檢查網頁上信息事實的一致性的方法。
這與穀歌地圖上發生的事情相同,谷歌查看姓名、地址和電話號碼。
一致性提供了一定程度的信心,即答案可能更可能是正確的。
– 常見問題頁面和操作方法頁面
隨著 Google 引入常見問題解答頁面和 How-to Schema 支持,我們看到他們正朝著讓網站所有者構建 Schema 的方式發展,以反映他們可能在網頁上的文本中放置的內容。
了解網頁上下文的策略
谷歌已經採取了其他措施來嘗試更好地理解網頁中的內容。 這裡有幾個:
– 使用知識庫和上下文術語
谷歌專利表明他們可能會查看知識庫,並可能從這些知識庫中收集上下文術語的定義。 然後,他們可能會在網頁上尋找這些上下文術語的存在,以幫助確定單詞的哪個上下文相關的含義最有可能。
因此,關於馬(一種動物)的頁面可能包含諸如“馬鞍”之類的詞,而關於其他類型馬的頁面可能包含諸如“木工”之類的詞。
– 基於短語的索引
另一種用於理解頁面主題的語義學習方法可以追溯到 2004 年左右。 基於短語的索引不僅古老,而且至少有 20 項專利的主題,並且已經更新和修改了幾次。 所有這些都向 Bill 表明,基於短語的索引在 Google 的算法中非常重要。
- 建立主題預測短語的倒排索引
與基於短語的索引相關的一項專利描述了構建出現在頁面上並且可以預測主題的短語的倒排索引。 例如,“美國總統”、“國務卿”或“玫瑰園採訪”等短語可以預測“白宮”的語義主題。
Schema中的站長學科知識
Google 正在開發使用 Schema 之類的東西,但是 Schema 所描述的事物類型的定義是由網站管理員提供的。 通過這種方式,網站管理員能夠與搜索引擎一起為構建知識圖譜做出貢獻。
例如,谷歌添加了“知道”作為 Schema 的一個方面。 但是,網站管理員表明律師可以了解海事法或專利法,這反過來又有助於填寫知識圖譜。
基於機器的知識表示是一種協作努力。
[案例研究] 管理 Google 的機器人抓取
不斷發展的搜索和過時的 SEO 實踐
- 替代文本中的重複單詞
告訴谷歌一張人的照片需要被命名兩次並不能幫助谷歌理解它兩次。 它甚至可能會降低搜索引擎對頁面價值的估計。
– 用於小型靜態數據庫的 LSI
工具製造商不斷建議 SEO 使用舊技術。 一個例子是 1989 年開發的潛在語義索引 (LSI)。它旨在用於小型靜態數據庫,這些數據庫不是網絡大小,也不會以網絡的速度增長。
每次要使用 LSI 時,都需要擁有最新版本的數據庫。 如果您繼續向語料庫添加信息,則需要再次運行它。 這意味著它對網絡不是很有用。
– TF-IDF 只能訪問完整語料庫
TF-IDF(詞頻-索引文檔頻率)是另一個例子。 如果您可以訪問被索引信息的完整語料庫(在這種情況下是萬維網),則此方法效果最佳。 當您想知道哪些是最常見的詞,哪些是整個語料庫中的稀有詞時,您可以使用 TF-IDF。 但是如果你只使用某些詞的前十排名頁面的語料庫而不是整個網絡,你就無法建立實際的詞頻。
這會嚴重影響分析的準確性。
站長期望與穀歌能力:需要來自谷歌的溝通
儘管最近有公告,但我們實際上並不知道分頁標記對搜索引擎沒有用處。
雖然分頁標記不再用於管理分頁頁面上的重複內容,但我們對 Google 有一定的期望。 他們應該能夠理解頁面何時在一個系列中。 像這樣的公告揭示了了解谷歌在他們所做的事情上有多好或多壞的困難。
使用頻繁出現的詞
Bill 最喜歡的技術技巧是查看在某些術語中排名很高的頻繁出現的詞,並確保他在內容中使用這些詞,包括正文和從他的頁面指向相關頁面的錨文本。 這利用了“錨點命中”,搜索引擎將其視為“專家鏈接”。
該策略源自基於短語的索引。
– 短語共現的統計概率
基於短語的索引專利大約在兩年前更新。 這種方法現在使用頁面上出現的相關術語的數量來對頁面進行排名。
但是,如果頁面上出現的相關術語數量超過統計上可能的數量,則可以將其標記為垃圾郵件。 例如,如果您從一個主題上抓取了很多頁面並將它們全部放在一個頁面上,那麼您將擁有太多相關的術語,以至於它自然而然地發生了。
這與比爾進行關鍵字研究的方式非常吻合。 他查看相似的頁面並創建一個經常出現的相似短語或單詞的列表。 他可能會嘗試在自己的頁面上使用其中的一些,即使他沒有嘗試為它們排名。 這會構建與他想要排名的關鍵字相關的內容。
LSI 與使用同義詞或語義相關內容
圍繞 LSI 的炒作是比爾最不喜歡的話題之一,部分原因是該術語具有誤導性。 當談論 LSI 與潛在語義索引無關時,許多人的建議是什麼。 相反,他們只是建議向頁面添加同義詞或語義相關的內容。
基於短語的索引的倒排索引和可以提供上下文術語的知識庫表明存在術語和可以訪問的資源,如果您嚴格尋找高排名的共現術語,則可以找到可能有用的詞您的關鍵字的頁面。
在 Google 的估計中,看起來像是同義詞的詞有時不是。
使用 URL 提交工具進行快速索引
新版 Google Search Console 中的 URL 提交工具是一種非常快速的將頁面編入索引的方法。 比爾看到更新在一兩分鐘內傳播到 SERP。
比爾對未來加價的希望:有關專利的更多信息
觀眾問題:您希望將來添加什麼 Schema 標記?
因為他寫了很多關於專利的文章,Bill 希望看到一種更好的方法來捕捉專利的獨特特徵。 其中一些功能包括:
- 類別(專利旨在解決的問題)
- 專利名稱,儘管“頁面的主要實體”可以涵蓋此功能
由於 Google 已經允許您基於 Schema 功能進行搜索,最終將能夠改進專利查找,以便人們可以要求查看涵蓋某些類別的專利。
答案引擎優化是搜索的未來嗎?
觀眾提問:你認為SEO未來會成為AEO嗎?
比爾認為,在某種程度上,搜索引擎優化一直是 AEO。
– 谷歌作為答案引擎的舊跡象
我們不一定要經歷進化。 有 15 年的跡象表明 Google 正朝著這個方向前進,例如:
- 2004:字典功能允許用戶搜索單詞的含義
- 2005 年:“Just the facts”博客文章展示了第一個精選片段或直接答案,但通過提供十個藍色鏈接不滿意,但更喜歡提供文本回复。
– Sergey Brin:了解事實和事實之間關係的算法專利
另一個表明谷歌作為答案引擎並不新鮮的跡像是謝爾蓋·布林(Sergey Brin)的一項算法專利,該算法可以理解事實和事實之間的關係。 該專利包括五本書、書名、出版商、作者等。
理論是機器人會爬網搜索這些書,然後——
[OK Google 打斷]
- 音頻水印
還有利用超高頻的音頻水印的概念。 它們將超出人類聽覺範圍,但狗和計算機將能夠識別它們。 這可能允許不同的提供商跟踪您聽過帶有水印的商業廣告並可能對該產品感興趣的事實。
這已經存在了至少五年,並且在 SEO 中沒有討論過。
最重要的提示
“網絡上有很多關於 RankBrain、神經匹配和機器學習等主題的錯誤信息。 其中一些包括經過仔細研究的事實和錯誤信息,所以要小心你所依賴的。”
Orbit 中的 SEO 進入太空
如果您錯過了 6 月 27 日的太空之旅,請點擊此處了解我們發送到太空的所有提示。