[網絡研討會文摘] Orbit 中的 SEO:解開索引的秘密
已發表: 2019-11-06網絡研討會Unlocking the secrets of indexing是 SEO in Orbit 系列的一部分,於 2019 年 6 月 12 日播出。在這一集中,Kevin Indig 分享了他對將頁面編入索引的想法,以及為網站編入索引的頁面如何影響整個網站排名,以及哪些頁面不應該被索引。 在發現頁面和讓它們出現在 SERP 之間的中間步驟的正確方法是什麼?
Orbit 中的 SEO 是第一個將 SEO 送入太空的網絡研討會系列。 在整個系列中,我們與一些最優秀的 SEO 專家討論了技術 SEO 的現在和未來,並於 2019 年 6 月 27 日將他們的重要技巧發送到了太空。
在這裡觀看重播:
介紹凱文·英迪格
在過去的 10 年裡,Kevin Indig 幫助初創公司獲得了超過 1 億用戶。 他是 G2 的 SEO 和內容副總裁,Growth @ GermanAccelerator 的導師,之前曾在 Atlassian 和 Dailymotion 運行過 SEO。 他的專長是用戶獲取、品牌建設和用戶保留。 凱文合作過的公司包括 eBay、Eventbrite、博世、三星、Pinterest、哥倫比亞、瑞銀和許多其他公司。 他還經營策劃的技術營銷通訊,Tech Bound。
本集由 OnCrawl 的內容經理 Rebecca Berbel 主持。 Rebecca 著迷於 NLP 和語言的機器模型,以及系統和它們的一般工作方式,對於技術 SEO 主題的興奮,Rebecca 永遠不會不知所措。 她相信傳播技術和使用數據來了解網站在搜索引擎上的表現。
定義
談論索引很重要的原因之一是它是一個複雜的話題。 許多 SEO 都在努力建立索引以及如何影響它。
是時候進行另一個 SEO 測驗了。
您創建一個新頁面。 以下哪項會將其排除在 Google 的索引之外?
A. 元機器人 noindex
B. Robots.txt 塊
C. 給頁面元 noindex *並* 在 robots.txt 中阻止它— Will Critchlow (@willcritchlow) 2019 年 6 月 9 日
– 爬行
簡單來說,爬行是搜索引擎理解網頁及其所有組件的技術發現過程。
這有助於 Google 找到所有可以返回並呈現的 URL,然後編制索引並最終排名。
– 谷歌的三步流程
抓取是谷歌創建搜索結果的三步過程的一部分:
- 爬行
- 渲染
- 索引
這些在技術上是不同的過程,由不同的程序或搜索引擎的部分處理。
排名可能是此過程的第四步。
– 索引
索引是 Google 將 URL 添加到它的可能結果的長“列表”的過程。 如果 Kevin 必須在索引的定義中避免使用“索引”一詞,他更願意談論一個隱喻的“列表”:Google 有一個 URL 的“列表”,它可以用來對用戶進行排名和顯示為最佳結果.
- 日誌文件
任何時候任何人或任何事物在服務器上請求頁面或資源時,Web 服務器都會保留歷史記錄。
在了解 Google 如何抓取和呈現您的網站時,Kevin 非常熱衷於將日誌文件作為事實來源。
在日誌中,我們可以以非常簡單明了的方式找到有關 Google 訪問您網站的頻率以及它在那裡做什麼的服務器信息。 日誌文件包含每次訪問該站點的單獨記錄。
您可以從日誌文件中獲取大量信息:
- 特定狀態碼錯誤
- 爬行的問題
- 渲染問題
- Googlebot 在您的網站上花費了多少時間
- 哪些 Googlebot 會訪問您的網站。 例如,使用 Mobile First 索引,用於索引的主要 Googlebot 最近已更新。
- 無論您的網站技術結構是否符合 Google 的要求,或者您是否有可以優化的內容。
檢查索引的方法
– 不推薦:“site:”查詢
大約 10 年前,當 Kevin 開始從事 SEO 時,他會通過在 Google 上運行“site:”搜索來查看他網站上的哪些頁面被索引。 雖然他有時仍然使用它,但它不再是確定 URL 是否被索引的可靠方法。
最近,他向 John Mueller 詢問了這個策略。 他證實,不再推薦使用這種方法來檢查 Google 已編入或未編入索引的內容。
– 推薦:Search Console URL 檢查
相反,John Mueller 建議使用 Search Console 中的 URL 檢查工具來檢查已編入索引的內容。
緩存頁面並不總是代表被索引的內容,它通常只是獲取的靜態 HTML(如果上面有 JavaScript,它通常不會在緩存主機中運行)。 我會更多地關注 URL 檢查工具。
——??? 約翰 ???? (@JohnMu)2019 年 5 月 8 日
– 推薦:XML 站點地圖和覆蓋率報告
在 Search Console 中提交 XML 站點地圖是檢查一批 URL,然後在搜索控制台的覆蓋率報告中檢查站點地圖的一種方法。
區分 crawl-render-index 的重要性
如前所述,Google 抓取、呈現和索引頁面有一個 3 步過程。 區分這些步驟中的每一個是非常重要的。 隨著網絡變得越來越複雜,谷歌不得不單獨調整、分離和改進這些流程。
不同的 Googlebot
Google 使用多個 Googlebot 來抓取和呈現網站。 您擁有不同類型的資源:圖片、視頻、新聞、文本……Google 使用不同的 Googlebot 來理解每種類型的內容。
大約一個月前,谷歌宣布他們升級了他們的渲染引擎,以在常青的 Googlebot 和最新的 Chromium 引擎上運行。
這很重要,因為爬行和渲染是導致索引的必要步驟。
改變 Google 流程中的優先級
出於索引目的,Google 曾經使用桌面 Googlebot 進行抓取。 那已經改變了; 他們現在使用智能手機 Googlebot 進行索引。
移動優先索引將從 2019 年 7 月開始對所有新站點實施,並且如果尚未切換所有已知的現有站點,則將對它們進行索引。
抓取:Google 查找要索引的 URL 的方式
為了能夠索引一個頁面,谷歌必須抓取它。
作為索引過程的第一步,為確保您的頁面被正確快速地編入索引,您需要確保您的爬網是“安全可靠的”。
Google 查找網址的方式基本上有以下三種:
- 鏈接:這就是整個 PageRank 專利的基礎——通過超鏈接查找新站點
- XML 站點地圖
- 過去的爬網
– Google 如何優先考慮 URL(抓取預算)
Google 會優先考慮其抓取的網站以及抓取頻率。 這通常被稱為“抓取預算”。
谷歌網站管理員博客中有一篇關於抓取預算的文章,它提供了一些關於谷歌如何優先抓取哪些網站的想法。
– 流行度:反向鏈接和 PageRank
本文確立的觀點之一是,PageRank 是網站索引速度和數量背後的主要驅動力。
當然,反向鏈接是 PageRank 的主要組成部分,因此會影響抓取速度和索引。
– 狀態碼
狀態碼也被考慮在內。 例如,如果您的網站上有很多 404 頁面,這可能會導致 Google 降低抓取頻率。
另一個例子是重定向鍊和循環。
– 現場衛生
如果您的網站的組織方式浪費了大量的抓取預算,那麼 Google 可能會減少在您的網站上花費的時間。
- 頁面速度和服務器響應時間
抓取預算還受到頁面速度和服務器響應時間的影響。 Google 不想對您的網站進行 DDoS 攻擊; 如果它發現您的服務器很難按照請求的速度提供頁面和資源,它將根據您的服務器在抓取方面可以處理的內容進行調整。
渲染:咖啡因更新
幾年前推出的 Caffeine 更新基本上是對 Google 渲染結構的更新。
索引:內容類型的不同集群
Google 使用不同的索引存檔來返回不同的結果。 可以合理地想像,索引中有不同的集群用於新聞結果,而另一個用於圖像結果等。
排名:單獨的算法
最後,對索引 URL 進行排名——但這是一種完全不同的算法。
提高索引速度
更快地索引頁面和索引更多頁面都受到 PageRank 的嚴重影響,因此也受到反向鏈接的影響。 但是改善每一個的策略是不同的。
如果您希望頁面更快地被索引,您需要優化前兩個步驟(抓取和呈現)。 這將包括以下組件:
- 內部鏈接
- 站點地圖
- 服務器速度
- 頁面速度
提高索引頁數
如果你想獲得更多的頁面索引,那就是爬蟲方面更重要的地方。 您將希望讓 Google 更輕鬆地找到您的所有網頁。 這在具有一千個 URL 的小型網站上很簡單,但在具有數百萬個 URL 的大型網站上要困難得多。
例如,G2 有大量不同頁麵類型的頁面。 Kevin 的 SEO 團隊希望確保 Google 能夠找到所有頁面,無論抓取深度如何,也無論該類型頁面存在多少; 這是一項重大挑戰,必須從不同角度加以應對。
根據頁面配置文件的爬取率變化
根據頁面的類型,Kevin 經常會發現 Google 的抓取速度不同。 這通常取決於 URL 的反向鏈接配置文件和內部鏈接。 這是他發現日誌文件使用最多的地方。
他按頁麵類型對站點進行細分,以了解站點在哪些地方缺乏爬網效率或在哪些地方爬網效率太高。
抓取速度、索引速度和排名之間的關係
凱文絕對觀察到爬網速度、索引速度和每種頁面的排名之間的明確相關性。 這不僅適用於他合作過的網站,而且適用於業內其他 SEO。
在沒有假定抓取、索引和排名之間的因果關係的情況下,在對頁面進行排名時,驅動索引的類似元素似乎也被考慮在內。 例如,如果對於給定類型的頁面(例如:登錄頁面),您有大量指向某個頁面模板的反向鏈接,那麼您會在日誌文件中發現,如果 Google 在這些頁面上的抓取率更高網站,Google 也會更快地索引這些頁面,並且通常將這些頁面排名高於其他頁面。
很難做出對所有網站都有效的通用聲明,但 Kevin 鼓勵每個人檢查他們的日誌文件,看看在他們自己的網站上是否也是如此。 OnCrawl 還發現在他們分析的許多不同站點中都是這種情況。
這是他試圖用他提出的 TIPR 內部鏈接模型概述的部分內容。
測量抓取速度
要衡量抓取速度,您需要回答以下問題:給定的 Googlebot 多久訪問一次特定的 URL?
你如何“切片和切塊”這是另一個問題。 Kevin 喜歡每週查看 Googlebot 的點擊次數。 您也可以每天或每月查看它。
– 關注之前/之後
比您使用的時間段更重要的是查看抓取速度的變化。 您應該在進行更改之前和實施之後查看費率。
– 關注頁麵類型之間的差異
衡量抓取率的另一個關鍵是查看您網站上的差距在哪裡。 在頁麵類型級別上,爬取率之間的差異在哪裡? 什麼頁麵類型被抓取了一噸? 哪些頁麵類型很難被抓取?
– 爬行行為的常見觀察結果
凱文過去做過的一些有趣的觀察包括:
- 抓取次數最多的網址:robots.txt
- 大多數時間花在一個 URL/一組 URL 上:XML 站點地圖,尤其是當它們變得有點大時
挖掘日誌文件以發現頁麵類型之間爬取行為的差異非常令人大開眼界。 查看每天抓取哪些 URL 與每月抓取哪些 URL。 這可以告訴你很多關於你的網站結構對於抓取(和索引——即使中間有一個步驟)的效率。
基於商業模式的抓取預算分配
為了提高抓取效率,策略通常是減少谷歌對某些類型頁面的關注,並將其重定向到對網站更重要的頁面。
您要處理的方式將取決於網站上處理轉化的方式。 Kevin 區分了兩種基本的站點模型:集中式和分散式業務模型:
- 去中心化模型可以在任何頁面上轉換用戶。 一個很好的例子是 Trello:你可以在任何頁面上註冊。 他們所有的頁麵類型都比較相似。 因為對於註冊來說,沒有一個頁面比另一個頁面更有價值,所以目標可能是在整個網站上實現均勻的抓取速度:您希望所有類型的頁面都以大致相同的速度抓取。
- 集中式模型可能類似於 Jira。 Jira 沒有可以復制一百萬次的單一頁麵類型:只有少數登錄頁面可供人們註冊。 您希望確保您在此類網站上的抓取預算集中在您的轉化點(您的目標網頁)上。
您希望如何分配抓取預算回到您的網站如何賺錢以及哪些類型的頁面在其中發揮最重要作用的問題。
解決爬行浪費
為了防止 Googlebots 將抓取預算花費在對轉化不太重要的網頁上,有幾種方法。
跳過抓取的最佳方法是 robots.txt:
- 在 99.99999% 的情況下,Google 尊重 robots.txt 指令。
- Robots.txt 可以幫助阻止對您網站的大部分內容薄或重複的內容的抓取(經典示例:論壇上的用戶個人資料;參數 URL……)
在某些合法情況下,您可能希望頁面不被編入索引,但仍有助於抓取。 凱文會考慮一些中心頁面屬於這一類。 這是他將使用元 noindex 的地方。
他認識到 John Mueller 曾說過 meta noindex 標籤最終會被視為 nofollow,但 Kevin 迄今為止從未見過這種情況發生在實際中。 他承認這可能是因為它需要很長時間才能發生(超過一年,或更長時間)。 相反,他傾向於發現 Googlebots 是“貪婪的”,並且會盡可能多地搜索和跟踪鏈接。
Kevin 的建議是使用 robots.txt,並充分利用它。 您可以使用通配符和一些非常複雜的技術來保護某些內容不被抓取。
要遵循的經驗法則是,內容越薄,就越有可能被排除在爬網之外。
如果頁面有內部鏈接或反向鏈接指向它們,則通過 robots.txt 被排除在抓取之外的頁面仍然可以被 Google 索引。 如果發生這種情況,搜索結果中的說明文本將顯示由於 robots.txt 的限制,Google 無法抓取該網頁。 不過,一般來說,這些頁面的排名並不高,除非它們最近才被排除在 robots.txt 中。
類似頁面導致的索引問題
– 典型錯誤
以編程方式,規範聲明非常容易出錯。 Kevin 見過幾次這樣的情況,即規範使用分號 (;) 而不是冒號 (:),然後您會遇到大量問題。
規範在某些情況下非常敏感,可能導致 Google 不信任您的所有規範,這可能是一個大問題。
然而,規範最常見的問題之一是被遺忘的規範。
– 站點遷移
站點遷移通常是規範問題的根源; Kevin 發現了網站剛剛忘記將新域添加到規範的問題。
這很容易忘記,尤其是當您的 CSM 需要手動(而不是編程)調整以在遷移期間進行更改時。
默認設置是頁面的規範應指向自身,除非有特定原因指向另一個 URL。
– HTTP 到 HTTPS
這是另一個常見的規範錯誤,它會阻止正確的 URL 被編入索引。 有時在規範中使用了錯誤的協議。
– 當 Google 忽略聲明的規範時查找錯誤源
谷歌有時會選擇自己的規範。 當他們不信任您聲明的規範時,通常有根本原因。
Kevin 建議避免您可能會向 Google 發送兩個相互衝突的信號的情況:
- 查看您的 XML 站點地圖
- 爬取你自己的網站並蒐索有缺陷的規範
- 查看 Search Console 中的參數設置以查找衝突設置
- 不要同時使用 noindex 和 canonical
導致索引膨脹的頁麵類型
在十年前的 SEO 中,您希望發送盡可能多的頁面進行索引:索引的頁面越多越好。
今天,情況已不再如此。 你只想要你店裡最優質的東西。 您不希望索引中有任何低於標準的內容。
“索引膨脹”通常用於描述不提供任何價值的頁麵類型。 這通常會回到任何類型的薄內容,特別是在您增加或放大現有頁面的數量而沒有在每個新頁面上提供實質性價值的情況下。
您可能希望查看有多少特定類型的頁面被編入索引以及它們是否提供額外價值的經典案例包括:
- 參數
- 分頁
- 論壇
- 目錄相關頁面或門口頁面
- 廣泛的本地(城市)頁面,不區分服務或內容
- 分面導航
索引如何影響整個網站
您現在不希望將低於標準的頁面編入索引,因為它們會影響 Google 如何看待和評價您的網站作為一個整體。
其中大部分是為了抓取預算。 雖然 Gary Illyes 和 John Mueller 經常說大多數網站不需要擔心抓取預算,但我們今天所進行的討論類型的受眾是更大的網站,這會產生很大的不同。
您要確保 Google 只找到高質量的內容。
就像 Kevin 觀察到的抓取率、索引和排名之間的關係一樣,他還觀察到關注索引頁面的質量似乎對整個網站都有好處。 雖然很難做出普遍的陳述,但 Google 似乎有某種網站質量指標,該指標取決於該網站的索引頁面。 換句話說,如果你有很多被索引的低質量內容,它似乎會傷害你的網站。
這就是索引膨脹有害的地方:它是一種稀釋或降低整體網站質量“分數”的方法,並且會浪費您的爬網預算。
用於快速索引的 XML 站點地圖
凱文的觀點是,隨著谷歌變得越來越聰明,“黑客”的數量隨著時間的推移而減少。
然而,在索引的主題上,他發現快速獲得索引的一種方法是使用 XML 站點地圖。
最近 G2 遷移到了一個新域。 他們有一種頁麵類型需要很長時間才能重新抓取,因此在 Google 的索引中,您仍然可以在此類頁面的片段中看到舊域。 當 Kevin 發現 301 重定向因為尚未被抓取而未被考慮在內時,他將所有此類頁面放入 XML 站點地圖,並在 Search Console 中將站點地圖提供給 Google。
如果 Kevin 希望 Google 盡快了解網站上的重大技術變化,也可以使用此策略。
技術搜索引擎優化的日益突出
技術搜索引擎優化在過去三年中獲得了突出地位。 很多時候,技術 SEO 問題突出了真正被低估的領域。
您經常聽說內容和反向鏈接是您唯一需要注意的事情。 雖然 Kevin 認為這些是 SEO 的超級影響力領域,但他認為如果您的技術 SEO 正確,它們會產生更大的影響。
[電子書] 可抓取性
問答
– Bing 和索引 10,000 個 URL/天
Bing 使網站管理員能夠通過其網站管理員工具每天直接提交多達 10,000 個 URL,從而加快索引速度。
凱文認為這也是谷歌可能會發展的方向。 即使是谷歌,作為世界上最有價值的公司之一,也必須保護他們的資源。 這就是為什麼如果你浪費了他們的爬取資源,他們會做出相應的調整的原因之一。
對於網站管理員來說,這種功能是否值得也取決於您網站的大小。 每天能夠提交如此多 URL 的網站數量是有限的——可能是數千或一萬個。 凱文推測,谷歌已經為這些網站投入了大量資源。 似乎對於網絡上最大的網站,谷歌在索引它們方面做得不錯,當然,通常的例外情況除外。
Bing 在這種規模上實現某些東西可能要容易得多:一方面,它們的市場份額要小得多,因此對這個功能的需求較少。 它們的索引大小也可能要小得多,因此它們可能會受益更多。
– 當谷歌忽略 robots.txt
谷歌很少忽略 robots.txt。
有時讓我們認為 Google 忽略 robots.txt 的原因是,正如我們之前談到的,Google 有時可以索引被 robots.txt 阻止的頁面,而這些頁面仍然可以通過多種其他方式找到。
如果您在 robots.txt 文件中的語法不正確,您也可以讓 Google 忽略 robots.txt 中的指令:
- 錯誤字符
- 使用不起作用或不應該起作用的標籤,例如 noindex 指令
[注:Kevin 引用了一個案例研究,該研究發現 Google 尊重 robots.txt 文件中的 noindex 指令。 然而,在本次網絡研討會播出後不久,Google 宣布終止在 robots.txt 文件中對該指令的默認支持,自 2019 年 9 月 1 日起生效。]
然而,谷歌是保持機器人高標準並且不忽略 robots.txt 的公司之一。
最重要的提示
“PageRank 是索引速度和數量背後的主要驅動力。”
Orbit 中的 SEO 進入太空
如果您錯過了 6 月 27 日的太空之旅,請點擊此處了解我們發送到太空的所有提示。