谷歌的抓取預算:它是如何工作的以及如何最大化你的

已發表: 2021-03-02

對於互聯網上的每個網站,谷歌都有一個固定的預算,用於確定他們的機器人可以並且願意抓取多少頁面。 互聯網是一個很大的地方,所以 Googlebot 只能花這麼多時間來抓取和索引我們的網站。 抓取預算優化是確保我們網站的正確頁面最終出現在 Google 索引中並最終顯示給搜索者的過程。

Google 對優化抓取預算的建議相當有限,因為 Googlebot 抓取大多數網站時都沒有達到其限制。 但是,擁有數千個登陸頁面的企業級和電子商務網站面臨著超出預算的風險。 2018 年的一項研究甚至發現,谷歌的爬蟲在實驗中未能爬取超過一半的大型網站的網頁。

影響抓取預算的使用方式對於戰略家來說可能是更難以實施的技術優化。 但是對於企業級和電子商務網站,盡可能地最大化抓取預算是值得的。 通過一些調整,網站所有者和 SEO 策略師可以指導 Googlebot 定期抓取和索引他們表現最好的頁面。

Google 如何確定抓取預算?

抓取預算本質上是 Google 願意花費在抓取您的網站上的時間和資源。 方程如下:

抓取預算 = 抓取率 + 抓取需求

域權限、反向鏈接、網站速度、抓取錯誤和登陸頁面的數量都會影響網站的抓取速度。 較大的站點通常具有較高的爬網率,而較小的站點、較慢的站點或具有過多重定向和服務器錯誤的站點通常爬網頻率較低。

谷歌還通過“抓取需求”來確定抓取預算。 熱門網址具有更高的抓取需求,因為谷歌希望為用戶提供最新鮮的內容。 谷歌不喜歡其索引中的陳舊內容,因此一段時間沒有被抓取的頁面也會有更高的需求。 如果您的網站進行網站遷移,Google 將增加抓取需求,以便更快地使用您的新網址更新其索引。

您網站的抓取預算可能會波動,而且肯定不是固定的。 如果您提高服務器託管或網站速度,Googlebot 可能會更頻繁地開始抓取您的網站,因為它知道這不會降低用戶的網絡體驗。 要更好地了解您網站當前的平均抓取速度,請查看您的 Google 搜索控制台抓取報告。

每個網站都需要擔心他們的抓取預算嗎?

只專注於獲得一些著陸頁排名的小型網站不需要擔心抓取預算。 但是較大的網站——尤其是頁面損壞和重定向過多的不健康網站——很容易達到其抓取限制。

最有可能超出其抓取預算的大型網站類型通常具有數万個登錄頁面。 特別是主要的電子商務網站通常會受到抓取預算的負面影響。 我遇到過多個企業網站,它們的大量著陸頁未編入索引,這意味著在 Google 中排名的機會為零。

電子商務網站特別需要更多地關注其抓取預算的去向,有幾個原因。

  • 許多電子商務網站以編程方式為他們的 SKU 或他們銷售產品的每個城市或州構建了數千個登陸頁面。
  • 當商品缺貨、添加新產品或發生其他庫存變化時,這些類型的網站會定期更新其登錄頁面。
  • 電子商務網站傾向於重複頁面(例如產品頁面)和會話標識符(例如 cookie)。 兩者都被 Googlebot 視為“低附加值”網址,這會對抓取速度產生負面影響

影響抓取預算的另一個挑戰是谷歌可能隨時增加或減少它。 儘管站點地圖是大型網站改進其最重要頁面的抓取和索引的重要步驟,但它不足以確保 Google 不會在價值較低或性能不佳的頁面上最大化您的抓取預算。

那麼站長如何進行爬取預算優化呢?

儘管網站所有者可以在其 Google Search Console 帳戶中設置更高的抓取限制,但該設置並不能保證增加抓取請求或影響 Google 最終抓取哪些頁面。 可能感覺最自然的解決方案是讓 Google 更頻繁地抓取您的網站,但是與增加的抓取速度直接相關的優化非常有限。

我們都知道,良好的預算並不是要增加您的支出限額。 這是關於在花錢的時候更有選擇性。 當您將相同的概念應用於抓取預算時,它可以產生巨大的結果。 以下是幫助 Google 充分利用您的預算的一些戰略步驟。

第 1 步:確定 Google 實際在您的網站上抓取了哪些頁面

直到最近,Google Search Console 的抓取報告只告訴網站所有者他們的網站在給定日期收到了多少抓取請求。 儘管 Google 的新抓取統計報告提供了更多關於抓取的詳細信息,但了解 Google 如何抓取您的網站的最佳位置仍然是您的服務器日誌文件。

當 Google 訪問您的網站時,他們會使用特定的用戶代理。 這讓您的服務器知道流量實際上是 Googlebot 而不是真人。

(你也會在那裡找到 Bingbot 和 Ahrefs 的機器人)。

Oncrawl 日誌分析器

用於機器人監控和爬網預算優化的日誌文件分析。 檢測網站健康問題並提高您的抓取頻率。
學到更多

分析此日誌文件內容的網站所有者將獲得有關 Google 對其網站的抓取預算的大量信息。 該文件將揭示一些內容:

  • 用戶代理訪問哪些頁面
  • 代理每天抓取多少頁面
  • 是否有任何已爬取的頁面是 404 或損壞的

理想情況下,您希望 Google 抓取您網站上針對最高價值關鍵字進行了優化的目標網頁。 此外,網站所有者不應將抓取預算浪費在 404 上。 Google Search Console 只會顯示您的一些軟 404 錯誤,但您可以在服務器日誌中識別所有這些錯誤。

獲得有關正在抓取您網站的哪些頁面的更多詳細信息後,請完成以下操作項:

  • 添加漫遊器標籤:如果 Googlebot 正在抓取那些 404 或損壞的頁面,則第一要務應該是添加漫遊器標籤 [noindex, nofollow] 以防止 Googlebot 抓取這些頁面並將其編入索引。
  • 調整您的站點地圖:如果您的服務器日誌顯示 Google 沒有抓取您潛在的高性能頁面,請將它們放在您的站點地圖中較高的位置,以確保它們被抓取。

第 2 步:接受並非所有目標網頁都需要在 Google 中排名的事實

這麼多企業級網站浪費抓取預算的主要原因是它們允許 Google 抓取其網站上的每個著陸頁。 許多網站甚至喜歡將所有頁面放入他們的移動應用程序中,以便 Google 可以找到並抓取所有頁面。 這是一個錯誤,因為實際上,並非我們所有的著陸頁都會排名。

在 Google 的索引中擁有一個著陸頁有什麼價值? 排名和轉換。 如果您的網站的著陸頁沒有通過對多個關鍵字進行排名或將網站訪問者轉化為潛在客戶和收入來發揮作用,為什麼還要冒險讓 Google 抓取它們呢?

企業級和電子商務網站所有者應該知道他們網站的哪些頁面是轉換優化的,並且最有可能獲得排名和轉換。 然後,他們應該利用一切可能的優勢來確保 Google 將抓取預算花在那些高性能頁面上。

您網站的具有高排名和轉化潛力的目標網頁值得花費抓取預算。 以下是一些提示,可確保 Googlebot 將這些網頁包含在您的預算中。

  • 減少站點地圖中的頁面數量。 只關注那些實際上有很大機會排名和獲得自然流量的頁面。
  • 刪除表現不佳或不必要的頁面。 刪除那些因為沒有排名、轉化或功能目的而沒有價值的頁面。
  • 內容修剪。 修剪實際上沒有獲得任何自然流量的頁面,並將它們重定向到您網站上相關且確實獲得流量的其他登陸頁面。 請注意,重定向確實會佔用您的抓取預算,因此請盡量少用它們,切勿連續使用兩次。

任何網站所有者都很難放棄內容,但阻止 Google 抓取某些頁面比讓 Google 增加您的總體抓取預算要容易得多。 如果您想明智地使用抓取預算,那麼清理您的網站以便 Google 的抓取工具更有可能找到並索引最好的內容是重中之重。

第 3 步:使用內部鏈接為 Google 的爬蟲提升高性能頁面

一旦您確定了 Google 正在抓取哪些頁面、添加了必要的漫遊器標籤、刪除或修剪了表現不佳的頁面,並對您的站點地圖進行了調整,Google 的抓取工具將更傾向於將預算花在您網站的正確頁面上。

但為了真正最大化預算,您的頁面需要具備排名所需的條件。 頁面 SEO 最佳實踐是關鍵,但更高級的技術策略是使用您的內部鏈接結構來提升那些潛在的高性能頁面。

就像 Googlebot 只有有限的抓取預算一樣,您的網站也只有基於其互聯網足蹟的一定數量的網站資產。 您有責任以聰明的方式集中您的資產。 這意味著將網站資產引導到那些定位關鍵字的頁面,這些關鍵字很有可能為您排名,以及那些為您帶來正確類型客戶流量的頁面,這些客戶可能會轉化並實際上具有經濟價值。

這種 SEO 策略被稱為 PageRank 雕刻。 如果您有一個擁有數千個登錄頁面的大型網站,高級策略師可以運行 SEO 實驗來優化您網站的內部鏈接配置文件,從而更好地分配 PageRank。 如果您是一個新網站,您可以通過將 PageRank 雕刻融入您的網站架構並在您創建的每個新著陸頁中考慮網站資產,從而領先一步。

以下是我最喜歡的兩種策略,用於分析我的頁面以確定哪些最能從 PageRank 雕刻中受益。

  • 找到您網站中流量不錯但 PageRank 不足的頁面。 想辦法讓這些頁面獲得更多內部鏈接並在那裡發送更多 PageRank。 將它們添加到網站的頁眉或頁腳是快速完成此操作的好方法,但不要過度使用導航菜單中的鏈接。
  • 專注於有很多內部鏈接,但沒有獲得太多流量、搜索印象和很少關鍵字排名的頁面。 接收大量內部鏈接的頁面通常包含大量 PageRank。 如果他們沒有使用 PageRank 為您的網站帶來自然流量,那麼他們就是在浪費它。 最好將 PageRank 移動到可以實際移動指針的頁面。

了解您網站上的每個鏈接所扮演的角色,不僅是在您的網站周圍發送 Googlebot,而且在分配您的鏈接資產方面,是抓取預算優化的最後一步。 正確設置內部鏈接結構可以顯著提高金錢頁面的排名。 最後,花費抓取預算的最佳方式是在最有可能將收入收入囊中的目標網頁上。

實施更改後,請注意 Google Search Console 工具中那些改進頁面的關鍵字排名。 如果這些頁面的排名有所提高,則表明您的抓取預算優化正在發揮作用。 然後,當您將新頁面添加到您的網站時,請更加謹慎地選擇它們是否應該耗盡您的抓取預算。 如果沒有,請繼續將爬蟲僅引導到對您的品牌最有效的頁面。