如何優化您的抓取預算

已發表: 2017-07-05

5 月,我們針對 Google 的抓取預算舉辦了一次法語網絡研討會。 在 OnCrawl 的第二次網絡研討會上,Orange & Sosh(法國互聯網提供商)前 SEO 負責人 Erle Alberton 介紹了抓取預算概念、優化它的最佳實踐、應避免什麼等。實用示例將說明谷歌團隊最近確認的這一概念。

谷歌對抓取預算的評價

1 月中旬,谷歌在其博客上發表了一篇文章稱:“我們沒有一個單一的術語可以描述“抓取預算”在外部代表的所有內容。 ” 換句話說,我們 SEO 將其視為抓取預算。

這家網絡巨頭還表示,如果您的新頁面通常在其發布的同一天被抓取,那麼您實際上不必擔心抓取預算。 它還指出,如果一個網站的網址少於幾千個,它將被正確抓取,因為抓取預算通常是為大容量網站保留的……這既對又錯,因為谷歌搜索控制台中的所有網站都有抓取預算。 我們可以很容易地在 Google 指標中看到這一點。

我們還在這篇文章中發現,Google 正在嘗試實現“抓取速度限制”,以限制給定網站的最大抓取速度。 我們可以看到,例如,當加載時間太長時,Google 幾乎將其預算削減了 2。話雖如此,有一些因素會影響抓取預算,例如糟糕的架構(系統、狀態代碼、內部結構)、不良和/或重複的內容、蜘蛛陷阱等。

Google 的抓取預算如何運作?

Google 的抓取是一組簡單的步驟,可對每個站點遞歸操作。 這是來自谷歌的一張圖表,我們看到抓取從一個 txt 機器人的命中開始,然後它分成一組 URL,這些 URL 被編譯成一個列表。 之後,Google 會嘗試獲取它們,同時與他已經知道的 URL 以及他已經備份的 URL 進行比較。

它的目標是詳盡而準確地完成它的索引。 我們看到,即使網站是 JavaScript,Google 也會發送三級爬蟲。 您仍然應該小心 JavaScript 網站,因為它們會消耗大量機器人資源,並且平均每季度僅發送一次。 我們需要重新考慮我們的方法,以便 Google 可以訪問 JavaScript 導航之外的頁面。

然後,Google 將檢查頁面更新的狀態(與之前索引的內容進行比較),以評估該頁面是重要還是不重要。 確實,谷歌需要優化其抓取資源,因為它無法抓取所有網站的每一頁。 它被稱為頁面重要性……這是一個非常重要的分數,我們將在下面詳細了解!

事實:如果谷歌優化,那是有原因的

抓取預算取決於:

  • 站點快速回答的能力;
  • 網站的健全性 – 4xx、5xx、3xx(當網站開始有 404 或 500 時,抓取預算會受到影響,因為它總是會仔細檢查是否已進行修復);
  • 內容的質量——語義和詳盡;
  • Anchor 的多樣性(一個頁面在收到大量鏈接時被認為是重要的。使用OnCrawl 的 InRank您可以分析整個事情);
  • 頁面受歡迎程度——外部和內部;
  • 可優化因素——簡化爬取(減少圖像大小,擁有 css、js、gif、字體等的能力)

[案例研究] 增加戰略頁面的抓取預算

Manageo 的大部分流量來自自然搜索。 這種流量主要依賴於長尾搜索,因此需要同時針對數百萬個關鍵字進行優化。 抓取預算很快成為一個問題。
閱讀案例研究

Google Page Importance 的關鍵組件

頁面重要性定義與頁面排名不同:

  • 網站中的頁面位置 - 抓取率的深度;
  • 頁面排名:頁面的 TF/CF – Majestic;
  • 內部頁面排名 – OnCrawl 的 InRank;
  • 文檔類型:PDF、HTML、TXT(PDF 通常是最終定性文檔,因此會被大量抓取);
  • 包含在 sitemap.xml 中;
  • 內部鏈接數:
  • 錨的質量/重要性;
  • 定性內容:字數,幾乎沒有重複(如果頁面內容太接近,谷歌會懲罰相似的內容);
  • “主頁”頁面的重要性。

如何規劃要抓取的重要 URL

URL 調度: Google 想要訪問哪些頁面以及訪問頻率如何?

在上面的示例中,(觀察同一網站的抓取頻率)Google 不會以相同的頻率抓取不同的組。 我們看到,當谷歌抓取網站的一部分時,排名的影響很快就會顯現出來。

有關 Google 抓取預算的更多信息

  • Google Search Console 100% 的網站都有抓取數據;
  • 由於日誌分析可以幫助您快速檢測機器人行為中的異常,我們可以跟踪其爬取行為;
  • 糟糕的內部結構(分頁、孤立頁面、蜘蛛陷阱)可能會阻止 Google 抓取正確的頁面;
  • 抓取預算與排名直接相關。

頁面速度優先

最重要的因素是頁面的加載時間,因為它對抓取預算起著決定性的作用。 事實上,我們今天處於一個移動世界。 因此,您最好的資產是頁面的加載時間,以優化您的抓取預算和您的 SEO。 隨著移動革命,加載時間是評估網站質量的重要因素。 它的快速響應能力——尤其是對於移動和索引移動優先。

為了優化它,我們可以使用Cloudflare 等CDN 解決方案(內容交付網絡)。 這些解決方案可以讓 Google 的機器人盡可能靠近資源並儘可能快地加載頁面。

谷歌不斷測試網站快速響應的能力。 架構和編碼質量對 Google 的符號有很大的影響。

加載時間

這是抓取預算的第一個分配因素!

服務器方面,您需要:

  • 避免重定向;
  • 授權壓縮;
  • 提高響應時間。

上面是一個Manageo網站的示例,它具有線性抓取預算並且我們可以看到線性增長。 5 月,每天抓取的頁面數量有所下降,因此網站的速度發生了變化。 Google 發現該網站的響應速度較慢,因此將其抓取預算削減了一半。 要糾正這一切,您必須優化服務器端的代碼、減少重定向、使用壓縮等等。

正面看,您需要:

  • 操作瀏覽器緩存
  • 減少資源大小(圖片優化,使用CDN/延遲加載/刪除阻塞顯示的JS;
  • 使用異步腳本。

質量下降=沒有更多的愛=沒有更多的預算

有必要檢查發送回 Google 機器人的狀態代碼,以確保 IS 是乾淨的。 這是 Google 驗證您的代碼質量和架構是否乾淨的唯一方法。

隨著時間的推移跟踪它們的演變可確保代碼更新對 SEO 友好。 Google 在資源(css、img、js)上花費了大量資源,因此請確保它們完美無缺。

獨特而豐富的內容

一個頁面越重要,它的文本就越豐富。 如上圖,谷歌抓取和未抓取的頁面數量與頁面上的字數有關。 因此,您的頁面應盡可能定期進行增強和更新。

謹防規範和重複的內容

當兩個相似的頁面不指向同一個規範 URL 時,Google 將花費兩倍的預算。 因此,規範管理對於帶有構面的站點或帶有 queryString 的外部鏈接可能變得至關重要。

幾乎重複和規範的內容管理成為爬網預算優化的重要方面。

內部結構和 InRank 分佈

產生 SEO 訪問的頁面被認為是活躍的。 這些是位於網站架構頂部的那些。 另一方面,我們在這裡看到,在第 15 頁上出現了一組頁面。 也許這些頁面被您的用戶搜索的次數比您想像的要多得多,並且需要在架構中進行升級以提高他們的排名。

眾所周知,頁面越深,Google 訪問它們的次數就越少!

我的錢頁位置是否正確?

提示:如果您想優化某些頁面組的深度,請不要猶豫創建 html 站點計劃,這意味著頁面對於管理您的深度至關重要。

谷歌將比較你的結構頁面與抓取的頁面和活動的頁面。 也就是說,解決孤立頁面的問題對您有利,因為 Google 會為此花費不必要的預算,並修復網站的架構以返回指向活躍但結構外頁面的鏈接。

有時頁面不再接收鏈接,它們被稱為孤立頁面。 另一方面,谷歌並沒有忘記它們。 他將繼續拜訪他們。 他們不再接收鏈接,因此失去了重要性,但在右圖中,一些孤立頁面繼續接收 SEO 訪問。 您需要知道的是如何快速識別它們並修復架構中的鏈接問題。 這是優化抓取預算的好方法。

遠離的錯誤

  • 404 中的 Robots.txt;
  • Sitemap.xml & sitemap.html 已過期;
  • 50x / 40x / 軟 404 錯誤;
  • 有鍊式重定向;
  • 規範錯誤;
  • 重複內容(頁腳)/接近重複/HTTP vs HTTPS;
  • 響應時間過長;
  • 頁面重量太重要了;
  • AMP/ 錯誤。 該協議被谷歌廣泛使用,尤其是用於電子商務網站(不僅僅是媒體網站);
  • 內部鏈接錯誤 + Rel=nofollow;
  • 使用 JS 沒有任何其他選擇。

結論

要優化抓取預算,您需要:

  • 了解您的資金頁面並了解 Google 的反應;
  • 提高加載時間;
  • 優化您的內部鏈接:將您所有的資金頁面放在結構的頂部;
  • 修復您的孤立頁面;
  • 將文本添加到您的貨幣頁面;
  • 最大限度地更新您的貨幣頁面——新鮮度;
  • 減少不良內容和重複內容;
  • 優化您的規範、圖像、資源權重;
  • 避免鍊式重定向;
  • 監控您的日誌並在出現異常時做出反應(在 SEOcamp Lyon 期間查看 Manageo 的這個用例)。

為了優化您的抓取預算,您需要精確監控 Google 的抓取工具

Google 在您網站上的路徑的某些時刻比其他時刻更重要,因此您必須知道如何優化它們。

為了優化您的抓取預算,有必要正確管理您的 HTTPS (HTTP2) 遷移

您需要能夠跟踪和監控它。 挑戰您的 IT 團隊使用 HTTPS 遷移到 HTTP2。
OnCrawl 可幫助您每天跟踪 Google 的抓取預算,并快速定位修復和結構更改以提高您的 SEO 性能。

開始您的 14 天免費試用

親自了解為什麼 Oncrawl 是市場上最受認可的技術和數據 SEO 平台! 無需信用卡,也沒有附加條件:只需 14 天的全功能試用。
開始試用