如何定義抓取預算?

已發表: 2016-09-14

我們都將其稱為 SEO,但抓取預算實際上是如何工作的? 我們知道搜索引擎在訪問我們客戶的網站時抓取和索引的頁面數量與他們在自然搜索中的成功相關,但是擁有更大的抓取預算總是更好嗎?

就像谷歌的一切一樣,我不認為你的網站抓取預算和排名/SERP 性能之間的關係是 100% 直接的,它取決於許多因素。

為什麼抓取預算很重要? 因為 2010 年的咖啡因更新。 通過這次更新,谷歌通過增量索引重建了它索引內容的方式。 引入“過濾器”系統,他們消除了被索引頁面的“瓶頸”。

Google 如何確定抓取預算?

這完全取決於您的 PageRank、引文流和信任流。

為什麼我沒有提到域權限? 老實說,在我看來,它是 SEO 和內容營銷人員最容易被濫用和誤解的指標之一,它有它的位置,但太多的機構和 SEO 對它過於重視,尤其是在建立鏈接時。

當然,PageRank 現在已經過時了,特別是因為他們已經放棄了工具欄,所以這一切都與網站的信任率有關(信任率 = 信任流量/引文流量)。 本質上,更強大的域具有更大的抓取預算,那麼您如何識別您網站上的 Google bot 活動,更重要的是,識別任何 bot 抓取問題? 服務器日誌文件。

現在我們都知道,為了向 Google 機器人指示我們索引(和排名)的頁面,我們使用內部鏈接結構並將它們靠近根域,而不是 URL 上的 5 個子文件夾。 但是更多的技術問題呢? 就像抓取預算浪費、機器人陷阱或者如果谷歌試圖在網站上填寫表格(它發生了)。

識別爬蟲活動

為此,您需要掌握一些服務器日誌文件。 您可能需要向您的客戶請求這些,或者您可以直接從託管公司下載它們。

這背後的想法是您想嘗試查找 Google 機器人訪問您網站的記錄 - 但由於這不是預定事件,您可能需要獲取幾天的數據。 有多種軟件可用於分析這些文件。

以下是 Apache 服務器的示例命中:

50.56.92.47 – – [31/​​May/2012:12:21:17 +0100] “GET” – “/wp-content/themes/wp-theme/help.php” – “404” “-” “Mozilla/ 5.0(兼容;Googlebot/2.​​1;+http://www.google.com/bot.html)” – www.hit-example.com

從這裡您可以使用工具(例如 OnCrawl)來分析日誌文件並識別問題,例如 Google 抓取 PPC 頁面或對 JSON 腳本的無限 GET 請求——這兩者都可以在 Robots.txt 文件中修復。

抓取預算何時成為問題?

抓取預算並不總是一個問題,如果您的網站有很多 URL 並且“抓取”的分配比例合理,那您就可以了。 但是,如果您的網站有 200,000 個 URL,而 Google 每天只在您的網站上抓取 2,000 個頁面怎麼辦? 谷歌最多可能需要 100 天才能注意到新的或刷新的 URL——現在這是一個問題。

查看您的抓取預算是否存在問題的一項快速測試是使用 Google Search Console 和您網站上的網址數量來計算您的“抓取數量”。

  • 首先你需要確定你的站點有多少頁面,你可以通過做一個站點來做到這一點:搜索,例如 oncrawl.com 在索引中大約有 512 個頁面:

  • 其次,您需要轉到您的 Google Search Console 帳戶並轉到 Crawl,然後是 Crawl Stats。 如果您的 GSC 帳戶未正確配置,您可能沒有此數據。
  • 第三步,將“每天抓取的頁面”平均數(中間那個)和您網站上的 URL 總數除以:

網站總頁數 / 每天抓取的平均頁數 = X

如果 X 大於 10,則需要考慮優化抓取預算。 如果它小於5,那就太好了。 您無需繼續閱讀。

優化您的“抓取預算”容量

您可以在互聯網上擁有最大的抓取預算,但如果您不知道如何使用它,那將一文不值。

是的,這是陳詞濫調,但這是真的。 如果 Google 抓取您網站的所有頁面並發現其中大部分是重複的、空白的或加載速度太慢,它們會導致超時錯誤,那麼您的預算也可能會被浪費掉。

要充分利用爬網預算(即使無法訪問服務器日誌文件),您需要確保執行以下操作:

刪除重複頁面

通常在電子商務網站上,諸如 OpenCart 之類的工具可以為同一產品創建多個 URL,我已經在 4 個 URL 上看到相同產品的實例,這些 URL 在目標和根目錄之間具有不同的子文件夾。

您不希望 Google 將每個頁面的多個版本編入索引,因此請確保您有適當的規範標籤將 Google 指向正確的版本。

解決斷開的鏈接

使用 Google Search Console 或抓取軟件,找到您網站上所有損壞的內部和外部鏈接並修復它們。 使用 301 非常棒,但如果它們是損壞的導航鏈接或頁腳鍊接,只需更改它們指向的 URL,而不依賴 301。

不要寫薄頁

避免在您的網站上有大量對用戶或搜索引擎幾乎沒有價值的頁面。 如果沒有上下文,Google 發現很難對頁面進行分類,這意味著它們對網站的整體相關性沒有任何貢獻,它們只是佔用抓取預算的乘客。

刪除 301 重定向鏈

鍊式重定向是不必要的、混亂的和被誤解的。 重定向鏈可能會以多種方式損害您的抓取預算。 當 Google 到達某個 URL 並看到 301 時,它並不總是立即跟隨它,而是將新 URL 添加到列表中然後跟隨它。

您還需要確保您的 XML 站點地圖(和 HTML 站點地圖)準確無誤,並且如果您的網站是多語言的,請確保您擁有網站每種語言的站點地圖。 您還需要實施智能站點架構、URL 架構並加速您的頁面。 將您的網站置於 CloudFlare 之類的 CDN 之後也是有益的。

TL;博士:

像任何預算一樣抓取預算是一個機會,理論上您是在使用您的預算來購買 Googlebot、Bingbot 和 Slurp 在您的網站上花費的時間,充分利用這段時間很重要。

抓取預算優化並不容易,而且肯定不是“速贏”。 如果您有一個小型站點或維護良好的中型站點,那麼您可能沒問題。 如果您有一個擁有數万個 URL 的網站龐然大物,並且服務器日誌文件超出了您的想像,那麼可能是時候請來專家了。

開始免費試用