無處可藏:阻止搜索引擎蜘蛛的內容

已發表: 2022-06-12

TL;博士

  1. 如果您正在考慮從搜索引擎中排除內容,請首先確保您這樣做是出於正確的原因。
  2. 不要錯誤地假設您可以隱藏機器人無法理解的語言或格式的內容; 這是一種短視的策略。 使用 robots.txt 文件或 Meta Robots 標籤與他們保持聯繫。
  3. 不要忘記,僅僅因為您使用推薦的方法來阻止您的內容是安全的。 了解阻止內容如何使您的網站出現在機器人面前。

何時以及如何從搜索引擎索引中排除內容

SEO 的一個主要方面是讓搜索引擎相信您的網站是有信譽的,並為搜索者提供了真正的價值。 搜索引擎要確定您的內容的價值和相關性,他們必須設身處地為用戶著想。

現在,查看您網站的軟件具有某些限制,SEO 傳統上利用這些限制將某些資源隱藏在搜索引擎之外。 然而,這些機器人仍在繼續發展,並且在努力像人類用戶在瀏覽器上一樣查看您的網頁方面不斷變得更加複雜。 是時候重新檢查您網站上搜索引擎機器人無法使用的內容,以及這些內容無法使用的原因了。 機器人仍然存在限制,網站管理員有正當理由阻止或外部化某些內容。 由於搜索引擎正在尋找能夠為用戶提供優質內容的網站,因此讓用戶體驗指導您的項目,剩下的一切都會落實到位。

為什麼要完全阻止內容?

何時阻止搜索引擎蜘蛛
Steven Ferris (CC BY 2.0) 拍攝,已修改
  1. 私人內容。 將頁面編入索引意味著它們可以顯示在搜索結果中,因此對公眾可見。 如果您有私人頁面(客戶的帳戶信息、個人的聯繫信息等),您希望將它們排除在索引之外。 (一些 whois 類型的網站在 JavaScript 中顯示註冊人信息,以阻止爬蟲程序竊取個人信息。)
  2. 重複的內容。 無論是文本片段(商標信息、標語或描述)還是整個頁面(例如,您網站中的自定義搜索結果),如果您的內容顯示在您網站的多個 URL 上,搜索引擎蜘蛛可能會將其視為低質量. 您可以使用其中一個可用選項來阻止這些頁面(或頁面上的單個資源)被編入索引。 您可以讓它們對用戶可見,但在搜索結果中被阻止,這不會影響您希望在搜索中顯示的內容的排名。
  3. 來自其他來源的內容。 由第三方來源生成並在網絡上多個位置複製的內容(例如廣告)不是頁面主要內容的一部分。 如果該廣告內容在整個網絡中多次重複,則網站管理員可能希望阻止廣告被視為頁面的一部分。

這需要照顧為什麼,怎麼樣?

我很高興你問。 一種用於將內容排除在索引之外的方法是使用機器人無法解析或執行的語言從被阻止的外部源加載內容; 這就像當您向另一個成年人拼寫單詞時,因為您不希望房間裡的小孩知道您在說什麼。 問題是,在這種情況下蹣跚學步的孩子變得越來越聰明。 長期以來,如果您想對搜索引擎隱藏某些內容,您可以使用 JavaScript 來加載該內容,這意味著用戶可以得到它,而機器人不會。

但谷歌對他們希望用他們的機器人解析 JavaScript 一點也不害羞。 他們開始這樣做了; 網站管理員工具中的 Fetch as Google 工具允許您以 Google 機器人看到的方式查看各個頁面。

Fetch as Google Webmaster Tool 的屏幕截圖

如果您使用 JavaScript 來阻止您網站上的內容,您應該檢查此工具中的一些頁面; 很有可能,谷歌看到了。

但是請記住,僅僅因為 Google 可以在 JavaScript 中呈現內容並不意味著內容正在被緩存。 “獲取和渲染”工具向您展示機器人可以看到的內容; 要找出正在索引的內容,您仍然應該檢查頁面的緩存版本。

如何找到您網站的 Google 緩存的屏幕截圖

還有很多其他方法可以將人們討論的內容外部化:iframe、AJAX、jQuery。 但早在 2012 年,實驗表明 Google 可以抓取 iframe 中的鏈接; 所以就有了這種技術。 事實上,說機器人無法理解的語言的日子已經接近尾聲。

但是如果你禮貌地要求機器人避免看某些東西呢? 阻止或禁止 robots.txt 或 Meta Robots 標籤中的元素是防止元素或頁面被索引的唯一確定方法(缺少密碼保護服務器目錄)。

John Mueller 最近評論說,如果您禁止抓取您的 JavaScript,使用 AJAX/JSON 提要生成的內容將“對 [Google] 不可見”。 他進一步澄清說,簡單地阻止 CSS 或 JavaScript 不一定會損害您的排名:“絕對沒有簡單的‘CSS 或 JavaScript 不允許抓取,因此質量算法對網站的看法是負面的’關係。” 因此,將內容排除在索引之外的最佳方法是簡單地要求搜索引擎不要索引您的內容。 這可以是單個 URL、目錄或外部文件。

那麼,這將我們帶回到起點:為什麼。 在決定阻止您的任何內容之前,請確保您知道這樣做的原因以及風險。 首先,阻止您的 CSS 或 JavaScript 文件(尤其是那些對您的網站佈局有重大貢獻的文件)是有風險的; 除其他外,它還可以阻止搜索引擎查看您的網頁是否針對移動設備進行了優化。 不僅如此,在 Panda 4.0 推出之後,一些受到重創的網站能夠通過解除對 CSS 和 JavaScript 的阻止而反彈,這表明它們是谷歌阻止這些元素免受機器人攻擊的算法的專門目標。

您在阻止內容時遇到的另一種風險:搜索引擎蜘蛛可能無法看到被阻止的內容,但它們知道某些內容被阻止,因此他們可能被迫對內容是什麼做出假設。 例如,他們知道廣告通常隱藏在 iframe 甚至 CSS 中; 因此,如果您在頁面頂部附近有太多被阻止的內容,您就有被“Top Heavy”頁面佈局算法擊中的風險。 任何正在考慮使用 iframe 的網站管理員都應該強烈考慮首先諮詢信譽良好的 SEO。 (在此處插入無恥的 BCI 促銷。)