2011 年要避免的 SEO 偽裝技術

已發表: 2011-01-27

Google Web Spam 負責人 Matt Cutts 在 2010 年底從 Ozzie 和 Emmy(The Matt Cutts “Catts”)中抽出時間通過 Twitter 為網站管理員和 SEO 發布了一些花絮,我肯定會將這些花絮添加到宿醉中在假期期間為一些黑帽公司提供服務。

谷歌將在 2011 年第一季度 [關注] 更多的偽裝。不僅僅是頁面內容很重要; 避免不同的標頭/重定向到 Googlebot 而不是用戶。

偽裝是一種用於向搜索引擎蜘蛛而不是向用戶的 Web 瀏覽器呈現不同內容、佈局、功能或標題(完全不同的頁面或頁面的部分組件,稱為馬賽克偽裝)的技術。

道德偽裝不是“黑帽”,但是,過去垃圾郵件發送者使用方法來操縱偽裝技術,為了清楚起見,我們將其稱為偽裝垃圾郵件,以玩弄(谷歌)算法。 這不是一個新現象。 一開始,meta keywords 標籤被垃圾郵件發送者濫用,因此現在不再是排名因素,並且 <noscript> 標籤也可能被懷疑,因為它過去也被濫用過(也許我們應該打開被濫用的 HTML 元素的避難所……)

首先,讓我說,如果可能的話,避免隱藏。 偽裝是一種高風險行為,如果必須實施,應以適當的道德方式進行,遵守 Google 的網站管理員指南,以確保您的網站不會受到處罰或從索引中刪除。

不幸的是,一些網站管理員可能不了解其後果,並在不知情的情況下無意中隱藏了內容、鏈接或整個網站。 本文概述了一些可能被(錯誤)解釋為偽裝垃圾郵件的常見現場功能。

請記住,Google 正在積極調查隱藏垃圾郵件和禁止網站進入其索引的實例。 他們還通過網站管理員工具向網站管理員發出通知,以跟踪對偽裝和不自然鏈接的檢測。 谷歌現在越來越擅長通過算法檢測隱藏垃圾郵件,即使 IP 傳送也不是萬無一失的,當然,谷歌總是鼓勵你的競爭對手在檢測到你的頁面有問題時使用垃圾郵件報告。

從算法上識別偽裝垃圾郵件需要搜索引擎比較通過兩種或更多種機制(例如,兩個或更多個 IP 範圍、用戶代理標識符或不同級別的 HTML/JavaScript 功能)獲得的單個網頁。 微軟在 2006 年底申請了一項專利,聲稱有一個系統可以幫助檢測隱藏的網頁。

自然,這就引出了一個問題,搜索引擎如何收集和分析網頁的兩個示例進行比較? 一些方法可能包括:

  • 部分內容區分,使用內容主題分析、頁面分割、潛在語義分析 (LSA)、關鍵字使用、頁面鏈接和其他頁面因素
  • 不同的 IP 地址/單獨的 IP 範圍或代理來分析網絡垃圾郵件
  • 不同的用戶代理(例如使用瀏覽器用戶代理來檢查隱藏的內容)
  • 來自網站管理員社區的垃圾郵件報告
  • 用戶測試
  • 分析超過 5 個鏈接重定向以檢查偽裝(可能通過 5 個鏈接重定向限制 PageRank、權威、信任等的索引和流量)
  • 改進了對 JavaScript 代碼的解釋(特別是評估包含鏈接或重定向的複雜和/或編碼的 JavaScript 函數)
  • 接受 cookie 的機制(可能與上面的 JavaScript 和重定向分析結合使用)

當然,可以將數據收集外包給另一家公司,以避免 IP 交付問題

在某些情況下,公司可能希望向其用戶提供不同或額外的信息。 例如:

  • 地理定位
  • 登錄用戶(定制主頁體驗等)
  • 推薦跟踪——例如,根據用戶的搜索引擎查詢向用戶提供反饋,例如突出顯示頁面上與查詢匹配的單詞
  • 手機和触控設備的設備偽裝
  • 針對特定瀏覽器或向後兼容性進行優化
  • 顯示優化(雖然這通常可以通過 CSS 控制)
  • 第一次點擊免費 - 或前五次免費點擊
  • A/B 或多變量測試
  • 虛 URL(鏈接隱藏)
  • 顯示年齡驗證(www.bacardi.com 結合使用用戶代理檢測和 cookie 向用戶顯示年齡驗證歡迎頁面,但允許搜索引擎訪問該網站。即使谷歌只有 14 歲)
  • 負載均衡
  • 字體替換(通過 sIFR 或 Cufon 等技術) - 注意:可能但不是谷歌預覽的最佳選擇(截至 2010 年 12 月)
  • SWF對象

確保您在使用上述任何方法或功能時考慮到 SEO 的影響,因為錯誤配置可能導致隱藏垃圾郵件或可能不是 SEO 的最佳選擇。

好的,所以這不是關於如何隱藏的教程; 它是“2011 年隱藏垃圾郵件禁止清單”,或者至少是 2011 年初要避免的技術或要解決的問題的提示。

某些形式的偽裝是故意的(例如 IP 傳遞或用戶代理偽裝),但是,許多形式的偽裝垃圾郵件可能是偶然的。 不經意間讓您被 Google 禁止的意外隱藏垃圾郵件類型是最令人擔憂的,因為網站管理員可能不知道這個問題。 即使是大公司有時也會出錯。

我們將在下面調查一些最常見的偽裝垃圾郵件技術,以教育和確保網站管理員和 SEO 可以確保他們的網站上沒有這些技術。

網站管理員通常通過三種方式隱藏來自用戶或搜索引擎的內容:

  1. IP-交付
  2. 用戶代理分析(您可以使用 Bruce Clay 的免費 SEO Cloaking 檢查器檢查用戶代理偽裝。
  3. 利用已知的搜索引擎行為,例如執行 JavaScript 或重定向,以及各種 HTML 元素的索引或蜘蛛能力

根據請求的網絡瀏覽器或搜索引擎蜘蛛的 IP 地址提供不同的內容。 [此處更詳細地介紹了 IP 交付。]

反向 DNS 和正向 DNS

反向 DNS 和正向 DNS 查找不是一種偽裝形式,但可用於查詢請求 IP 地址的 DNS 記錄。 Google 提供了有關如何驗證 Googlebot 的身份的詳細信息。

根據請求的網絡瀏覽器或搜索引擎蜘蛛的用戶代理提供不同的內容。 例如,Googlebot/2.​​1 (+http://www.google.com/bot.html) 或 Mozilla/5.0(Windows;U;MSIE 7.0;Windows NT 6.0;en-US)

Google 可能會將包含 JavaScript 的頁面編入索引,但可能不會遵循 JavaScript 重定向,但是我們看到 Google 對 JavaScript 代碼的解釋有了顯著改進(例如,>Google 預覽生成器呈現 JavaScript、AJAX、CSS3、框架和 iframe)。

網站管理員有時會在無法實現服務器端重定向時使用 JavaScript 重定向,無意中將 Googlebot 留在了第一頁並將網絡瀏覽器(遵循 JavaScript 重定向)發送到包含不同內容的第二頁,因此被標記為偽裝垃圾郵件。

請注意以下代碼:

<script type="text/javascript"> window.location="http://www.yoursite.com/second-page.html" </script>

添加到 HTML 頁面頭部的標籤,用於在設定的時間段後將用戶重定向到另一個頁面。 元刷新標籤在單獨使用時不被視為隱藏,但它可以與 JavaScript、框架或其他技術結合使用,以將用戶發送到與搜索引擎蜘蛛不同的頁面。

請注意以下代碼:

<meta http-equiv="refresh" content="0;url=http://www.yoursite.com/second-page.html">

雙重/多重元刷新或引用者隱藏

可以使用多個元刷新來隱藏來自附屬網站的推薦人。 避免鏈接任何類型的多個重定向,因為它可能對 SEO 產生負面影響,甚至可能違反您的附屬合作夥伴的服務條款 (TOS)

JavaScript 或 <noscript> 標記中的元刷新

好的,現在我們正在進入“黑帽”領域。 網站管理員不太可能將元刷新與 JavaScript 結合起來,除非它們做得不好。

這很容易被搜索引擎檢測到。 不要這樣做。

搜索引擎可能不會遵循多個鏈接重定向(根據 HTML 規範中的指南,推薦的數量設置為 5 個重定向)。 谷歌可能會遵循大約 5 個鏈接重定向。 網絡瀏覽器可能會跟隨更多。

多個背靠背重定向(尤其是結合不同類型的重定向 301、302、元刷新、JavaScript 等)會影響頁面加載時間,可能會影響 PageRank 的流量(甚至 301 重定向可能會看到一些 PageRank 衰減)並且可能被視為偽裝 -垃圾郵件。

我找不到有關 Web 瀏覽器將遵循多少重定向的任何數據,因此我創建了一個快速鏈接重定向腳本來測試我的機器上安裝的一些瀏覽器,並提供一些關於重定向的大致數量的統計信息(按重定向類型) . 我將腳本限制為最多 5000 個鏈接重定向。

網頁瀏覽器版本大約 301 個重定向大約 302 個重定向大約 # 的元刷新重定向大約 # 的 JavaScript 重定向
谷歌瀏覽器8.0.552.224 21 21 21 大於 5000
(限制未知)
IE瀏覽器8.0.6001.18702IC 11 11 大於 5000
(限制未知)
大於 5000
(限制未知)
火狐瀏覽器3.5.16 20 20 20 大於 3000
(限制未知,因為瀏覽器在 3000 次 JS 重定向後停止)
蘋果瀏覽器3.1.2 (525.21) 16 16 大於 5000
(限制未知)
大於 5000
(限制未知)

在編寫腳本時,我們認為我們將運行一個額外的測試並將重定向 URL 提交給 Google。 我們還從 Twitter 鏈接到腳本。 結果在下表中。

搜索引擎用戶代理主機 IP 大約 # 的 301 次重定向
Microsoft *假設基於 IP 範圍
Mozilla/4.0(兼容;MSIE 7.0;Windows NT 6.0)
65.52.17.79 25
谷歌
Mozilla/5.0(兼容;Googlebot/2.​​1;+http://www.google.com/bot.html)
66.249.68.249 5
雅虎
Mozilla/5.0(兼容;Yahoo! Slurp;http://help.yahoo.com/help/us/ysearch/slurp)
67.195.111.225 4
推特
推特機器人/0.1
128.242.241.94 3
領英
LinkedInBot/1.0(兼容;Mozilla/5.0;Jakarta Commons-HttpClient/3.1 +http://www.linkedin.com)
216.52.242.14 1
後排名
PostRank/2.0 (postrank.com)
204.236.206.79 0

儘管在這種情況下 Googlebot 只抓取了 5 個永久重定向,但可以公平地假設 Google 可能會實施基於抓取的驗證來測試超過 5 個重定向機器人限制的重定向,類似於上述 Microsoft 遵循大約 25 個鏈接重定向的方式。 注意:我們假設這是 Microsoft 擁有的 IP,基於來自 Domain Tools 的 IP Whois 信息。

框架允許網站管理員在 HTML 頁面中嵌入另一個文檔。 搜索引擎傳統上並不擅長將框架內容歸因於父頁面,從而使網站管理員能夠阻止搜索引擎看到頁面上的部分或全部內容。

Frames 和 iFrames 是合法的 HTML 元素(儘管從 SEO 的角度來看它們通常不是最佳實踐),但是它們也可以與其他技術結合使用來欺騙用戶。

帶有 JavaScript 重定向的幀

嵌入帶有 JavaScript 重定向的框架可能會將搜索引擎蜘蛛留在第一頁,並偷偷地將啟用 JavaScript 的用戶重定向到第二個“隱藏”頁面。

我想不出您選擇使用它的合理“白帽”理由。 這可能會導致處罰或禁令。 檢查框架文檔的源代碼,刪除此代碼或實施適當的 SEO 友好重定向。

<noscript> 標記旨在為 JavaScript 內容提供非 JavaScript 等效項,以便純文本瀏覽器和搜索引擎可以解釋更高級的內容形式。 <noscript> 標籤可能會受到一些懷疑,因為它過去曾被垃圾郵件發送者濫用。

構建 JavaScript/AJAX 功能並考慮到漸進增強,以便內容適合所有用戶並且不需要使用 <noscript> 標記。 如果您的網站使用 <noscript> 標記並且您無法更新代碼,請檢查以確保 <noscript> 標記中的任何文本、鏈接和圖像以準確、清晰和簡潔的方式準確描述其所代表的 JavaScript、AJAX 或 Flash 內容方式。

如果違規頁面或網站存在索引問題,請考慮修改 <noscript> 代碼,作為全面網站 SEO 審核的一部分。

內容交付網絡 (CDN) 允許公司將其靜態內容分發到多個地理位置,以提高最終用戶的性能。 根據 CDN 配置,有多種方法可以將客戶端請求路由到最佳可用源以提供內容。 CDN 是一個複雜的領域,通常由需要在盡可能快的時間內為用戶提供內容的全球公司實施。

如果您使用的是 CDN,請確保它允許搜索引擎訪問用戶看到的相同內容和信息,並確保沒有任何內容可能被搜索引擎誤解為具有欺騙性。

黑客利用常見 CMS 的漏洞將流量吸引到不道德的第三方網站。 一個例子是 WordPress Pharma Hack,它使用偽裝來向搜索引擎展示與藥物相關的內容,但對網站管理員隱藏該內容。

確保您的 CMS、Web 服務器和操作系統軟件正在運行最新版本並且它們已得到保護。 一些最常見的漏洞是密碼錯誤、不安全的軟件或腳本、心懷不滿的員工和社會工程技巧。

HTTP 標頭將有關請求頁面的附加信息發送到搜索引擎蜘蛛或 Web 瀏覽器。 例如,頁面狀態、緩存/過期信息、重定向信息等。

向搜索引擎發送不同的標頭以進行欺騙可能會導致處罰。 例如,用註冊表單替換高排名頁面上的優質內容並更改過期和/或緩存控制標頭以欺騙搜索引擎以使用優質內容維護高排名版本是行不通的。

Googlebot 可能會定期下載內容,而不考慮過期和緩存控制標頭,以驗證內容確實沒有更改。

您可以使用我們的免費 SEO 工具之一檢查服務器響應標頭的狀態。

引用谷歌的話:

“門口頁面通常是大量劣質頁面,其中每個頁面都針對特定關鍵字或短語進行了優化。 在許多情況下,門口頁面的編寫是為了對特定短語進行排名,然後將用戶引導到單個目的地”

來源:http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=66355

馬特·卡茨在這裡對門口的頁面大發雷霆。

多變量測試工具(例如 Google 網站優化器)允許您通過測試對網站內容和設計的更改來提高網站的有效性,從而提高轉化率(或衡量的其他重要指標)。

多變量測試是對偽裝的道德使用,但是,谷歌聲明:

“如果我們發現一個網站在幾個月內以 100% 的速度運行單個非原始組合,或者如果網站的原始頁面加載了與顯示給訪問者的組合無關的關鍵字,我們可能會刪除該網站來自我們的索引”。

不一定是垃圾郵件本身,而是一種誘餌和轉換技術,該技術 301 將不相關的域(通常是待售或已過期但仍具有 PageRank 或重要外部鏈接的域)重定向到關於完全不同主題的惡意或不相關域.https://www.youtube.com/watch?v=70LR8H8pn1Mhttps://searchengineland.com/do-links-from-expired-domains-count-with-google-17811

這會誤導用戶,因為他們可能期待不同的網站,並且可能會將不相關的錨文本傳遞到您的域。

此外,不要指望通過外部鏈接註冊過期域來獲得 PR 或鏈接提升。

從歷史上看,搜索引擎一直在努力有效地解釋和索引 Flash 內容,但它們一直在變得更好。

網站管理員必須考慮沒有啟用 Flash 的瀏覽器的用戶和搜索引擎,或者為搜索引擎構建一個“幕後”的標準 HTML 網站,使用 <noscript> 標記、JavaScript 或類似方法將其文本內容編入索引。 不幸的是,如果從 Flash 內容索引的內容與文本內容不匹配,這可能會無意中被搜索引擎識別為偽裝。

從 SEO 的角度來看,在 Flash 中構建整個網站仍然不是一個好主意,但是如果您確實有一些 Flash 內容,請考慮實施 SWFObject 或類似技術,以確保 Flash 為用戶和搜索引擎優雅地降級。

單獨的 Popover div 和廣告並不能隱藏。 當插頁式廣告或彈出式 div 無法關閉時(例如,除非用戶註冊),那麼您可能會向搜索引擎展示內容並向您的用戶展示註冊表單。

確保用戶可以關閉或跳過插頁式廣告、彈出窗口、彈出框、疊加 div、燈箱等並查看可用內容

AJAX(異步 JavaScript 和 XML)是 JavaScript 的一種形式,它使網頁能夠從服務器檢索動態內容而無需重新加載頁面。 它在過去幾年變得非常流行,並且經常(過度)用於許多 Web 2.0 應用程序中。

AJAX 可以以欺騙性的方式向用戶和搜索引擎呈現不同的內容——不要。

此外,硬幣的另一面,在“負面偽裝”方法中,用戶可能會看到內容,但搜索引擎不會,因為它無法執行從服務器檢索動態內容的 JavaScript 調用。 有什麼要檢查的。

本文中概述的許多技術可能會被組合、砍斷或操縱,以徒勞地欺騙搜索引擎。

一個這樣的例子是結合 JavaScript 和 Cookie 來隱藏內容。 如果 JavaScript 函數無法寫入或讀取 cookie(例如搜索引擎蜘蛛),則顯示與啟用 cookie 的標準用戶不同的內容。 還有一些 JQuery 腳本示例可以讓不道德的人這樣做。

鏈接隱藏是指使用某種形式的重定向將用戶發送到與單擊的 URL 不同的 URL。 正如我們在上面看到的,重定向可以用於好的和壞的。 鏈接隱藏通常用於分析或維護目的。 這樣做有許多實際原因,例如:

  • 在聯合 PDF 或應用程序中維護與關聯公司的鏈接。 使用類似的虛 URL 和上面的重定向,以確保如果會員更新其 URL 結構,您可以更新虛 URL 上的重定向,從而確保電子書和聯合內容中的鏈接仍然有效
  • 用於營銷和廣告材料的虛榮 URL,比 URL 的標準版本更容易記住

當然,這可能會被用來誤導和欺騙,例如偽裝附屬鏈接(例如將鏈接替換為 http://mysite.com/vanity-url 並將其重定向到 http://affiliate.com/offer.html ?=我的附屬代碼)。

使用 JavaScript 或類似機制修改錨文本或鏈接屬性以欺騙或欺騙用戶。 這是一種偽裝形式,它只修改頁面的一小部分來欺騙用戶。

  • 劫持 onClick 事件將用戶發送到搜索引擎的不同 URL
  • 將 rel=”nofollow” 屬性添加到顯示給搜索引擎的鏈接,並將其從顯示給用戶的代碼中刪除
  • 修改鏈接的錨文本以在發送給搜索引擎的錨文本中包含關鍵字,並向用戶顯示不同的內容

避免鏈接劫持來欺騙用戶,因為它可能導致搜索引擎處罰或讓您的網站被禁止。

這種技術有道德形式,可確保用戶和搜索引擎都可以按照 Google 博客上的建議使用 HiJAX 看到您的 AJAX 內容。

隱藏文字違反了 Google 的服務條款和網站管理員指南。 這是一種偽裝形式,因為搜索引擎可以看到文本內容,但用戶不能。 避免以下類型的隱藏文本:

  • 背景上難以辨認的文字(例如黑底深灰色)
  • 將字體大小設置為 0
  • 像標準正文一樣設置關鍵字豐富的錨文本,這樣用戶就不會意識到它是一個鏈接
  • 級聯樣式表 (CSS) 顯示:無
  • 圖片後面的文字。 始終是一個棘手的主題,並且經常在 SEO 之間進行辯論。 如果圖像後面的文本是圖像的準確和公平的表示(例如帶有自定義字體的標題),那麼引用 Matt Cutts 的話“應該沒問題”。 最終解決方案將取決於您的特定情況,但請查看以下資源以獲取一些指導:W3C:使用 CSS 將文本替換為圖像、法納圖像替換 (FIR)、可擴展 Inman Flash 替換 (sIFR)(請注意,sIFR 替換的文本可能自 2010 年 12 月起未出現在 Google Preview 中。)

如果搜索引擎流量對您很重要,請確保您考慮以下與偽裝相關的事項:

  • 確保您熟悉上述明顯和不那麼明顯的偽裝形式,並了解如何在您的網站上使用這些形式以避免任何潛在的處罰。
  • 如果您正在實施某種形式的偽裝,請確保從 SEO 的角度對其進行適當的審查,以避免潛在的處罰。