2011 年要避免的 SEO 伪装技术
已发表: 2011-01-27Google Web Spam 负责人 Matt Cutts 在 2010 年底从 Ozzie 和 Emmy(The Matt Cutts “Catts”)中抽出时间通过 Twitter 为网站管理员和 SEO 发布了一些花絮,我确信这些花絮会添加到宿醉中在假期期间为一些黑帽公司提供服务。
谷歌将在 2011 年第一季度 [关注] 更多的伪装。不仅仅是页面内容很重要; 避免不同的标头/重定向到 Googlebot 而不是用户。
伪装是一种用于向搜索引擎蜘蛛而不是向用户的 Web 浏览器呈现不同内容、布局、功能或标题(完全不同的页面或页面的部分组件,称为马赛克伪装)的技术。
道德伪装不是“黑帽”,但是,过去垃圾邮件发送者使用方法来操纵伪装技术,为了清楚起见,我们将其称为伪装垃圾邮件,以玩弄(谷歌)算法。 这不是一个新现象。 一开始,meta keywords 标签被垃圾邮件发送者滥用,因此现在不再是排名因素,并且 <noscript> 标签也可能被怀疑,因为它过去也被滥用过(也许我们应该打开被滥用的 HTML 元素的避难所……)
首先,让我说,如果可能的话,避免隐藏。 伪装是一种高风险行为,如果必须实施,应以适当的道德方式进行,遵守 Google 的网站管理员指南,以确保您的网站不会受到处罚或从索引中删除。
不幸的是,一些网站管理员可能不了解其后果,并在不知情的情况下无意中隐藏了内容、链接或整个网站。 本文概述了一些可能被(错误)解释为伪装垃圾邮件的常见现场功能。
请记住,Google 正在积极调查隐藏垃圾邮件和禁止网站进入其索引的实例。 他们还通过网站管理员工具向网站管理员发出通知,以跟踪对伪装和不自然链接的检测。 谷歌现在越来越擅长通过算法检测隐藏垃圾邮件,即使 IP 传送也不是万无一失的,当然,谷歌总是鼓励你的竞争对手在检测到你的页面有问题时使用垃圾邮件报告。
从算法上识别伪装垃圾邮件需要搜索引擎比较通过两种或更多种机制(例如,两个或更多个 IP 范围、用户代理标识符或不同级别的 HTML/JavaScript 功能)获得的单个网页。 微软在 2006 年底申请了一项专利,声称有一个系统可以帮助检测隐藏的网页。
自然,这就引出了一个问题,搜索引擎如何收集和分析网页的两个示例进行比较? 一些方法可能包括:
- 部分内容区分,使用内容主题分析、页面分割、潜在语义分析 (LSA)、关键字使用、页面链接和其他页面因素
- 不同的 IP 地址/单独的 IP 范围或代理来分析网络垃圾邮件
- 不同的用户代理(例如使用浏览器用户代理来检查隐藏的内容)
- 来自网站管理员社区的垃圾邮件报告
- 用户测试
- 分析超过 5 个链接重定向以检查伪装(可能通过 5 个链接重定向限制 PageRank、权威、信任等的索引和流量)
- 改进了对 JavaScript 代码的解释(特别是评估包含链接或重定向的复杂和/或编码的 JavaScript 函数)
- 接受 cookie 的机制(可能与上面的 JavaScript 和重定向分析结合使用)
当然,可以将数据收集外包给另一家公司,以避免 IP 交付问题
在某些情况下,公司可能希望向其用户提供不同或额外的信息。 例如:
- 地理定位
- 登录用户(定制主页体验等)
- 推荐跟踪——例如,根据用户的搜索引擎查询向用户提供反馈,例如突出显示页面上与查询匹配的单词
- 手机和触控设备的设备伪装
- 针对特定浏览器或向后兼容性进行优化
- 显示优化(虽然这通常可以通过 CSS 控制)
- 第一次点击免费 - 或前五次免费点击
- A/B 或多变量测试
- 虚 URL(链接隐藏)
- 显示年龄验证(www.bacardi.com 结合使用用户代理检测和 cookie 向用户显示年龄验证欢迎页面,但允许搜索引擎访问该网站。即使谷歌只有 14 岁)
- 负载均衡
- 字体替换(通过 sIFR 或 Cufon 等技术) - 注意:可能但不是谷歌预览的最佳选择(截至 2010 年 12 月)
- SWF对象
确保您在使用上述任何方法或功能时考虑到 SEO 的影响,因为错误配置可能导致隐藏垃圾邮件或可能不是 SEO 的最佳选择。
好的,所以这不是关于如何隐藏的教程; 它是“2011 年隐藏垃圾邮件禁止清单”,或者至少是 2011 年初要避免的技术或要解决的问题的提示。
某些形式的伪装是故意的(例如 IP 传递或用户代理伪装),但是,许多形式的伪装垃圾邮件可能是偶然的。 不经意间让您被 Google 禁止的意外隐藏垃圾邮件类型是最令人担忧的,因为网站管理员可能不知道这个问题。 即使是大公司有时也会出错。
我们将在下面调查一些最常见的伪装垃圾邮件技术,以教育和确保网站管理员和 SEO 可以确保他们的网站上没有这些技术。
网站管理员通常通过三种方式隐藏来自用户或搜索引擎的内容:
- IP-交付
- 用户代理分析(您可以使用 Bruce Clay 的免费 SEO Cloaking 检查器检查用户代理伪装。
- 利用已知的搜索引擎行为,例如执行 JavaScript 或重定向,以及各种 HTML 元素的索引或蜘蛛能力
根据请求的网络浏览器或搜索引擎蜘蛛的 IP 地址提供不同的内容。 [此处更详细地介绍了 IP 交付。]
反向 DNS 和正向 DNS
反向 DNS 和正向 DNS 查找不是一种伪装形式,但可用于查询请求 IP 地址的 DNS 记录。 Google 提供了有关如何验证 Googlebot 的身份的详细信息。
根据请求的网络浏览器或搜索引擎蜘蛛的用户代理提供不同的内容。 例如,Googlebot/2.1 (+http://www.google.com/bot.html) 或 Mozilla/5.0(Windows;U;MSIE 7.0;Windows NT 6.0;en-US)
Google 可能会将包含 JavaScript 的页面编入索引,但可能不会遵循 JavaScript 重定向,但是我们看到 Google 对 JavaScript 代码的解释有了显着改进(例如,>Google 预览生成器呈现 JavaScript、AJAX、CSS3、框架和 iframe)。
网站管理员有时会在无法实现服务器端重定向时使用 JavaScript 重定向,无意中将 Googlebot 留在了第一页并将网络浏览器(遵循 JavaScript 重定向)发送到包含不同内容的第二页,因此被标记为伪装垃圾邮件。
请注意以下代码:
<script type="text/javascript"> window.location="http://www.yoursite.com/second-page.html" </script>
添加到 HTML 页面头部的标签,用于在设定的时间段后将用户重定向到另一个页面。 元刷新标签在单独使用时不被视为隐藏,但它可以与 JavaScript、框架或其他技术结合使用,以将用户发送到与搜索引擎蜘蛛不同的页面。
请注意以下代码:
<meta http-equiv="refresh" content="0;url=http://www.yoursite.com/second-page.html">
双重/多重元刷新或引用者隐藏
可以使用多个元刷新来隐藏来自附属网站的推荐人。 避免链接任何类型的多个重定向,因为它可能对 SEO 产生负面影响,甚至可能违反您的附属合作伙伴的服务条款 (TOS)
JavaScript 或 <noscript> 标记中的元刷新
好的,现在我们正在进入“黑帽”领域。 网站管理员不太可能将元刷新与 JavaScript 结合起来,除非它们做得不好。
这很容易被搜索引擎检测到。 不要这样做。
搜索引擎可能不会遵循多个链接重定向(根据 HTML 规范中的指南,推荐的数量设置为 5 个重定向)。 谷歌可能会遵循大约 5 个链接重定向。 网络浏览器可能会跟随更多。
多个背靠背重定向(尤其是结合不同类型的重定向 301、302、元刷新、JavaScript 等)会影响页面加载时间,可能会影响 PageRank 的流量(即使 301 重定向也可能会看到一些 PageRank 衰减)并且可能被视为伪装 -垃圾邮件。
我找不到任何关于 Web 浏览器将遵循多少重定向的数据,因此我创建了一个快速链接重定向脚本来测试我机器上安装的一些浏览器,并提供一些关于重定向的大致数量的统计信息(按重定向类型) . 我将脚本限制为最多 5000 个链接重定向。
网页浏览器 | 版本 | 大约 301 个重定向 | 大约 302 个重定向 | 大约 # 的元刷新重定向 | 大约 # 的 JavaScript 重定向 |
谷歌浏览器 | 8.0.552.224 | 21 | 21 | 21 | 大于 5000 (限制未知) |
IE浏览器 | 8.0.6001.18702IC | 11 | 11 | 大于 5000 (限制未知) | 大于 5000 (限制未知) |
火狐浏览器 | 3.5.16 | 20 | 20 | 20 | 大于 3000 (限制未知,因为浏览器在 3000 次 JS 重定向后停止) |
苹果浏览器 | 3.1.2 (525.21) | 16 | 16 | 大于 5000 (限制未知) | 大于 5000 (限制未知) |
在编写脚本时,我们认为我们将运行一个额外的测试并将重定向 URL 提交给 Google。 我们还从 Twitter 链接到脚本。 结果在下表中。
搜索引擎 | 用户代理主机 IP | 大约 # 的 301 次重定向 |
Microsoft *假设基于 IP 范围 Mozilla/4.0(兼容;MSIE 7.0;Windows NT 6.0) | 65.52.17.79 | 25 |
谷歌 Mozilla/5.0(兼容;Googlebot/2.1;+http://www.google.com/bot.html) | 66.249.68.249 | 5 |
雅虎 Mozilla/5.0(兼容;Yahoo! Slurp;http://help.yahoo.com/help/us/ysearch/slurp) | 67.195.111.225 | 4 |
推特 推特机器人/0.1 | 128.242.241.94 | 3 |
领英 LinkedInBot/1.0(兼容;Mozilla/5.0;Jakarta Commons-HttpClient/3.1 +http://www.linkedin.com) | 216.52.242.14 | 1 |
后排名 PostRank/2.0 (postrank.com) | 204.236.206.79 | 0 |
尽管在这种情况下 Googlebot 只抓取了 5 个永久重定向,但可以公平地假设 Google 可能会实施基于抓取的验证来测试超过 5 个重定向机器人限制的重定向,类似于上述 Microsoft 遵循大约 25 个链接重定向的方式。 注意:我们假设这是 Microsoft 拥有的 IP,基于来自 Domain Tools 的 IP Whois 信息。

框架允许网站管理员在 HTML 页面中嵌入另一个文档。 搜索引擎传统上并不擅长将框架内容归因于父页面,从而使网站管理员能够阻止搜索引擎看到页面上的部分或全部内容。
Frames 和 iFrames 是合法的 HTML 元素(尽管从 SEO 的角度来看它们通常不是最佳实践),但是它们也可以与其他技术结合使用来欺骗用户。
带有 JavaScript 重定向的帧
嵌入带有 JavaScript 重定向的框架可能会将搜索引擎蜘蛛留在第一页,并偷偷地将启用 JavaScript 的用户重定向到第二个“隐藏”页面。
我想不出您选择使用它的合理“白帽”理由。 这可能会导致处罚或禁令。 检查框架文档的源代码,删除此代码或实施适当的 SEO 友好重定向。
<noscript> 标记旨在为 JavaScript 内容提供非 JavaScript 等效项,以便纯文本浏览器和搜索引擎可以解释更高级的内容形式。 <noscript> 标签可能会受到一些怀疑,因为它过去曾被垃圾邮件发送者滥用。
构建 JavaScript/AJAX 功能并考虑到渐进增强,以便内容适合所有用户并且不需要使用 <noscript> 标记。 如果您的网站使用 <noscript> 标记并且您无法更新代码,请检查以确保 <noscript> 标记中的任何文本、链接和图像以准确、清晰和简洁的方式准确描述其所代表的 JavaScript、AJAX 或 Flash 内容方式。
如果违规页面或网站存在索引问题,请考虑修改 <noscript> 代码,作为全面网站 SEO 审核的一部分。
内容交付网络 (CDN) 允许公司将其静态内容分发到多个地理位置,以提高最终用户的性能。 根据 CDN 配置,有多种方法可以将客户端请求路由到最佳可用源以提供内容。 CDN 是一个复杂的领域,通常由需要在尽可能快的时间内为用户提供内容的全球公司实施。
如果您使用的是 CDN,请确保它允许搜索引擎访问用户看到的相同内容和信息,并确保没有任何内容可能被搜索引擎误解为具有欺骗性。
黑客利用常见 CMS 的漏洞将流量吸引到不道德的第三方网站。 一个例子是 WordPress Pharma Hack,它使用伪装来向搜索引擎展示与药物相关的内容,但对网站管理员隐藏该内容。
确保您的 CMS、Web 服务器和操作系统软件正在运行最新版本并且它们已得到保护。 一些最常见的漏洞是密码错误、不安全的软件或脚本、心怀不满的员工和社会工程技巧。
HTTP 标头将有关请求页面的附加信息发送到搜索引擎蜘蛛或 Web 浏览器。 例如,页面状态、缓存/过期信息、重定向信息等。
向搜索引擎发送不同的标头以进行欺骗可能会导致处罚。 例如,用注册表单替换高排名页面上的优质内容并更改过期和/或缓存控制标头以欺骗搜索引擎以使用优质内容维护高排名版本是行不通的。
Googlebot 可能会定期下载内容,而不考虑过期和缓存控制标头,以验证内容确实没有更改。
您可以使用我们的免费 SEO 工具之一检查服务器响应标头的状态。
引用谷歌的话:
“门口页面通常是大量劣质页面,其中每个页面都针对特定关键字或短语进行了优化。 在许多情况下,门口页面的编写是为了对特定短语进行排名,然后将用户引导到单个目的地”
来源:http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=66355
马特·卡茨在这里对门口的页面大发雷霆。
多变量测试工具(例如 Google 网站优化器)允许您通过测试对网站内容和设计的更改来提高网站的有效性,从而提高转化率(或衡量的其他重要指标)。
多变量测试是对伪装的道德使用,但是,谷歌声明:
“如果我们发现一个网站在几个月内以 100% 的速度运行单个非原始组合,或者如果网站的原始页面加载了与显示给访问者的组合无关的关键字,我们可能会删除该网站来自我们的索引”。
不一定是垃圾邮件本身,而是一种诱饵和转换技术,该技术 301 将不相关的域(通常是待售或已过期但仍具有 PageRank 或重要外部链接的域)重定向到关于完全不同主题的恶意或不相关域.https://www.youtube.com/watch?v=70LR8H8pn1Mhttps://searchengineland.com/do-links-from-expired-domains-count-with-google-17811
这会误导用户,因为他们可能期待不同的网站,并且可能会将不相关的锚文本传递到您的域。
此外,不要指望通过外部链接注册过期域来获得 PR 或链接提升。
从历史上看,搜索引擎一直在努力有效地解释和索引 Flash 内容,但它们一直在变得更好。
网站管理员必须考虑没有启用 Flash 的浏览器的用户和搜索引擎,或者为搜索引擎构建一个“幕后”的标准 HTML 网站,使用 <noscript> 标记、JavaScript 或类似方法将其文本内容编入索引。 不幸的是,如果从 Flash 内容索引的内容与文本内容不匹配,这可能会无意中被搜索引擎识别为伪装。
从 SEO 的角度来看,在 Flash 中构建整个网站仍然不是一个好主意,但是如果您确实有一些 Flash 内容,请考虑实施 SWFObject 或类似技术,以确保 Flash 为用户和搜索引擎优雅地降级。
单独的 Popover div 和广告并不能隐藏。 当插页式广告或弹出式 div 无法关闭时(例如,除非用户注册),那么您可能会向搜索引擎展示内容并向您的用户展示注册表单。
确保用户可以关闭或跳过插页式广告、弹出窗口、弹出框、叠加 div、灯箱等并查看可用内容
AJAX(异步 JavaScript 和 XML)是 JavaScript 的一种形式,它使网页能够从服务器检索动态内容而无需重新加载页面。 它在过去几年变得非常流行,并且经常(过度)用于许多 Web 2.0 应用程序中。
AJAX 可以以欺骗性的方式向用户和搜索引擎呈现不同的内容——不要。
此外,硬币的另一面,在“负面伪装”方法中,用户可能会看到内容,但搜索引擎不会,因为它无法执行从服务器检索动态内容的 JavaScript 调用。 有什么要检查的。
本文中概述的许多技术可能会被组合、砍断或操纵,以徒劳地欺骗搜索引擎。
一个这样的例子是结合 JavaScript 和 Cookie 来隐藏内容。 如果 JavaScript 函数无法写入或读取 cookie(例如搜索引擎蜘蛛),则显示与启用 cookie 的标准用户不同的内容。 还有一些 JQuery 脚本示例可以让不道德的人这样做。
链接隐藏是指使用某种形式的重定向将用户发送到与单击的 URL 不同的 URL。 正如我们在上面看到的,重定向可以用于好的和坏的。 链接隐藏通常用于分析或维护目的。 这样做有许多实际原因,例如:
- 在联合 PDF 或应用程序中维护与关联公司的链接。 使用类似的虚 URL 和上面的重定向,以确保如果会员更新其 URL 结构,您可以更新虚 URL 上的重定向,从而确保电子书和联合内容中的链接仍然有效
- 用于营销和广告材料的虚荣 URL,比 URL 的标准版本更容易记住
当然,这可能会被用来误导和欺骗,例如伪装附属链接(例如将链接替换为 http://mysite.com/vanity-url 并将其重定向到 http://affiliate.com/offer.html ?=我的附属代码)。
使用 JavaScript 或类似机制修改锚文本或链接属性以欺骗或欺骗用户。 这是一种伪装形式,它只修改页面的一小部分来欺骗用户。
- 劫持 onClick 事件将用户发送到搜索引擎的不同 URL
- 将 rel=”nofollow” 属性添加到显示给搜索引擎的链接,并将其从显示给用户的代码中删除
- 修改链接的锚文本以在发送给搜索引擎的锚文本中包含关键字,并向用户显示不同的内容
避免链接劫持来欺骗用户,因为它可能导致搜索引擎处罚或让您的网站被禁止。
这种技术有道德形式,可确保用户和搜索引擎都可以按照 Google 博客上的建议使用 HiJAX 看到您的 AJAX 内容。
隐藏文字违反了 Google 的服务条款和网站管理员指南。 这是一种伪装形式,因为搜索引擎可以看到文本内容,但用户不能。 避免以下类型的隐藏文本:
- 背景上难以辨认的文字(例如黑底深灰色)
- 将字体大小设置为 0
- 像标准正文一样设置关键字丰富的锚文本,这样用户就不会意识到它是一个链接
- 级联样式表 (CSS) 显示:无
- 图片后面的文字。 始终是一个棘手的主题,并且经常在 SEO 之间进行辩论。 如果图像后面的文本是图像的准确和公平的表示(例如带有自定义字体的标题),那么引用 Matt Cutts 的话“应该没问题”。 最终解决方案将取决于您的特定情况,但请查看以下资源以获取一些指导:W3C:使用 CSS 将文本替换为图像、法纳图像替换 (FIR)、可扩展 Inman Flash 替换 (sIFR)(请注意,sIFR 替换的文本可能自 2010 年 12 月起未出现在 Google Preview 中。)
如果搜索引擎流量对您很重要,请确保您考虑以下与伪装相关的事项:
- 确保您熟悉上述明显和不那么明显的伪装形式,并了解如何在您的网站上使用这些形式以避免任何潜在的处罚。
- 如果您正在实施某种形式的伪装,请确保从 SEO 的角度对其进行适当的审查,以避免潜在的处罚。