专业人士的分页和规范化 – SMX Advanced 2012
已发表: 2012-06-07这个技术会议是关于什么的? 以下是议程上的描述:
使用带有可选参数、排序顺序和过滤器的分页标签。 还有理由使用 robots.txt 或 noindex 吗? 规范标签真的可以代替 301 吗? 当您规范化默认页面名称时,如何使您的 IIS=based 站点免受无限重定向循环? 那么 rel=alternate href=lang 呢? 我们将逐步解决这些问题,以便您清理网站上的杂乱无章,最大限度地进行爬网和索引,并消除重复内容的风险。
主持人:Vanessa Fox,特约编辑,Search Engine Land (@vanessafox)
问答主持人:Eric Enge,Stone Temple Consulting 首席执行官 (@stonetemple)
演讲者:
RKG 总裁 Adam Audette (@audette)
PETCO SEO 经理 Jeff Carpenter (@SanDiegoSEO)
Maile Ohye,Google Inc. 高级开发程序工程师 (@maileohye)
Vanessa 对观众表示欢迎,并表示会有很多提问时间。 Adam Audette 开始演讲。 他真的很高兴能出去玩。 它真可爱。
分页注意事项
最好的思考方式是:“一切都应该尽可能简单,但不能简单。” ——爱因斯坦
示例:Zales,一个大型电子商务网站。 你有不同种类和页面的产品。 基于排序、页面视图和页面,在爬网中有大量混淆的机会。 轻松获得 100 多个重复结果。
这有什么大不了的吗? 是的,尤其是在熊猫之后——没有可能的重复。
如何处理?
Noindex分页方式:pages noindex,follow。 问题是让他们爬网
注释:
用 noindex 注释的第 2-N 页,跟随
第 2-N 页自引用 rel 规范
第 2-N 页包含唯一的标题、URL 和元数据
Rel prev/next 分页技术:实现起来有点困难。 在 noindex 排序将权益传递到第 1 页作为排名候选者的情况下,rel next/prev 将页面一起滚动到一个系列中。
更深的页面仍在索引中,它们可以通过网站拉出:搜索并在 Google 认为相关结果时显示。 当 rel canonical 是自引用时,这是合适的,但当用于指向第 1 页时,会出现冲突信号。
查看所有分页要求
注释:
第 2-N 页指定查看全部为 rel 规范目标
优雅的解决方案
查看全部倾向于更好地转换
Vanessa 解释说,显示产品的 AJAX 无限滚动也是一种很好的用户体验。
Quora 和 Twitter 都采用这种不断加载和刷新的方法。 Googlebot 获取前 500 个单词。 如果您想要抓取内容,这是一个潜在的问题。
建议:
当你有一个伟大的观点时,这就是优雅的方式
当查看全部不是一个选项时,使用 rel next/prev
另外两个选项:使用#hash 将参数附加到 RL,以及在用户滚动时进行渐进式渲染
分面导航的 SEO
如果选择了一个方面,请将其归类为对用户重要但对 SEO 不重要或对 SEO 重要。 对每种情况进行不同的处理。 无论如何选择 URL,都强制使用相同的规范路径。
缺点:
没有解决任何减少爬网开销的问题
劳动密集且容易出错
Common rel canonical gotcha:当存在实际的规范版本时,非规范引用规范自身的重复。 这是他们遇到的最常见的问题。
要点:
使用 rel canonical 表示首选 URL,而不是作为快捷方式
内部链路信号应一致
小心自引用 rel canonical
接下来是杰夫·卡彭特。 他在 Petco.com 上有一个案例研究。 基于分类的大量重复。 每个子类别都有很多细化选项。 网站重新设计重新分类类别,导航和 URL 结构发生变化。
解决方案:
减少细化选项。 查看分析以查看已使用和未使用的改进。 他们从 50 次改进到 12 次。
跨部门教育。 跨部门的教育导致统一的 URL 格式被宣传
实施规范标签以匹配现场动态生成的导航。 它创建了统一的 URL 格式并改进了分析数据。
利用 noindex,跟踪所有分页页面,减少现场重复内容问题的可能性。

结果:
6 个月内自然搜索的转化率提高 13% 以上
减少 SERP 中低价值页面的数量
整体排名上升——在 2 个月内监测的短语提高了约 20%
将 SERP 流量引导至产品列表页面
Maile 将给予集体拥抱,解释会议如何为她和她的团队提供了有益的反馈。 在这里发言对 Google 的他们很有帮助。 2009 年,她举办了一场关于复制的会议,并解决了 PageRank 雕刻问题——很有趣。 2012 年,一个小组提出了多方面的导航问题。 2011 年,他们推出了改进的 URL 参数工具。
2011 年,REI 的一个小组提出了分页问题,试图将 rel canonical 用于非重复内容,这不是他们想要的。 Google rel next/prev 支持在 5 个月后发布。 它帮助谷歌识别出比它自己检测到的更多的序列。
网站管理员工具中的 URL 参数
她为博客文章和帮助中心文章没有尽可能全面而道歉。
协助了解参数以更有效地抓取网站
更有效地抓取您的网站
节省带宽
帮助更多独特的新鲜内容被索引
有关删除,请转到 WMT 中的 URL 删除
页面被爬取后单独应用的页面级标记仍然被考虑在内
URL 参数可能是一个有用的提示,而不是指令
这是一个高级功能。 有时,网站已经具有由 Google 确定的高抓取覆盖率。 不当操作可能会导致页面未出现在搜索结果中。
问题:爬行效率低下
符合条件的网址:key=value&key2=value 2
第 1 步:指定不改变内容的参数
1、我有不影响页面内容的参数(sessionID、affiliateID、trackingID)吗?
可能标记为“不改变内容”。
步骤 2a:指定更改内容的参数
步骤 2b:指定 Googlebot 的首选行为
排序参数更改订单内容的呈现方式。
1.整个站点的排序参数是可选的吗?
2. 不显示排序参数时,Googlebot 能发现所有有用的东西吗?
如果两者都是,则很可能使用您的参数,您可以指定“crawl No URLSs”。
验证显示的示例不是规范的,并且可以通过导航访问规范。
或者,站点范围内的相同排序值?
1. 每个类别都使用相同的排序值吗?
2.当用户改变排序值时,项目总数不变吗?
如果是,很可能使用您的排序参数,您可以指定“仅具有值为 x 的 URL”,其中 x 是站点范围内使用的排序值之一。
Narrows通过显示总项目的子集来过滤页面上的内容。
如果窄化参数显示不太有用的内容,即来自没有窄化参数的 URL 内容的子集,您可能可以指定“不抓取 URL”。
通过验证示例中显示的 URL 是否提供冗余内容来仔细检查。
指定参数决定页面显示的内容。
翻译参数,除非您想排除某些语言在搜索结果中被抓取/可用,否则请指定“抓取每个 URL”。 将语言放在子目录或子文件夹中而不是参数中的最佳实践,以帮助搜索引擎更容易理解站点结构。
分页显示多页序列的组件页面。 使用抓取每个 URL。
一个 URL 中有多个参数呢? 想象一下,所有 URL 都开始符合抓取条件,然后将每个设置应用为排除过程,而不是包含过程。
如果 URL 中的任何参数与 URL 参数设置匹配,如果匹配设置指定爬网没有 URL,则不爬网。 如果 URL 一直通过,它就会被抓取。
最佳实践:
内部链接应仅包含规范 URL
在站点地图中列出规范
有助于规范推广
提供更准确的索引计数
页面索引标记仍然很有帮助。 rel canonical,rel next/prev 可以串联使用。
利用 URL 参数进行更有效的抓取