专业人士的分页和规范化 – SMX Advanced 2012

已发表: 2012-06-07

这个技术会议是关于什么的？以下是议程上的描述：

使用带有可选参数、排序顺序和过滤器的分页标签。还有理由使用 robots.txt 或 noindex 吗？规范标签真的可以代替 301 吗？当您规范化默认页面名称时，如何使您的 IIS=based 站点免受无限重定向循环？那么 rel=alternate href=lang 呢？我们将逐步解决这些问题，以便您清理网站上的杂乱无章，最大限度地进行爬网和索引，并消除重复内容的风险。

主持人：Vanessa Fox，特约编辑，Search Engine Land (@vanessafox)
问答主持人：Eric Enge，Stone Temple Consulting 首席执行官 (@stonetemple)
演讲者：
RKG 总裁 Adam Audette (@audette)
PETCO SEO 经理 Jeff Carpenter (@SanDiegoSEO)
Maile Ohye，Google Inc. 高级开发程序工程师 (@maileohye)

Vanessa 对观众表示欢迎，并表示会有很多提问时间。 Adam Audette 开始演讲。他真的很高兴能出去玩。它真可爱。

分页注意事项

最好的思考方式是：“一切都应该尽可能简单，但不能简单。” ——爱因斯坦

示例：Zales，一个大型电子商务网站。你有不同种类和页面的产品。基于排序、页面视图和页面，在爬网中有大量混淆的机会。轻松获得 100 多个重复结果。

这有什么大不了的吗？是的，尤其是在熊猫之后——没有可能的重复。

如何处理？

Noindex分页方式：pages noindex，follow。问题是让他们爬网
注释：
用 noindex 注释的第 2-N 页，跟随
第 2-N 页自引用 rel 规范
第 2-N 页包含唯一的标题、URL 和元数据

Rel prev/next 分页技术：实现起来有点困难。在 noindex 排序将权益传递到第 1 页作为排名候选者的情况下，rel next/prev 将页面一起滚动到一个系列中。

更深的页面仍在索引中，它们可以通过网站拉出：搜索并在 Google 认为相关结果时显示。当 rel canonical 是自引用时，这是合适的，但当用于指向第 1 页时，会出现冲突信号。

查看所有分页要求
注释：
第 2-N 页指定查看全部为 rel 规范目标
优雅的解决方案
查看全部倾向于更好地转换

Vanessa 解释说，显示产品的 AJAX 无限滚动也是一种很好的用户体验。

Quora 和 Twitter 都采用这种不断加载和刷新的方法。 Googlebot 获取前 500 个单词。如果您想要抓取内容，这是一个潜在的问题。

建议：
当你有一个伟大的观点时，这就是优雅的方式
当查看全部不是一个选项时，使用 rel next/prev
另外两个选项：使用#hash 将参数附加到 RL，以及在用户滚动时进行渐进式渲染

分面导航的 SEO

如果选择了一个方面，请将其归类为对用户重要但对 SEO 不重要或对 SEO 重要。对每种情况进行不同的处理。无论如何选择 URL，都强制使用相同的规范路径。

缺点：
没有解决任何减少爬网开销的问题
劳动密集且容易出错

Common rel canonical gotcha：当存在实际的规范版本时，非规范引用规范自身的重复。这是他们遇到的最常见的问题。

要点：
使用 rel canonical 表示首选 URL，而不是作为快捷方式
内部链路信号应一致
小心自引用 rel canonical

接下来是杰夫·卡彭特。他在 Petco.com 上有一个案例研究。基于分类的大量重复。每个子类别都有很多细化选项。网站重新设计重新分类类别，导航和 URL 结构发生变化。

解决方案：
减少细化选项。查看分析以查看已使用和未使用的改进。他们从 50 次改进到 12 次。
跨部门教育。跨部门的教育导致统一的 URL 格式被宣传
实施规范标签以匹配现场动态生成的导航。它创建了统一的 URL 格式并改进了分析数据。
利用 noindex，跟踪所有分页页面，减少现场重复内容问题的可能性。

结果：
6 个月内自然搜索的转化率提高 13% 以上
减少 SERP 中低价值页面的数量
整体排名上升——在 2 个月内监测的短语提高了约 20%
将 SERP 流量引导至产品列表页面

Maile 将给予集体拥抱，解释会议如何为她和她的团队提供了有益的反馈。在这里发言对 Google 的他们很有帮助。 2009 年，她举办了一场关于复制的会议，并解决了 PageRank 雕刻问题——很有趣。 2012 年，一个小组提出了多方面的导航问题。 2011 年，他们推出了改进的 URL 参数工具。

2011 年，REI 的一个小组提出了分页问题，试图将 rel canonical 用于非重复内容，这不是他们想要的。 Google rel next/prev 支持在 5 个月后发布。它帮助谷歌识别出比它自己检测到的更多的序列。

网站管理员工具中的 URL 参数

她为博客文章和帮助中心文章没有尽可能全面而道歉。

协助了解参数以更有效地抓取网站
更有效地抓取您的网站
节省带宽
帮助更多独特的新鲜内容被索引
有关删除，请转到 WMT 中的 URL 删除

页面被爬取后单独应用的页面级标记仍然被考虑在内
URL 参数可能是一个有用的提示，而不是指令

这是一个高级功能。有时，网站已经具有由 Google 确定的高抓取覆盖率。不当操作可能会导致页面未出现在搜索结果中。

问题：爬行效率低下
符合条件的网址：key=value&key2=value 2

第 1 步：指定不改变内容的参数
1、我有不影响页面内容的参数（sessionID、affiliateID、trackingID）吗？
可能标记为“不改变内容”。

步骤 2a：指定更改内容的参数
步骤 2b：指定 Googlebot 的首选行为

排序参数更改订单内容的呈现方式。
1.整个站点的排序参数是可选的吗？
2. 不显示排序参数时，Googlebot 能发现所有有用的东西吗？

如果两者都是，则很可能使用您的参数，您可以指定“crawl No URLSs”。

验证显示的示例不是规范的，并且可以通过导航访问规范。

或者，站点范围内的相同排序值？
1. 每个类别都使用相同的排序值吗？
2.当用户改变排序值时，项目总数不变吗？

如果是，很可能使用您的排序参数，您可以指定“仅具有值为 x 的 URL”，其中 x 是站点范围内使用的排序值之一。

Narrows通过显示总项目的子集来过滤页面上的内容。

如果窄化参数显示不太有用的内容，即来自没有窄化参数的 URL 内容的子集，您可能可以指定“不抓取 URL”。

通过验证示例中显示的 URL 是否提供冗余内容来仔细检查。

指定参数决定页面显示的内容。

翻译参数，除非您想排除某些语言在搜索结果中被抓取/可用，否则请指定“抓取每个 URL”。将语言放在子目录或子文件夹中而不是参数中的最佳实践，以帮助搜索引擎更容易理解站点结构。

分页显示多页序列的组件页面。使用抓取每个 URL。

一个 URL 中有多个参数呢？想象一下，所有 URL 都开始符合抓取条件，然后将每个设置应用为排除过程，而不是包含过程。
如果 URL 中的任何参数与 URL 参数设置匹配，如果匹配设置指定爬网没有 URL，则不爬网。如果 URL 一直通过，它就会被抓取。

最佳实践：
内部链接应仅包含规范 URL
在站点地图中列出规范
有助于规范推广
提供更准确的索引计数
页面索引标记仍然很有帮助。 rel canonical，rel next/prev 可以串联使用。
利用 URL 参数进行更有效的抓取