專業人士的分頁和規範化 – SMX Advanced 2012

已發表: 2012-06-07

這個技術會議是關於什麼的？以下是議程上的描述：

使用帶有可選參數、排序順序和過濾器的分頁標籤。還有理由使用 robots.txt 或 noindex 嗎？規範標籤真的可以代替 301 嗎？當您規範化默認頁面名稱時，如何使您的 IIS=based 站點免受無限重定向循環？那麼 rel=alternate href=lang 呢？我們將逐步解決這些問題，以便您清理網站上的雜亂無章，最大限度地進行爬網和索引，並消除重複內容的風險。

主持人：Vanessa Fox，特約編輯，Search Engine Land (@vanessafox)
問答主持人：Eric Enge，Stone Temple Consulting 首席執行官 (@stonetemple)
演講者：
RKG 總裁 Adam Audette (@audette)
PETCO SEO 經理 Jeff Carpenter (@SanDiegoSEO)
Maile Ohye，Google Inc. 高級開發程序工程師 (@maileohye)

Vanessa 對觀眾表示歡迎，並表示會有很多提問時間。 Adam Audette 開始演講。他真的很高興能出去玩。它真可愛。

分頁註意事項

最好的思考方式是：“一切都應該盡可能簡單，但不能簡單。” ——愛因斯坦

示例：Zales，一個大型電子商務網站。你有不同種類和頁面的產品。基於排序、頁面視圖和頁面，在爬網中有大量混淆的機會。輕鬆獲得 100 多個重複結果。

這有什麼大不了的嗎？是的，尤其是在熊貓之後——沒有可能的重複。

如何處理？

Noindex分頁方式：pages noindex，follow。問題是讓他們爬網
註釋：
用 noindex 註釋的第 2-N 頁，跟隨
第 2-N 頁自引用 rel 規範
第 2-N 頁包含唯一的標題、URL 和元數據

Rel prev/next 分頁技術：實現起來有點困難。在 noindex 排序將權益傳遞到第 1 頁作為排名候選者的情況下，rel next/prev 將頁面一起滾動到一個系列中。

更深的頁面仍在索引中，它們可以通過網站拉出：搜索並在 Google 認為相關結果時顯示。當 rel canonical 是自引用時，這是合適的，但當用於指向第 1 頁時，會出現衝突信號。

查看所有分頁要求
註釋：
第 2-N 頁指定查看全部為 rel 規範目標
優雅的解決方案
查看全部傾向於更好地轉換

Vanessa 解釋說，顯示產品的 AJAX 無限滾動也是一種很好的用戶體驗。

Quora 和 Twitter 都採用這種不斷加載和刷新的方法。 Googlebot 獲取前 500 個單詞。如果您想要抓取內容，這是一個潛在的問題。

建議：
當你有一個偉大的觀點時，這就是優雅的方式
當查看全部不是一個選項時，使用 rel next/prev
另外兩個選項：使用#hash 將參數附加到 RL，以及在用戶滾動時進行漸進式渲染

分面導航的 SEO

如果選擇了一個方面，請將其歸類為對用戶重要但對 SEO 不重要或對 SEO 重要。對每種情況進行不同的處理。無論如何選擇 URL，都強制使用相同的規範路徑。

缺點：
沒有解決任何減少爬網開銷的問題
勞動密集且容易出錯

Common rel canonical gotcha：當存在實際的規範版本時，非規範引用規範自身的重複。這是他們遇到的最常見的問題。

要點：
使用 rel canonical 表示首選 URL，而不是作為快捷方式
內部鏈路信號應一致
小心自引用 rel canonical

接下來是傑夫·卡彭特。他在 Petco.com 上有一個案例研究。基於分類的大量重複。每個子類別都有很多細化選項。網站重新設計重新分類類別，導航和 URL 結構發生變化。

解決方案：
減少細化選項。查看分析以查看已使用和未使用的改進。他們從 50 次改進到 12 次。
跨部門教育。跨部門的教育導致統一的 URL 格式被宣傳
實施規範標籤以匹配現場動態生成的導航。它創建了統一的 URL 格式並改進了分析數據。
利用 noindex，跟踪所有分頁頁面，減少現場重複內容問題的可能性。

結果：
6 個月內自然搜索的轉化率提高 13% 以上
減少 SERP 中低價值頁面的數量
整體排名上升——在 2 個月內監測的短語提高了約 20%
將 SERP 流量引導至產品列表頁面

Maile 將給予集體擁抱，解釋會議如何為她和她的團隊提供了有益的反饋。在這裡發言對 Google 的他們很有幫助。 2009 年，她舉辦了一場關於復制的會議，並解決了 PageRank 雕刻問題——很有趣。 2012 年，一個小組提出了多方面的導航問題。 2011 年，他們推出了改進的 URL 參數工具。

2011 年，REI 的一個小組提出了分頁問題，試圖將 rel canonical 用於非重複內容，這不是他們想要的。 Google rel next/prev 支持在 5 個月後發布。它幫助谷歌識別出比它自己檢測到的更多的序列。

網站管理員工具中的 URL 參數

她為博客文章和幫助中心文章沒有盡可能全面而道歉。

協助了解參數以更有效地抓取網站
更有效地抓取您的網站
節省帶寬
幫助更多獨特的新鮮內容被索引
有關刪除，請轉到 WMT 中的 URL 刪除

頁面被爬取後單獨應用的頁面級標記仍然被考慮在內
URL 參數可能是一個有用的提示，而不是指令

這是一個高級功能。有時，網站已經具有由 Google 確定的高抓取覆蓋率。不當操作可能會導致頁面未出現在搜索結果中。

問題：爬行效率低下
符合條件的網址：key=value&key2=value 2

第 1 步：指定不改變內容的參數
1、我有不影響頁面內容的參數（sessionID、affiliateID、trackingID）嗎？
可能標記為“不改變內容”。

步驟 2a：指定更改內容的參數
步驟 2b：指定 Googlebot 的首選行為

排序參數更改訂單內容的呈現方式。
1.整個站點的排序參數是可選的嗎？
2. 不顯示排序參數時，Googlebot 能發現所有有用的東西嗎？

如果兩者都是，則很可能使用您的參數，您可以指定“crawl No URLSs”。

驗證顯示的示例不是規範的，並且可以通過導航訪問規範。

或者，站點範圍內的相同排序值？
1. 每個類別都使用相同的排序值嗎？
2.當用戶改變排序值時，項目總數不變嗎？

如果是，很可能使用您的排序參數，您可以指定“僅具有值為 x 的 URL”，其中 x 是站點範圍內使用的排序值之一。

Narrows通過顯示總項目的子集來過濾頁面上的內容。

如果窄化參數顯示不太有用的內容，即來自沒有窄化參數的 URL 內容的子集，您可能可以指定“不抓取 URL”。

通過驗證示例中顯示的 URL 是否提供冗餘內容來仔細檢查。

指定參數決定頁面顯示的內容。

翻譯參數，除非您想排除某些語言在搜索結果中被抓取/可用，否則請指定“抓取每個 URL”。將語言放在子目錄或子文件夾中而不是參數中的最佳實踐，以幫助搜索引擎更容易理解站點結構。

分頁顯示多頁序列的組件頁面。使用抓取每個 URL。

一個 URL 中有多個參數呢？想像一下，所有 URL 都開始符合抓取條件，然後將每個設置應用為排除過程，而不是包含過程。
如果 URL 中的任何參數與 URL 參數設置匹配，如果匹配設置指定爬網沒有 URL，則不爬網。如果 URL 一直通過，它就會被抓取。

最佳實踐：
內部鏈接應僅包含規範 URL
在站點地圖中列出規範
有助於規範推廣
提供更準確的索引計數
頁面索引標記仍然很有幫助。 rel canonical，rel next/prev 可以串聯使用。
利用 URL 參數進行更有效的抓取