專業人士的分頁和規範化 – SMX Advanced 2012

已發表: 2012-06-07

這個技術會議是關於什麼的? 以下是議程上的描述:

使用帶有可選參數、排序順序和過濾器的分頁標籤。 還有理由使用 robots.txt 或 noindex 嗎? 規範標籤真的可以代替 301 嗎? 當您規範化默認頁面名稱時,如何使您的 IIS=based 站點免受無限重定向循環? 那麼 rel=alternate href=lang 呢? 我們將逐步解決這些問題,以便您清理網站上的雜亂無章,最大限度地進行爬網和索引,並消除重複內容的風險。

主持人:Vanessa Fox,特約編輯,Search Engine Land (@vanessafox)
問答主持人:Eric Enge,Stone Temple Consulting 首席執行官 (@stonetemple)
演講者:
RKG 總裁 Adam Audette (@audette)
PETCO SEO 經理 Jeff Carpenter (@SanDiegoSEO)
Maile Ohye,Google Inc. 高級開發程序工程師 (@maileohye)

Vanessa 對觀眾表示歡迎,並表示會有很多提問時間。 Adam Audette 開始演講。 他真的很高興能出去玩。 它真可愛。

分頁註意事項

最好的思考方式是:“一切都應該盡可能簡單,但不能簡單。” ——愛因斯坦

示例:Zales,一個大型電子商務網站。 你有不同種類和頁面的產品。 基於排序、頁面視圖和頁面,在爬網中有大量混淆的機會。 輕鬆獲得 100 多個重複結果。

這有什麼大不了的嗎? 是的,尤其是在熊貓之後——沒有可能的重複。

如何處理?

Noindex分頁方式:pages noindex,follow。 問題是讓他們爬網
註釋:
用 noindex 註釋的第 2-N 頁,跟隨
第 2-N 頁自引用 rel 規範
第 2-N 頁包含唯一的標題、URL 和元數據

Rel prev/next 分頁技術:實現起來有點困難。 在 noindex 排序將權益傳遞到第 1 頁作為排名候選者的情況下,rel next/prev 將頁面一起滾動到一個系列中。

更深的頁面仍在索引中,它們可以通過網站拉出:搜索並在 Google 認為相關結果時顯示。 當 rel canonical 是自引用時,這是合適的,但當用於指向第 1 頁時,會出現衝突信號。

查看所有分頁要求
註釋:
第 2-N 頁指定查看全部為 rel 規範目標
優雅的解決方案
查看全部傾向於更好地轉換

Vanessa 解釋說,顯示產品的 AJAX 無限滾動也是一種很好的用戶體驗。

Quora 和 Twitter 都採用這種不斷加載和刷新的方法。 Googlebot 獲取前 500 個單詞。 如果您想要抓取內容,這是一個潛在的問題。

建議:
當你有一個偉大的觀點時,這就是優雅的方式
當查看全部不是一個選項時,使用 rel next/prev
另外兩個選項:使用#hash 將參數附加到 RL,以及在用戶滾動時進行漸進式渲染

分面導航的 SEO

如果選擇了一個方面,請將其歸類為對用戶重要但對 SEO 不重要或對 SEO 重要。 對每種情況進行不同的處理。 無論如何選擇 URL,都強制使用相同的規範路徑。

缺點:
沒有解決任何減少爬網開銷的問題
勞動密集且容易出錯

Common rel canonical gotcha:當存在實際的規範版本時,非規範引用規範自身的重複。 這是他們遇到的最常見的問題。

要點:
使用 rel canonical 表示首選 URL,而不是作為快捷方式
內部鏈路信號應一致
小心自引用 rel canonical

接下來是傑夫·卡彭特。 他在 Petco.com 上有一個案例研究。 基於分類的大量重複。 每個子類別都有很多細化選項。 網站重新設計重新分類類別,導航和 URL 結構發生變化。

解決方案:
減少細化選項。 查看分析以查看已使用和未使用的改進。 他們從 50 次改進到 12 次。
跨部門教育。 跨部門的教育導致統一的 URL 格式被宣傳
實施規範標籤以匹配現場動態生成的導航。 它創建了統一的 URL 格式並改進了分析數據。
利用 noindex,跟踪所有分頁頁面,減少現場重複內容問題的可能性。

結果:
6 個月內自然搜索的轉化率提高 13% 以上
減少 SERP 中低價值頁面的數量
整體排名上升——在 2 個月內監測的短語提高了約 20%
將 SERP 流量引導至產品列表頁面

Maile 將給予集體擁抱,解釋會議如何為她和她的團隊提供了有益的反饋。 在這裡發言對 Google 的他們很有幫助。 2009 年,她舉辦了一場關於復制的會議,並解決了 PageRank 雕刻問題——很有趣。 2012 年,一個小組提出了多方面的導航問題。 2011 年,他們推出了改進的 URL 參數工具。

2011 年,REI 的一個小組提出了分頁問題,試圖將 rel canonical 用於非重複內容,這不是他們想要的。 Google rel next/prev 支持在 5 個月後發布。 它幫助谷歌識別出比它自己檢測到的更多的序列。

網站管理員工具中的 URL 參數

她為博客文章和幫助中心文章沒有盡可能全面而道歉。

協助了解參數以更有效地抓取網站
更有效地抓取您的網站
節省帶寬
幫助更多獨特的新鮮內容被索引
有關刪除,請轉到 WMT 中的 URL 刪除

頁面被爬取後單獨應用的頁面級標記仍然被考慮在內
URL 參數可能是一個有用的提示,而不是指令

這是一個高級功能。 有時,網站已經具有由 Google 確定的高抓取覆蓋率。 不當操作可能會導致頁面未出現在搜索結果中。

問題:爬行效率低下
符合條件的網址:key=value&key2=value 2

第 1 步:指定不改變內容的參數
1、我有不影響頁面內容的參數(sessionID、affiliateID、trackingID)嗎?
可能標記為“不改變內容”。

步驟 2a:指定更改內容的參數
步驟 2b:指定 Googlebot 的首選行為

排序參數更改訂單內容的呈現方式。
1.整個站點的排序參數是可選的嗎?
2. 不顯示排序參數時,Googlebot 能發現所有有用的東西嗎?

如果兩者都是,則很可能使用您的參數,您可以指定“crawl No URLSs”。

驗證顯示的示例不是規範的,並且可以通過導航訪問規範。

或者,站點範圍內的相同排序值?
1. 每個類別都使用相同的排序值嗎?
2.當用戶改變排序值時,項目總數不變嗎?

如果是,很可能使用您的排序參數,您可以指定“僅具有值為 x 的 URL”,其中 x 是站點範圍內使用的排序值之一。

Narrows通過顯示總項目的子集來過濾頁面上的內容。

如果窄化參數顯示不太有用的內容,即來自沒有窄化參數的 URL 內容的子集,您可能可以指定“不抓取 URL”。

通過驗證示例中顯示的 URL 是否提供冗餘內容來仔細檢查。

指定參數決定頁面顯示的內容。

翻譯參數,除非您想排除某些語言在搜索結果中被抓取/可用,否則請指定“抓取每個 URL”。 將語言放在子目錄或子文件夾中而不是參數中的最佳實踐,以幫助搜索引擎更容易理解站點結構。

分頁顯示多頁序列的組件頁面。 使用抓取每個 URL。

一個 URL 中有多個參數呢? 想像一下,所有 URL 都開始符合抓取條件,然後將每個設置應用為排除過​​程,而不是包含過程。
如果 URL 中的任何參數與 URL 參數設置匹配,如果匹配設置指定爬網沒有 URL,則不爬網。 如果 URL 一直通過,它就會被抓取。

最佳實踐:
內部鏈接應僅包含規範 URL
在站點地圖中列出規範
有助於規範推廣
提供更準確的索引計數
頁面索引標記仍然很有幫助。 rel canonical,rel next/prev 可以串聯使用。
利用 URL 參數進行更有效的抓取