將抓取和日誌數據結合起來的 5 個重要理由

已發表: 2018-03-27

在 SEO 社區中,對 SEO 中的日誌文件數據的了解越來越多。 日誌文件實際上是網站上發生的事情的唯一定性表示。 但我們仍然需要能夠讓他們有效地說話。

準確的 SEO 訪問和機器人行為存在於您的日誌文件中。 另一方面,抓取報告中的數據可以很好地了解您的現場表現。 在分析您的網站時,您需要結合您的日誌文件和抓取數據以突出顯示新維度。

本文將向您展示組合爬網和日誌文件數據的五種出色方法。 顯然,您還可以使用更多。

1#孤頁檢測和爬取預算優化

什麼是孤兒頁面? 如果一個 URL 出現在日誌中,但不在站點的體系結構中,則該 URL 稱為孤立 URL。

谷歌有一個巨大的索引! 隨著時間的推移,它會保留它已經在您的網站上發現的所有 URL,即使它們不再存在於架構中(slug 更改、刪除頁面、完整的站點遷移、錯誤的外部鏈接或轉換)。 顯然,讓 Google 抓取這些所謂的孤立頁面會對優化您的抓取預算產生影響。 如果過時的 URL 消耗了您的抓取預算,這會阻止其他 URL 更頻繁地被抓取,並且必然會對您的 SEO 產生影響。

在抓取您的網站時,OnCrawl 會遍歷所有鏈接以逐層深入地發現您網站的完整架構。 另一方面,在日誌文件監控期間,OnCrawl 編譯來自 Google 機器人點擊和 SEO 訪問的數據。

Google 已知的 URL 與架構中鏈接的 URL 之間的區別可能非常重要。 旨在糾正被遺忘或損壞的鏈接並減少孤立頁面的 SEO 優化是必不可少的。

摘要-孤兒-oncrawl

基於 Logs 和 Crawl 跨數據分析的 OnCrawl SEO 影響報告

上面的屏幕截圖提供了最先進的日誌和爬網數據。 您可以很快注意到:

  • 結構中有 25,990 個頁面——由我們的爬蟲找到,並考慮了它在網站上跟踪的所有鏈接;
  • Google 抓取了 73,058 個頁面——這是結構中的 3 倍;
  • 84%的爬取率——(OnCrawl爬取頁面+來自日誌的活躍頁面+谷歌爬取頁面)/谷歌爬取頁面;
  • 超過 6% 的內部頁面未被抓取——只需點擊黑桶即可在數據資源管理器中查看這些頁面的列表;
  • 60K 孤立頁面——結構中的頁面與 Google 抓取的頁面之間的差異;
  • 這些頁面上的 34K SEO 訪問 – 內部鏈接似乎存在問題!

最佳實踐:OnCrawl 讓您只需單擊即可探索每個圖表或指標背後的數據。 這樣,您將獲得一個可下載的 URL 列表,這些 URL 直接在您探索的範圍內進行過濾。

2#找出哪些網址消耗最多(或最少)的抓取預算

來自 Google 機器人訪問的所有事件都為 OnCrawl 數據平台所知。 這使您可以知道 - 對於每個 URL - 根據時間編譯的所有數據。
在數據資源管理器中,您可以為每個 URL 添加 bot hits 列(超過 45 天)以及按天和按機器人的命中,這是每天的平均值。 這些信息對於評估 Google 抓取預算的消耗很有價值。 您經常會發現此預算在所有站點上並不統一。

網址抓取預算

來自數據資源管理器的所有 URL 的列表,其中包含爬網指標並按每天的機器人點擊量進行過濾

事實上,某些因素可以觸發或減少爬網預算。 然後,我們在本文中建立了一個關於 Google 頁面重要性的最重要指標的列表。 深度、指向頁面的鏈接數量、關鍵字數量、頁面速度、InRank(內部流行度)影響機器人的爬行。 您將在以下段落中了解更多信息。

3#了解你最好的SEO頁面,你最差的SEO頁面並確定頁面的成功因素

使用數據資源管理器時,您可以訪問有關頁面的關鍵指標——但將數百行和指標放在一起比較可能會很複雜。 使用列來細分每天的機器人點擊和每天的 SEO 訪問是您數據挖掘的盟友。

  • 下載 CS – Bot Hits by Day 和 CS – SEO visit by day JSON 文件;
  • 將它們添加為新的分段。

事實上,您可以根據日誌分析產生的這兩個值創建分段,以便按組對您的頁面進行第一次分佈。 但您也可以過濾每組這些細分,以在每個 OnCrawl 報告中快速檢測哪些頁面未達到預期值。

在您的項目主頁上單擊“配置分段”按鈕。

配置分段

然後創建一個新的細分

創建分段

通過選擇“使用 JSON”容量並複制/粘貼您下載的文件來使用 JSON 導入。

上傳-json

現在,您可以使用每個報告的頂部菜單切換細分。

切換分段

所有 OnCrawl 報告中的實時分段更改

這將為您在每個圖形上提供您正在分析的指標的影響,並與按機器人點擊或 SEO 訪問分組的頁面相關。

在以下示例中,我們使用這些細分來了解 InRank 內部流行度的影響——基於深度鏈接的力量。 此外,機器人點擊和 SEO 訪問在同一軸上相關。

排名分佈命中日

每天按機器人點擊的 InRank 分佈

InRank-distribution-SEO-visits-day

每天按 SEO 訪問的 InRank 分佈

深度(來自主頁的點擊次數)顯然對機器人點擊和 SEO 訪問都有影響。

同樣,可以獨立選擇每個頁面組,以突出顯示點擊次數最多或訪問次數最多的頁面中的數據。

這允許快速檢測在優化後可以表現更好的頁面,例如頁面中的單詞數、深度或傳入鏈接的數量。

只需選擇正確的細分和您要分析的頁面組。

詞分佈機器人命中

頁面中包含每天命中 0 個機器人的組的單詞分佈

4# 確定閾值以最大化抓取預算和 SEO 訪問

更進一步,SEO 影響報告——抓取和日誌交叉數據分析——可以檢測有助於增加 SEO 訪問、抓取頻率或頁面發現的閾值。

字數對抓取頻率的影響

爬行頻率數字單詞

按字數的爬取頻率

我們注意到,當字數超過 800 時,爬取頻率翻倍。然後,當頁面中的字數超過 1200 字時,它也翻倍。

鏈接數對爬取率的影響

鏈接爬網頻率

整個網站內鏈接數量的爬取率

抓取比率數鏈接

網站特定部分(搜索頁面)的鏈接數量的抓取率

深度對頁面活躍度的影響

頁面生成 SEO 訪問

按深度生成(或不生成)SEO 訪問的頁面

您可以看到,在抓取和交叉日誌數據期間擁有正確的網站指標可以讓您立即檢測到需要哪些 SEO 優化來操縱 Google 的抓取並改善您的 SEO 訪問。

5# 確定 SEO 排名因素如何影響您的抓取頻率

想像一下,如果您能知道最大化您的 SEO 的目標價值是什麼? 這就是交叉數據分析的目的! 它允許您針對每個指標精確地確定在哪個閾值抓取頻率、抓取速率或活躍度上最大化。

我們在上面(在關於每頁字數和抓取頻率的示例中)看到存在抓取頻率觸發值。 必須針對每種類型的頁面分析和比較這些差距,因為我們正在尋找機器人行為或 SEO 訪問中的峰值。

如下所示:

抓取頻率鏈接範圍

抓取頻率在 100 多個鏈接上存在差距

爬行頻率加載時間

快速頁面上的抓取速度更好

排名搜索引擎優化訪問

搜索引擎優化訪問的第一個差距在 InRank 5,75 上,最好的是在 InRank 10(主頁)上

結合抓取和日誌數據,您可以打開 Google 黑盒並準確確定您的指標對機器人抓取和訪問的影響。 在對這些分析進行優化時,您可以在每次發佈時改進您的 SEO。 這種高級使用在時間上是持久的,因為您可以在每次交叉數據分析中檢測到要達到的新值。

您還想分享其他有關跨數據分析的技巧嗎?

開始免費試用