Rapporto sulle statistiche di scansione di Google e analisi del file di registro: qual è il vincitore?
Pubblicato: 2020-12-22Il 24 novembre, Google ha rilasciato una nuova versione del rapporto sulle statistiche di scansione di Search Console. Questo aggiornamento fornisce dati che puoi utilizzare per eseguire il debug dei problemi di scansione e controllare lo stato del tuo sito.
La versione precedente indica solo il numero di pagine scansionate al giorno, kilobyte scaricati al giorno, tempo impiegato per scaricare le pagine al giorno.
Con questa nuova versione, le stesse informazioni sono disponibili con un aspetto e un aspetto aggiornati per corrispondere al resto di Search Console:
Ma non si ferma qui. Google fornisce molte più informazioni su come scansionano il tuo sito. E con così tante informazioni disponibili direttamente da Google, si pone la domanda: abbiamo ancora bisogno dei file di registro?
Iniziamo osservando il nuovo rapporto stesso.
Tutto quello che devi sapere sul rapporto sulle statistiche di scansione di Google Search Console
Dove puoi trovare il nuovo rapporto sulle statistiche di scansione?
Il nuovo rapporto sulle statistiche di scansione è automaticamente disponibile per chiunque disponga di un account Google Search Console.
Accedi alla Search Console e vai su "Impostazioni" nella barra laterale di sinistra. Quindi fare clic su "Statistiche di scansione".
Cosa c'è nel nuovo rapporto sulle statistiche di scansione?
Per aiutarti a trovare la tua strada tra le nuove e complete informazioni, ti consigliamo la procedura dettagliata di Tomek Rudzki su Twitter:
Le nuove statistiche di GSC Crawl sono fantastiche!
Il primo screenshot è simile alla versione precedente del rapporto, ma ci sono gemme nascoste in altri rapporti
1/n pic.twitter.com/oCNzMhnGsQ— Tomek Rudzki (@TomekRudzki) 24 novembre 2020
Tomek evidenzia nuovi dati e casi d'uso SEO per ciascuno:
- Host con il maggior numero di hit di Googlebot: trova i sottodomini che vengono scansionati più frequentemente da Google.
- Codici di stato restituiti a Googlebot: scopri quale percentuale del tuo budget di scansione viene utilizzata da risposte diverse da 200 (ovvero: reindirizzamenti, pagine mancanti ed errori).
- Tipo di file: scopri la frequenza con cui Googlebot richiede file di risorse come file CSS, file JavaScript e immagini.
- Lo scopo della visita di Googlebot: scoprire se Google sta scoprendo nuovi contenuti o aggiornando contenuti di cui è già a conoscenza.
- La suddivisione tra le richieste effettuate dal Googlebot per smartphone e quelle effettuate dal Googlebot desktop: conferma se il tuo sito è pronto per il passaggio completo all'indicizzazione Mobile-First a marzo 2021.
- Un esempio di URL scansionati: fatti un'idea di alcuni degli URL scansionati di recente sul tuo sito.
- Stato host: una nuova metrica che mostra se il tuo server ha avuto problemi di recente. Ad esempio, ciò tiene conto della disponibilità di robots.txt e della risoluzione DNS.
Le nostre tre cose preferite del Crawl Stats Report
Ci sono troppi vantaggi offerti dal rapporto sulle statistiche di scansione per elencarli tutti, in particolare se non hai accesso ai file di registro. Ma ecco i nostri primi tre:
1. Questo rapporto è rivolto a tutti.
Fornisce statistiche di scansione di Googlebot di alto livello di facile lettura. È chiaro quando le cose stanno andando bene e quando ci sono problemi che potrebbero dover essere affrontati. In alcuni casi, va anche oltre: ad esempio, fornisce suggerimenti come gli indicatori di stato verde/giallo/rosso per lo stato dell'host.
Anche se non conosci il monitoraggio del budget di scansione e bot, non dovresti perderti quando guardi questi rapporti.
2. La documentazione è ottima.
La documentazione non solo risponde al 99% delle tue domande, ma fornisce anche best practice e suggerimenti per lo stato del server, segnali di pericolo, gestione della frequenza di scansione e operazioni di base su Googlebot.
3. Dati sul "perché" dietro le richieste di Googlebot
Possiamo tracciare Googlebot, ma molte conclusioni sul motivo per cui Google sta visitando una pagina devono essere tratte sulla base di dati limitati. La sezione Scansione per scopo e le richieste di rendering visibili in "Carico risorse pagina" forniscono una risposta non ambigua ad alcune delle nostre domande. Ora sappiamo con certezza se Google sta scoprendo una pagina, aggiornando la pagina o scaricando una risorsa in un secondo passaggio separato per eseguire il rendering della pagina.
[Case Study] Gestione della scansione dei bot di Google
Qual è la differenza tra le informazioni disponibili nei file di registro e il rapporto sulle statistiche di scansione?
Le statistiche di scansione sono limitate ai Googlebot
Statistiche di scansione: 0
Registri: 1
I file di registro del tuo server registrano ogni richiesta per uno qualsiasi dei file e delle risorse che compongono il tuo sito Web, indipendentemente da chi provenga. Ciò significa che i log possono dirti qualcosa di più di un semplice Googlebot.
Tuttavia, il rapporto sulle statistiche di scansione di Google è (naturalmente!) limitato all'attività di Google sul tuo sito.
Ecco alcune delle informazioni che puoi ottenere dai file di registro che non vengono visualizzati nelle statistiche di scansione:
- Informazioni su altri motori di ricerca, come Bing. Puoi vedere come scansionano il tuo sito, ma anche come il loro comportamento differisce o si allinea a quello di Googlebot:
Logflare è così utile. Interessante vedere il diverso comportamento di scansione di Googlebot rispetto ai Bingbot nei log in tempo reale. Googlebot vede 301 e quindi l'URL successivo restituito è l'URL reindirizzato ma Bingbot non sembra farlo. Vede solo il 301 e poi va da qualche altra parte
— Dawn Anderson (@dawnieando) 22 gennaio 2020
- Informazioni su quali strumenti (e concorrenti) stanno tentando di eseguire la scansione del tuo sito. Poiché le informazioni disponibili non sono limitate a Googlebot, puoi anche vedere se altri bot sono attivi sul tuo sito.
- Informazioni sulle pagine di riferimento. Questo può aiutarti a trovare maggiori informazioni sui tuoi backlink più attivi. In HTTPS, con ogni richiesta viene registrata anche l'ultima pagina visitata o la "pagina di riferimento".
- Informazioni sul traffico organico… e non solo sul traffico di Google! Utilizzando le pagine di riferimento, puoi identificare il traffico dalle pagine dei risultati dei motori di ricerca e vedere meglio come questi visitatori interagiscono con il tuo sito. Questo tipo di informazioni può essere utilizzato per confermare o correggere i numeri forniti dalla tua soluzione Analytics, se ne utilizzi una.
- Identificazione delle pagine orfane. Poiché i tuoi log contengono tutti gli URL richiesti dai visitatori, tutte le pagine "attive" con bot o traffico umano che non sono collegate nella struttura del tuo sito verranno visualizzate nei tuoi log. Confrontando un elenco di URL nei file di registro con un elenco di URL nella struttura del sito da una scansione, sarà facile individuare le pagine orfane.
Completo e aggiornato?
Statistiche di scansione: 0
Registri: 2
I tuoi dati sono completi e aggiornati? I tuoi registri sono. E le tue statistiche di scansione potrebbero esserlo.
Molte persone hanno notato rapidamente differenze del 20-40% tra il rapporto di Google Search Console e i loro file di registro: il rapporto Statistiche di scansione sottostima l'attività di Googlebot al momento. Questo è un problema noto nelle statistiche di scansione, ma non nei tuoi log!
Inoltre, come tutte le informazioni in Search Console, può esserci un ritardo tra l'ultima data disponibile dei dati e la data odierna. Finora, abbiamo riscontrato una differenza fino a otto giorni nel rapporto sulle statistiche di scansione.
D'altra parte, puoi utilizzare i tuoi file di registro per il monitoraggio in tempo reale: non c'è mai un ritardo!
Elenchi aggregati e completi di URL scansionati
Statistiche di scansione: 0
Registri: 3
Le statistiche di scansione forniscono dati aggregati per tutti i tuoi URL. Il report equivale a un dashboard. Quando vai a cercare l'elenco di URL dietro una determinata metrica, vedrai un elenco di "esempi". Ad esempio, potresti avere alcune centinaia di esempi delle tue richieste da 4,56K per i file di immagine:
Tuttavia, nei file di registro, hai un elenco completo degli URL dietro a qualsiasi metrica. Puoi vedere TUTTE le richieste nei tuoi log, non solo un campione.
Filtraggio per regioni, date, URL...
Statistiche di scansione: 0
Registri: 4
Per essere davvero utili, le statistiche di scansione potrebbero beneficiare di filtri più ampi che si applicano a tutte le richieste, non solo ai campioni:
Sarebbe bello avere una maggiore flessibilità per:
- Modifica l'intervallo di date che stiamo guardando
- Concentrati su una determinata regione geografica tramite la ricerca IP
- Filtra meglio per gruppi di URL
- Applica le opzioni di filtro ai grafici
Puoi fare tutto questo e molto altro nei file di registro.
Informazioni specifiche di Googlebot
Statistiche di scansione: 1
Registri: 4
Come abbiamo visto, Google utilizza il rapporto sulle statistiche di scansione per fornire informazioni sullo scopo della scansione:
- Aggiorna vs Scoperta
- Risorse della pagina (un recupero secondario)
Queste informazioni non possono essere trovate da nessun'altra parte, non importa quanto abilmente guardi i dati nei tuoi file di registro.
Facile accesso
Statistiche di scansione: 2
Registri: 4
L'accesso al rapporto Statistiche di scansione è semplice: le statistiche di scansione sono automaticamente disponibili per chiunque abbia accesso a Search Console.
Tecnicamente, i file di registro dovrebbero essere disponibili anche per qualsiasi webmaster. Ma spesso non è così. Spesso i team di sviluppo, i team IT o le aziende clienti non comprendono l'importanza di fornire l'accesso ai file di registro. In aree come l'UE, dove le leggi sulla privacy limitano l'accesso ai "dati di identificazione personale", come gli indirizzi IP, l'accesso ai file di registro può rappresentare un problema legale. È possibile utilizzare determinati strumenti, come OnCrawl, che non memorizza informazioni riservate.
Una volta che hai accesso ai file di registro, ci sono strumenti gratuiti per analizzare i dati e ci sono pochi formati proprietari. In altre parole, i file di registro sono una fonte di dati piuttosto democratica... una volta che ci metti le mani sopra.
È un dato di fatto: molti SEO hanno difficoltà ad accedere ai log. Quindi, mentre, in teoria, i file di registro forniscono un facile accesso ai dati, il punto su questo va al Crawl Stats Report, che è disponibile in due clic dallo strumento gratuito di Google.
Analizzatore di log in scansione
Non (ancora) disponibile per l'integrazione in altri strumenti e analisi
Statistiche di scansione: 2
Registri: 5
Google Search Console ti consente di esportare e scaricare le informazioni disponibili tramite l'interfaccia web del Crawl Stats Report. Ciò significa, tuttavia, che le informazioni scaricate hanno le stesse limitazioni delle versioni su schermo.
Inoltre, le statistiche di scansione non sono (ancora?) disponibili tramite l'API, quindi può essere difficile collegare queste informazioni a processi automatizzati per il reporting e l'analisi, o persino eseguirne il backup per una visione più ampia dei dati storici.
Con i file di registro, l'archiviazione, l'accesso e il riutilizzo dipendono generalmente da te. Ciò rende i file di registro molto più facili da usare durante l'unione con altre origini dati come il monitoraggio del ranking, i dati di scansione o i dati di analisi. Sono anche più facili da integrare nei flussi di reportistica, dashboard e visualizzazione dei dati.
Il vincitore finale: i file di registro!
Con cinque punti a soli due punti per il rapporto sulle statistiche di scansione, i file di registro sono il chiaro vincitore qui se desideri informazioni complete su come i motori di ricerca interagiscono con il tuo sito.
Ma siamo chiari: il rapporto sulle statistiche di scansione aggiornato fornisce molte nuove informazioni: codici di stato, tipi di file, sottodomini (per le proprietà del dominio), dettagli sullo stato dell'host e altro ancora. Ti offre approfondimenti più dettagliati e dati utilizzabili per capire come viene eseguita la scansione del tuo sito Web e ora puoi tenere traccia delle modifiche nei modelli di scansione.
Sarà un enorme passo avanti per le persone che non possono accedere ai file di registro propri o dei propri clienti.
Tuttavia, non sono tutti professionisti!
Pro e contro delle nuove statistiche di scansione GSC: https://t.co/bjpG7QjeVt
Professionisti:
+Metriche dei dati aggiornate
+Migliore UX (barra bassa TBH)
+Dati scaricabili degli URL scansionati!
+Esecuzioni delle richieste di scansione
+Sono stati rilevati importanti problemi con l'hostContro:
-Nessun filtro per gli intervalli di date
-Nessuna opzione di filtro per modificare i grafici— Micah Fisher-Kirshner (@micahfk) 24 novembre 2020
Gli aspetti negativi del nuovo rapporto sono che, sebbene sia un buon dashboard per il monitoraggio di Googlebot e un'ottima aggiunta per integrare l'analisi dei file di registro, è limitato in molti modi. Non dimenticare, solo i tuoi file di registro ti mostreranno tutte le tue richieste per URL piuttosto che una tendenza aggregata.
Inoltre, c'è un problema noto nel rapporto dell'SGC per cui alcune richieste non vengono conteggiate al momento e i dati possono richiedere, al momento della stesura di questo, fino a una settimana per essere visualizzati nel rapporto sulle statistiche di scansione. (Tuttavia, confidiamo che Google stia lavorando su questi problemi e presto scompariranno!)
Ecco cosa ti consigliamo: usa questo rapporto per sapere esattamente cosa cercare nei tuoi file di registro. E poi tuffati nell'analisi del registro!