Come ottimizzare il tuo crawl budget
Pubblicato: 2017-07-05A maggio abbiamo tenuto un webinar in francese sul crawl budget di Google. Per il suo secondo webinar con OnCrawl, Erle Alberton, ex responsabile SEO di Orange & Sosh (un provider Internet francese) e ora Customer Success Manager di OnCrawl introduce il concetto di crawl budget, le migliori pratiche per ottimizzarlo, cosa evitare, ecc. esempi illustreranno questo concetto che è stato recentemente confermato dal team di Google.
Cosa dice Google sul crawl budget
A metà gennaio, Google ha pubblicato un articolo sul proprio blog affermando: "non abbiamo un solo termine che descriverebbe tutto ciò che "crawl budget" sta per esternamente. In altre parole, quello che noi SEO consideriamo il crawl budget.
Il gigante del web indica anche che se le tue nuove pagine vengono solitamente scansionate lo stesso giorno della loro pubblicazione, non devi davvero preoccuparti del budget di scansione. Afferma inoltre che se un sito ha meno di qualche migliaio di URL, verrà scansionato correttamente poiché il budget di scansione è solitamente riservato a siti ad alto volume... Questo è sia giusto che sbagliato perché tutti i siti in Google Search Console hanno un budget di scansione. Possiamo facilmente vederlo nelle metriche di Google.
Scopriamo anche in questo articolo che Google sta cercando di raggiungere un "limite di velocità di scansione" che limita la velocità di recupero massima per un determinato sito. Possiamo vedere che, ad esempio, quando un tempo di caricamento è troppo lungo, Google taglia il suo budget quasi in 2. Detto questo, ci sono fattori che possono influire sul crawl budget come una cattiva architettura (sistema, codici di stato, struttura interna ), contenuti scadenti e/o duplicati, trappole per ragni, ecc.
Come funziona il crawl budget di Google?
La scansione di Google è un insieme di semplici passaggi che operano in modo ricorsivo per ogni sito. Ecco un grafico di Google in cui vediamo che la scansione inizia con un colpo su un robot txt e poi si separa in una serie di URL che vengono compilati in un elenco. Dopodiché, Google tenta di recuperarli confrontandoli con gli URL che già conosce oltre a quelli che ha già nel backup.
Il suo obiettivo è completare in modo esaustivo e preciso il suo indice. Vediamo che anche se il sito è in JavaScript, Google invierà crawler di terzo livello. Dovresti comunque stare attento con i siti JavaScript, poiché consumano molte risorse bot e vengono inviati in media solo una volta al trimestre. Dobbiamo ripensare il nostro metodo in modo che Google abbia accesso a pagine al di fuori di una navigazione JavaScript.
Google verificherà quindi lo stato dell'aggiornamento della pagina (confronto con i contenuti indicizzati in precedenza) per valutare se la pagina è importante o meno importante. In effetti, Google ha bisogno di ottimizzare le sue risorse di scansione perché non può eseguire la scansione di tutte le pagine di tutti i siti web. Si chiama importanza della pagina… è un punteggio molto importante da seguire e che vedremo in dettaglio di seguito!
Fatto: se Google ottimizza, è perché c'è un motivo
Il budget di scansione dipende da:
- Capacità del sito di rispondere rapidamente;
- Sanità mentale del sito: 4xx, 5xx, 3xx (quando un sito inizia ad avere 404 o 500, il budget di scansione ne risentirà, perché verificherà sempre se sono state apportate correzioni);
- Qualità dei contenuti – semantica ed esaustività;
- La diversità di Anchor (una pagina è considerata importante quando riceve molti link. Con InRank di OnCrawl puoi analizzare il tutto);
- Popolarità della pagina: esterna e interna;
- Fattori ottimizzabili: semplificare la scansione (ridurre le dimensioni dell'immagine, la capacità di avere CSS, js, gif, caratteri, ecc.)
[Case Study] Aumenta il crawl budget su pagine strategiche
I componenti chiave di Google Page Importance
La definizione dell'importanza della pagina non è la stessa del Page Rank:
- Posizione della pagina nel sito Web: profondità sulla velocità di scansione;
- Page Rank: TF/CF di Page – Majestic;
- Page Rank interno – InRank di OnCrawl;
- Tipo di documento: PDF, HTML, TXT (il PDF è solitamente un documento qualitativo finale, quindi viene scansionato molto);
- Inclusione in sitemap.xml;
- Numero di collegamenti interni:
- qualità/importanza dell'ancora;
- Contenuti qualitativi: numero di parole, pochi quasi duplicati (Google penalizzerà contenuti simili se le pagine sono troppo vicine nei contenuti);
- Importanza della pagina “home”.
Come pianificare URL importanti da scansionare
Pianificazione degli URL: quali pagine desidera visitare Google e con quale frequenza?
Nell'esempio precedente, (osservazione di una frequenza di scansione di uno stesso sito) Google non esegue la scansione con la stessa frequenza sui diversi gruppi. Vediamo che quando Google esegue la scansione di parte del sito, l'impatto del ranking si vede rapidamente.
Ulteriori informazioni sul crawl budget di Google
- Il 100% dei siti Web di Google Search Console dispone di dati di scansione;
- Possiamo seguirne il comportamento di scansione grazie a un'analisi del log che ti aiuta a rilevare rapidamente un'anomalia nel comportamento del bot;
- Una cattiva struttura interna (impaginazione, pagine orfane, trappole per ragni) può impedire a Google di eseguire la scansione delle pagine giuste;
- Il budget di scansione è direttamente collegato al ranking.
Prima la velocità della pagina
Il fattore più importante è il tempo di caricamento di una pagina poiché gioca un ruolo decisivo nel crawl budget. In effetti, oggi siamo in un mondo mobile. La tua migliore risorsa è quindi il tempo di caricamento della pagina per ottimizzare il tuo crawl budget e il tuo SEO. Con la rivoluzione mobile, il tempo di caricamento è un fattore essenziale per valutare la qualità di un sito. La sua capacità di rispondere rapidamente, in particolare per i dispositivi mobili e indicizza prima i dispositivi mobili.
Per ottimizzarlo, possiamo utilizzare soluzioni CDN (Content Delivery Network) come Cloudflare. Queste soluzioni consentono ai robot di Google di essere il più vicino possibile alle risorse e di caricare le pagine il più rapidamente possibile.
Google verifica costantemente la capacità di un sito di rispondere rapidamente. L'architettura e la qualità della codifica hanno un forte impatto sulla notazione di Google.
Tempo di caricamento
È il primo fattore di allocazione del crawl budget!
Dal punto di vista del server , è necessario:
- Evita i reindirizzamenti;
- Autorizzare la compressione;
- Migliora i tempi di risposta.
Sopra, un esempio con il sito di Manageo che aveva un crawl budget lineare e dove possiamo vedere un aumento lineare. A maggio c'è un calo del numero di pagine scansionate al giorno e di conseguenza un cambiamento nella velocità del sito. Google vede che il sito risponde meno rapidamente, quindi dimezza il budget di scansione. Per correggere tutto questo, devi ottimizzare i tuoi codici lato server, ridurre i reindirizzamenti, usare la compressione e così via.
Frontalmente , devi:
- Aziona la memorizzazione nella cache del browser
- Riduci la dimensione delle risorse (ottimizzazione dell'immagine, usa CDN/lazy loading/elimina JS che bloccano la visualizzazione;
- Usa script asincroni.
Calo di qualità = niente più amore = niente più budget
È necessario controllare i codici di stato inviati ai robot di Google per assicurarsi che l'IS sia pulito. Questo è l'unico modo per Google di verificare che la qualità del tuo codice e della tua architettura sia pulita.
Il monitoraggio della loro evoluzione nel tempo garantisce che gli aggiornamenti del codice siano SEO friendly. Google spende molto in risorse (css, img, js), quindi assicurati che siano impeccabili.
Contenuti unici e ricchi
Più una pagina è importante, più ricco è il suo testo. Come mostrato sopra, il numero di pagine scansionate e non scansionate da Google è correlato al numero di parole presenti nella pagina. Le tue pagine dovrebbero quindi essere migliorate e aggiornate il più regolarmente possibile.
Fai attenzione ai canonici e ai contenuti duplicati
Google spenderà il doppio del budget quando due pagine simili non puntano allo stesso URL canonico. Pertanto, la gestione canonica può diventare critica per i siti con facet o per i collegamenti esterni con queryString.
La gestione dei contenuti quasi duplicati e canonici diventa un aspetto importante dell'ottimizzazione del crawl budget.
Struttura interna e distribuzione InRank
Le pagine che generano visite SEO sono considerate attive. Questi sono quelli che sono in cima all'architettura del sito. D'altra parte, vediamo qui che a pagina 15 c'è un gruppo di pagine emergente. Forse queste pagine sono molto più cercate dai tuoi utenti di quanto pensassi e avrebbero bisogno di essere aggiornate nell'architettura per migliorare il loro posizionamento.
Come sappiamo, più profonde sono le pagine, meno Google le visiterà!
Le mie pagine di denaro sono ben posizionate?
Suggerimento: se desideri ottimizzare la profondità di determinati gruppi di pagine, non esitare a creare planimetrie html, ovvero pagine cruciali per gestire la tua profondità.
Google confronterà le pagine della tua struttura con quelle scansionate e quelle attive. Detto questo, sarebbe a tuo vantaggio risolvere il problema delle pagine orfane per le quali Google spende inutilmente budget e sistemare l'architettura del sito per restituire link verso pagine attive ma fuori struttura.
A volte le pagine non ricevono più link, vengono chiamate pagine orfane. D'altra parte, Google non si è dimenticato di loro. Continuerà a visitarli. Non ricevono più link quindi perdono importanza, ma nel grafico di destra alcune pagine orfane continuano a ricevere visite SEO. Quello che devi sapere è come identificarli rapidamente e risolvere i problemi di collegamento presenti nell'architettura. Questo è un ottimo modo per ottimizzare il tuo crawl budget.
Errori da cui stare alla larga
- Robots.txt in 404;
- Sitemap.xml e sitemap.html scaduti;
- Errori 50x / 40x / soft 404;
- Avere reindirizzamenti di catena;
- Errori canonici;
- Contenuto duplicato (piè di pagina)/quasi duplicato/HTTP vs HTTPS;
- Tempo di risposta troppo lungo;
- La pesantezza della pagina è troppo importante;
- Errori AMP/. Questo protocollo è ampiamente utilizzato da Google soprattutto per i siti di e-commerce (non solo siti di media);
- Collegamento interno errato + Rel=nofollow;
- Utilizzo di JS senza altre alternative.
Conclusioni
Per ottimizzare il tuo crawl budget, devi:
- Conosci le tue pagine di denaro e conosci le reazioni di Google;
- Migliora il tempo di caricamento;
- Ottimizza i tuoi collegamenti interni: metti tutte le tue pagine di denaro in cima alla struttura;
- Correggi le tue pagine orfane;
- Aggiungi testo alle tue pagine di denaro;
- Aggiorna al massimo le tue pagine di denaro: freschezza;
- Riduci i tuoi contenuti scadenti e duplicati;
- Ottimizza i tuoi canonici, immagini, peso delle risorse;
- Evita reindirizzamenti a catena;
- Monitora i tuoi log e reagisci in caso di anomalie (dai un'occhiata a questo caso d'uso di Manageo durante SEOcamp Lyon sull'argomento).
Per ottimizzare il tuo crawl budget, devi monitorare con precisione il crawler di Google
Alcuni momenti del percorso di Google sul tuo sito sono più importanti di altri quindi devi sapere come ottimizzarli.
Per ottimizzare il tuo crawl budget, è necessario gestire correttamente la tua migrazione HTTPS (HTTP2).
Devi essere in grado di seguirlo e monitorarlo. Sfida i tuoi team IT a migrare a HTTP2 con HTTPS.
OnCrawl ti aiuta a tenere traccia del budget di scansione di Google su base giornaliera e individua rapidamente correzioni e modifiche strutturali per migliorare le prestazioni SEO.