[Webinar Digest] SEO in Orbit: sbloccare i segreti dell'indicizzazione

Pubblicato: 2019-11-06

Il webinar Sbloccare i segreti dell'indicizzazione fa parte della serie SEO in Orbit ed è andato in onda il 12 giugno 2019. In questo episodio, Kevin Indig condivide i suoi pensieri sull'indicizzazione delle pagine, su come le pagine indicizzate per un sito influenzano l'intero sito classifiche e quali pagine non devono essere indicizzate. Qual è l'approccio giusto verso questo passaggio intermedio tra la scoperta delle pagine e la loro visualizzazione sulle SERP?

SEO in Orbit è la prima serie di webinar che invia SEO nello spazio. Durante la serie, abbiamo discusso del presente e del futuro della SEO tecnica con alcuni dei migliori specialisti SEO e inviato i loro migliori consigli nello spazio il 27 giugno 2019.

Guarda il replay qui:

Presentando Kevin Indig

Kevin Indig ha aiutato le startup ad acquisire oltre 100 milioni di utenti negli ultimi 10 anni. È VP SEO & CONTENT @ G2, un mentore per Growth @ GermanAccelerator e in precedenza ha gestito SEO @ Atlassian e Dailymotion. La sua specialità è l'acquisizione di utenti, la costruzione del marchio e la fidelizzazione degli utenti. Le aziende con cui Kevin ha lavorato includono eBay, Eventbrite, Bosch, Samsung, Pinterest, Columbia, UBS e molte altre. Gestisce anche la newsletter di marketing tecnico curata, Tech Bound.

Questo episodio è stato presentato da Rebecca Berbel, Content Manager di OnCrawl. Affascinata dalla PNL e dai modelli macchina del linguaggio in particolare, e dai sistemi e dal modo in cui funzionano in generale, Rebecca non è mai a corto di argomenti di cui entusiasmarsi per i SEO tecnici. Crede nell'evangelizzazione della tecnologia e nell'utilizzo dei dati per comprendere le prestazioni del sito Web sui motori di ricerca.

Definizioni

Uno dei motivi per cui è importante parlare di indicizzazione è che si tratta di un argomento complesso. Molti SEO lottano con l'indicizzazione e come influenzarla.

– Strisciando

La scansione in termini semplici è il processo di scoperta tecnica dei motori di ricerca che comprende una pagina Web e tutti i suoi componenti.

Questo aiuta Google a trovare tutti gli URL che può quindi tornare indietro e visualizzare, quindi indicizzare e infine classificare.

– Il processo in 3 fasi di Google

La scansione fa parte del processo in 3 fasi di Google che porta alla creazione di risultati di ricerca:

  1. Strisciando
  2. Rendering
  3. Indicizzazione

Si tratta di processi tecnicamente diversi, gestiti da programmi diversi o parti del motore di ricerca.

La classifica è potenzialmente un quarto passo in questo processo.

– Indicizzazione

L'indicizzazione è il processo in cui Google aggiunge URL al suo lungo "elenco" di possibili risultati. Se Kevin deve evitare la parola "indice" in una definizione di indicizzazione, preferirebbe parlare di una "lista" metaforica: Google ha una "lista" di URL che può utilizzare per classificare e mostrare i migliori risultati agli utenti .

- Log files

I server Web conservano una cronologia ogni volta che qualcuno o qualcosa richiede una pagina o una risorsa sul server.

Kevin è davvero appassionato di file di registro come fonte di verità quando si tratta di capire come Google esegue la scansione e il rendering del tuo sito.

Nei log possiamo trovare informazioni sul server sulla frequenza con cui Google visita il tuo sito e cosa fa lì, in termini molto chiari e semplici. I file di registro contengono record individuali di ogni visita al sito.

Puoi ottenere un sacco di informazioni dai file di registro:

  • Errori specifici del codice di stato
  • Problemi con la scansione
  • Problemi con il rendering
  • Quanto tempo trascorre Googlebot sul tuo sito
  • Quali Googlebot arrivano sul tuo sito. Ad esempio, con l'indice Mobile First è stato recentemente aggiornato il principale Googlebot utilizzato per l'indicizzazione.
  • Se la struttura tecnica del tuo sito è qualcosa che segue Google o se hai qualcosa che può essere ottimizzato.

Modi per controllare l'indicizzazione

– Non consigliato: query "sito:".

Quando Kevin ha iniziato a fare SEO circa 10 anni fa, vedeva quali pagine del suo sito venivano indicizzate eseguendo ricerche "site:" su Google. Anche se a volte lo usa ancora, non è più un modo affidabile per scoprire se un URL è indicizzato.

Più recentemente, ha chiesto a John Mueller di questa strategia; ha verificato che questo non è più un modo consigliato per controllare ciò che Google ha o non ha indicizzato.

– Consigliato: ispezione dell'URL di Search Console

John Mueller consiglia invece di utilizzare l'URL Inspection Tool nella Search Console per verificare cosa è stato indicizzato.

– Consigliato: Sitemap XML e Coverage Report

L'invio di una mappa del sito XML in Search Console è un modo per controllare un batch dei tuoi URL e quindi controllare la mappa del sito nel rapporto sulla copertura nella console di ricerca.

Importanza nel distinguere tra crawl-render-index

Come accennato, esiste un processo in 3 fasi in cui Google esegue la scansione, il rendering e l'indicizzazione di una pagina. È molto importante distinguere tra ciascuno di questi passaggi. Man mano che il Web diventa più sofisticato, Google ha dovuto adattare, separare e migliorare questi processi individualmente.

Googlebot diversi

Più Googlebot vengono utilizzati da Google per eseguire la scansione e il rendering di siti Web. Hai diversi tipi di risorse: immagini, video, notizie, testo... Google utilizza diversi Googlebot per comprendere ogni tipo di contenuto.

Google ha annunciato circa un mese fa di aver aggiornato il proprio motore di rendering per farlo funzionare su Googlebot sempreverde e sull'ultimo motore Chromium.

Questo è importante, poiché la scansione e il rendering sono passaggi necessari che portano all'indicizzazione.

Modifica delle priorità nel processo di Google

Ai fini dell'indicizzazione, Google eseguiva la scansione con il Googlebot desktop. Questo è stato cambiato; ora usano lo smartphone Googlebot per scopi di indicizzazione.

L'indicizzazione Mobile-First verrà imposta a partire da luglio 2019 per tutti i nuovi siti e sarà disponibile per tutti i siti esistenti noti se non sono già stati cambiati.

Scansione: modi in cui Google trova gli URL da indicizzare

Per poter indicizzare una pagina, Google deve eseguirne la scansione.

Come primo passaggio nel processo che porta all'indicizzazione, per assicurarti che le tue pagine vengano indicizzate correttamente e rapidamente, devi assicurarti che la tua scansione sia "sana e sicura".

Esistono fondamentalmente tre modi in cui Google trova gli URL:

  1. Collegamenti: questo è ciò su cui si basava l'intero brevetto PageRank: trovare nuovi siti tramite collegamenti ipertestuali
  2. Mappe del sito XML
  3. Scansioni passate

– In che modo Google dà la priorità agli URL (crawl budget)

Google dà la priorità a quali siti esegue la scansione e con quale frequenza. Questo è spesso indicato come "crawl budget".

C'era un articolo nel blog di Google Webmaster sul crawl budget che dava alcune idee su come Google assegna la priorità ai siti da sottoporre a scansione.

– Popolarità: backlink e PageRank

Uno dei punti stabiliti da questo articolo è che il PageRank è un driver principale dietro l'indicizzazione della velocità e del volume per un sito web.

I backlink, ovviamente, sono una componente importante del PageRank e quindi hanno un'influenza sulla velocità di scansione e sull'indicizzazione.

– Codici di stato

Vengono presi in considerazione anche i codici di stato. Ad esempio, se sul tuo sito sono presenti molte 404 pagine, è probabile che Google riduca la frequenza delle scansioni.

Un altro esempio sono le catene e i loop di reindirizzamento.

– Igiene del sito

Se il tuo sito è organizzato in modo da sprecare molto budget di scansione, Google potrebbe ridurre il tempo che trascorre sul tuo sito.

– Velocità della pagina e tempo di risposta del server

Il budget di scansione ha anche influenzato la velocità della pagina e il tempo di risposta del server. Google non vuole DDoS il tuo sito; se vede che il tuo server ha difficoltà a fornire pagine e risorse alla velocità con cui le richiede, si adatterà a ciò che il tuo server può gestire in termini di scansione.

Rendering: aggiornamento della caffeina

L'aggiornamento Caffeine uscito alcuni anni fa era fondamentalmente un aggiornamento della struttura di rendering di Google.

Indicizzazione: cluster diversi per i tipi di contenuto

Esistono diversi archivi di indici che Google utilizza per restituire risultati diversi. È ragionevole immaginare che ci siano diversi cluster nell'indice per i risultati delle notizie e un altro per i risultati delle immagini, ecc.

Classifica: algoritmi separati

Infine, gli URL indicizzati vengono classificati, ma questo è un algoritmo completamente diverso.

Miglioramento della velocità di indicizzazione

Sia l'indicizzazione delle pagine più velocemente che l'indicizzazione di più pagine sono fortemente influenzati dal PageRank e quindi dai backlink. Ma le strategie per migliorarle sono diverse.

Se vuoi che le pagine vengano indicizzate più velocemente, vuoi ottimizzare i primi due passaggi (scansione e rendering). Ciò includerà componenti come:

  • Collegamento interno
  • Mappe del sito
  • Velocità del server
  • Velocità della pagina

Miglioramento del numero di pagine indicizzate

Se vuoi ottenere più pagine indicizzate, è qui che l'aspetto della scansione è più importante. Ti consigliamo di rendere più facile per Google trovare tutte le tue pagine. Questo è semplice su un piccolo sito web con mille URL, ma è molto più difficile su un sito più grande con milioni di URL.

Ad esempio, G2 ha un sacco di pagine di diversi tipi di pagina. Il team SEO di Kevin vuole assicurarsi che Google sia in grado di trovare tutte le pagine, indipendentemente dalla profondità di scansione e dal numero di pagine di quel tipo esistenti; questa è una grande sfida che deve essere affrontata da diverse angolazioni.

Variazione delle velocità di scansione in base al profilo della pagina

In base al tipo di pagina, Kevin trova spesso diverse velocità di scansione da parte di Google. Questo spesso dipende dal profilo di backlink dell'URL e dal collegamento interno. È qui che trova il maggior uso dei file di registro.

Segmenta il suo sito per tipo di pagina per capire dove il sito manca di efficienza di scansione o dove l'efficienza di scansione è troppo alta.

Relazione tra velocità di scansione, velocità di indicizzazione e classifica

Kevin ha assolutamente osservato correlazioni precise tra velocità di scansione, velocità di indicizzazione e classifica per ogni tipo di pagina. Questo è stato vero non solo attraverso i siti con cui ha lavorato, ma anche in corrispondenza con altri SEO del settore.

Senza postulare una causalità tra scansione, indicizzazione e ranking, elementi simili che guidano l'indicizzazione sembrano essere presi in considerazione anche quando si tratta di classificare una pagina. Ad esempio, se hai un sacco di backlink a un determinato modello di pagina per un determinato tipo di pagina (esempio: pagine di destinazione), quello che troverai nei tuoi file di registro è che se Google ha una velocità di scansione più alta su queste pagine attraverso il tuo sito, Google indicizza anche queste pagine più velocemente e di solito classifica queste pagine più in alto rispetto ad altre pagine.

È difficile fare affermazioni universali valide per tutti i siti, ma Kevin incoraggia tutti a controllare i propri file di registro per vedere se questo è vero anche sul proprio sito. OnCrawl ha anche riscontrato che questo è il caso in molti siti diversi che hanno analizzato.

Questo fa parte di ciò che ha cercato di delineare con il modello TIPR di collegamento interno che ha escogitato.

Misurazione della velocità di scansione

Per misurare la velocità di scansione, vuoi rispondere alla domanda: con quale frequenza un determinato Googlebot viene a visitare un determinato URL?

Come "affetta e taglia" quest'altra domanda. A Kevin piace guardare il numero di hit di Googlebot su base settimanale. Puoi anche guardarlo su base giornaliera o mensile.

– Concentrarsi sul prima/dopo

Più importante del periodo che utilizzi è osservare le variazioni della velocità di scansione. Dovresti guardare la tariffa prima di apportare modifiche e dopo che sono state implementate.

– Concentrarsi sulle differenze tra i tipi di pagina

Un'altra chiave per misurare la velocità di scansione è guardare dove si trovano le lacune sul tuo sito. A livello di tipo di pagina, dove sono le differenze tra le velocità di scansione? Che tipo di pagine viene scansionato una tonnellata? Quali tipi di pagine vengono difficilmente scansionati?

– Osservazioni comuni nel comportamento di scansione

Alcune osservazioni interessanti che Kevin ha fatto in passato includono:

  • URL più scansionato: robots.txt
  • La maggior parte del tempo trascorso su un URL/gruppo di URL: mappe del sito XML, specialmente quando diventano un po' più grandi

Scavare tra i file di registro per trovare differenze nel comportamento di scansione tra i tipi di pagina è estremamente illuminante. Cerca quali URL vengono scansionati su base giornaliera rispetto a quali URL vengono scansionati mensilmente. Questo può dirti molto sull'efficienza della struttura del tuo sito per la scansione (e l'indicizzazione, anche se c'è un passaggio nel mezzo).

Distribuzione del crawl budget in base al modello di business

Per migliorare l'efficienza della scansione, la strategia è solitamente quella di ridurre l'attenzione che Google riserva ad alcuni tipi di pagine e reindirizzarla a pagine più importanti del sito web.

Il modo in cui vuoi gestirlo dipenderà da come vengono gestite le conversioni sul sito. Kevin distingue due modelli di sito di base: modelli di business centralizzati e decentralizzati:

  • I modelli decentralizzati possono convertire gli utenti su qualsiasi pagina. Un buon esempio è Trello: puoi iscriverti su qualsiasi pagina. Tutti i loro tipi di pagina sono relativamente simili. Poiché nessuna pagina è più preziosa di un'altra per le iscrizioni, l'obiettivo potrebbe essere quello di avere una velocità di scansione uniforme su tutto il sito: desideri che tutti i tipi di pagine vengano scansionati più o meno alla stessa velocità.
  • I modelli centralizzati potrebbero essere qualcosa come Jira. Jira non ha un solo tipo di pagina che possiamo replicare un milione di volte: ci sono solo poche landing page a cui le persone possono registrarsi. Vuoi assicurarti che il tuo budget di scansione su un sito come questo sia concentrato sui tuoi punti di conversione (le tue pagine di destinazione).

Come vuoi che il tuo budget di scansione venga distribuito torna alla domanda su come il tuo sito guadagna e quali tipi di pagine svolgono il ruolo più importante in questo.

Affrontare i crawl waste

Per evitare che Googlebots spenda il budget di scansione su pagine meno importanti per le conversioni, esistono diversi metodi.

Il modo migliore per saltare la scansione è robots.txt:

  • Nel 99,99999% dei casi Google rispetta le direttive robots.txt.
  • Robots.txt può aiutare a bloccare la scansione su ampie sezioni del tuo sito con contenuti scarsi o duplicati (esempi classici: profili utente su un forum; URL dei parametri...)

Ci sono casi legittimi in cui potresti volere che una pagina non venga indicizzata, ma che aiuti comunque con la scansione. Kevin considererebbe alcune pagine hub per rientrare in questa categoria. È qui che userebbe un meta noindex.

Riconosce che John Mueller ha affermato che i meta tag noindex alla fine vengono trattati come nofollow, ma Kevin finora non l'ha mai visto accadere sul campo. Ammette che ciò potrebbe essere dovuto al fatto che impiega molto tempo (più di un anno o più). Invece, tende a trovare i Googlebot "avidi" e a cercare e seguire quanti più collegamenti possibile.

Il consiglio di Kevin è di utilizzare robots.txt e di utilizzarlo in tutta la sua estensione. È possibile utilizzare caratteri jolly e alcune tecniche molto sofisticate per proteggere determinate cose dalla scansione.

La regola pratica da seguire è che più sottile è il contenuto, più è probabile che sia un candidato da escludere dalla scansione.

Le pagine escluse dalla scansione tramite robots.txt sono ancora indicizzabili da Google se hanno link interni o backlink che puntano ad esse. In questo caso, il testo della descrizione nei risultati di ricerca mostrerà che Google non è stato in grado di eseguire la scansione della pagina a causa di una restrizione in robots.txt. In genere, tuttavia, queste pagine non hanno un ranking elevato a meno che non siano state escluse solo di recente in robots.txt.

Problemi di indicizzazione dovuti a pagine simili

– Errori canonici

A livello di codice, le dichiarazioni canoniche sono estremamente facili da sbagliare. Kevin ha visto un paio di volte il caso in cui il canonico ha avuto un punto e virgola (;) invece di due punti (:) e poi hai incontrato tonnellate di problemi.

I canonici sono in alcuni casi super sensibili e possono portare Google a diffidare di tutti i tuoi canonici, il che può quindi essere un grosso problema.

Uno dei problemi più comuni con i canonici, però, sono i canonici dimenticati.

– Migrazioni del sito

Le migrazioni dei siti sono spesso fonte di problemi con i canonici; Kevin ha riscontrato problemi in cui il sito ha appena dimenticato di aggiungere il nuovo dominio ai canonicals.

Questo è estremamente facile da dimenticare, in particolare quando il tuo CSM necessita di una regolazione manuale (piuttosto che a livello di codice) per apportare la modifica durante una migrazione.

L'impostazione predefinita prevede che il canonico di una pagina punti a se stesso, a meno che non ci sia un motivo specifico per puntare a un altro URL.

– Da HTTP a HTTPS

Questo è un altro errore canonico comune che impedisce l'indicizzazione dell'URL corretto. Il protocollo sbagliato a volte viene utilizzato nel canonico.

– Trovare la fonte di errore quando Google ignora il canonico dichiarato

Google a volte sceglierà il proprio canonico. Quando diffidano del tuo canonico dichiarato, di solito c'è una causa principale.

Kevin suggerisce di evitare situazioni in cui potresti inviare due segnali contrastanti a Google:

  • Esamina le tue mappe del sito XML
  • Scansiona il tuo sito e cerca i canonici difettosi
  • Esamina le impostazioni dei parametri in Search Console per trovare impostazioni in conflitto
  • Non usare contemporaneamente noindex e canonicals

Tipi di pagine che contribuiscono al rigonfiamento dell'indice

In SEO dieci anni fa volevi inviare quante più pagine possibili da indicizzare: più pagine indicizzate, meglio è.

Oggi non è più così. Vuoi solo roba di altissima qualità nel tuo negozio. Non vuoi alcun contenuto scadente nell'indice.

"Index bloat" viene solitamente utilizzato per descrivere un tipo di pagina che non fornisce alcun valore. Questo spesso torna a qualsiasi tipo di contenuto sottile, in particolare nei casi in cui moltiplichi o amplifichi il numero di pagine esistenti senza fornire un valore sostanziale su ogni nuova pagina.

I casi classici in cui potresti voler esaminare quante pagine di un tipo specifico sono indicizzate e se forniscono un valore aggiuntivo includono:

  • Parametri
  • Impaginazione
  • Forum
  • Pagine relative alla directory o pagine della porta
  • Estese pagine locali (città) che non fanno distinzione tra servizi o contenuti
  • Navigazioni sfaccettate

In che modo l'indicizzazione influisce su un sito nel suo insieme

Non vuoi che le pagine scadenti siano indicizzate oggi perché influenzano il modo in cui Google vede e valuta il tuo sito nel suo insieme.

Gran parte di questo torna al crawl budget. Mentre Gary Illyes e John Mueller hanno spesso affermato che la maggior parte dei siti non deve preoccuparsi del crawl budget, il pubblico per il tipo di discussione che stiamo avendo oggi è costituito da siti più grandi in cui fa una grande differenza.

Vuoi assicurarti che Google trovi solo contenuti di alta qualità.

Come la relazione che Kevin osserva tra velocità di scansione, indicizzazione e ranking, osserva anche che prestare attenzione alla qualità delle pagine indicizzate sembra ripagare l'intero sito. Sebbene sia difficile fare affermazioni universali, sembra che Google abbia una sorta di metrica sulla qualità del sito che dipende dalle pagine indicizzate per quel sito. In altre parole, se hai molti contenuti di bassa qualità indicizzati, sembra danneggiare il tuo sito.

È qui che il rigonfiamento dell'indice è dannoso: è un modo per diluire o ridurre il "punteggio" di qualità generale del tuo sito e spreca il tuo budget di scansione.

Sitemap XML per una rapida indicizzazione

L'opinione di Kevin è che, poiché Google è diventato più intelligente, il numero di "hack" si è ridotto nel tempo.

Tuttavia, per quanto riguarda l'indicizzazione, ha scoperto che un modo per indicizzare rapidamente qualcosa è utilizzare una mappa del sito XML.

Recentemente G2 è migrato a un nuovo dominio. Hanno un tipo di pagina che richiede molto tempo per essere nuovamente scansionato, quindi nell'indice di Google vedevi ancora il vecchio dominio negli snippet per le pagine di questo tipo. Quando Kevin ha visto che i reindirizzamenti 301 non erano stati presi in considerazione perché non erano stati ancora scansionati, ha inserito tutte le pagine di questo tipo in una mappa del sito XML e ha fornito la mappa del sito a Google nella Search Console.

Questa strategia può essere utilizzata anche se c'è un grande cambiamento tecnico sul sito che Kevin vuole che Google comprenda il più rapidamente possibile.

Crescente importanza della SEO tecnica

La SEO tecnica ha guadagnato importanza negli ultimi tre anni. Molte volte, le domande tecniche sulla SEO mettono in evidenza aree che sono davvero sottovalutate.

Spesso senti che i contenuti e i backlink sono le uniche cose di cui devi occuparti. Mentre Kevin crede che questi siano campi di grande impatto della SEO, pensa che possano avere un impatto ancora maggiore se hai fatto bene il tuo SEO tecnico.

[Ebook] Scansionabilità

Assicurati che i tuoi siti web soddisfino i requisiti dei motori di ricerca per la scansione per aumentare le prestazioni SEO.
Leggi l'ebook

Domande e risposte

– Bing e indicizzazione di 10.000 URL/giorno

Bing offre ai webmaster la possibilità di inviare direttamente fino a 10.000 URL al giorno tramite i loro strumenti per i webmaster per un'indicizzazione più rapida.

Kevin crede che questa sia una direzione in cui potrebbe andare anche Google. Anche Google, essendo una delle aziende più preziose al mondo, deve salvaguardare le proprie risorse. Questo è uno dei motivi per cui, se sprechi le loro risorse di scansione, si adegueranno di conseguenza.

Il fatto che questo tipo di funzionalità valga o meno per i webmaster dipenderà anche dalle dimensioni del tuo sito. Il numero di siti che trarrebbero vantaggio dalla possibilità di inviare così tanti URL al giorno è limitato, probabilmente a migliaia o diecimila. Kevin presume che per questi siti Google dedichi già risorse significative. Sembra che per i più grandi siti del web, Google faccia un lavoro decente nell'indicizzarli, con le solite eccezioni, ovviamente.

Probabilmente è molto più facile per Bing implementare qualcosa su questa scala: per prima cosa, la loro quota di mercato è molto più piccola, quindi la domanda per questa funzionalità è inferiore. Anche la loro dimensione dell'indice è probabilmente molto più piccola, quindi probabilmente ne trarranno maggiori benefici.

– Quando Google ignora robots.txt

Google solo molto raramente ignora robots.txt.

A volte ciò che ci porta a supporre che Google stia ignorando robots.txt è che, come abbiamo detto prima, Google a volte può indicizzare le pagine bloccate da robots.txt, che possono ancora essere trovate in molti altri modi.

Potresti anche riuscire a far sì che Google ignori le direttive nel tuo robots.txt se la tua sintassi nel file robots.txt non è corretta:

  • Personaggi errati
  • Uso di tag che non funzionano o non dovrebbero funzionare, come le direttive noindex

[Nota: Kevin cita un caso di studio che ha rilevato che Google rispettava le direttive noindex presentate nel file robots.txt. Tuttavia, poco dopo la messa in onda di questo webinar, Google ha annunciato la fine del tacito supporto per questa direttiva nei file robots.txt, a partire dal 1 settembre 2019.]

Tuttavia, Google è una delle aziende che mantiene i propri bot di alto livello e non ignora robots.txt.

Il miglior consiglio

"Il PageRank è il motore principale dietro l'indicizzazione della velocità e del volume."

SEO in Orbit è andato nello spazio

Se ti sei perso il nostro viaggio nello spazio il 27 giugno, prendilo qui e scopri tutti i suggerimenti che abbiamo inviato nello spazio.