Nessun posto dove nascondersi: blocco dei contenuti dagli spider dei motori di ricerca

Pubblicato: 2022-06-12

TL; DR

  1. Se stai pensando di escludere i contenuti dai motori di ricerca, assicurati innanzitutto di farlo per le giuste ragioni.
  2. Non commettere l'errore di presumere che tu possa nascondere il contenuto in una lingua o un formato che i robot non capiranno; è una strategia miope. Sii in prima linea con loro utilizzando il file robots.txt o il tag Meta Robots.
  3. Non dimenticare che solo perché stai utilizzando i metodi consigliati per bloccare i contenuti sei al sicuro. Comprendi come il blocco dei contenuti farà apparire il tuo sito ai bot.

Quando e come escludere il contenuto da un indice di un motore di ricerca

Uno degli aspetti principali della SEO è convincere i motori di ricerca che il tuo sito web è affidabile e fornisce un valore reale ai ricercatori. E affinché i motori di ricerca determinino il valore e la pertinenza dei tuoi contenuti, devono mettersi nei panni di un utente.

Ora, il software che esamina il tuo sito ha alcune limitazioni che i SEO hanno tradizionalmente sfruttato per mantenere determinate risorse nascoste ai motori di ricerca. I bot continuano a svilupparsi, tuttavia, e diventano continuamente più sofisticati nei loro sforzi per vedere la tua pagina web come farebbe un utente umano su un browser. È ora di riesaminare il contenuto del tuo sito che non è disponibile per i bot dei motori di ricerca, nonché i motivi per cui non è disponibile. Ci sono ancora limitazioni nei bot e i webmaster hanno motivi legittimi per bloccare o esternalizzare determinati contenuti. Poiché i motori di ricerca sono alla ricerca di siti che offrano contenuti di qualità agli utenti, lascia che l'esperienza utente guidi i tuoi progetti e il resto andrà a posto.

Perché bloccare del tutto i contenuti?

quando bloccare gli spider dei motori di ricerca
Foto di Steven Ferris (CC BY 2.0), modificata
  1. Contenuti privati. Ottenere le pagine indicizzate significa che sono disponibili per essere visualizzate nei risultati di ricerca e sono quindi visibili al pubblico. Se hai pagine private (informazioni sull'account dei clienti, informazioni di contatto per individui, ecc.) vuoi tenerle fuori dall'indice. (Alcuni siti di tipo whois visualizzano le informazioni sul registrante in JavaScript per impedire ai robot scraper di rubare informazioni personali.)
  2. Contenuto duplicato. Che si tratti di frammenti di testo (informazioni sui marchi, slogan o descrizioni) o di intere pagine (ad es. risultati di ricerca personalizzati all'interno del tuo sito), se hai contenuti che vengono visualizzati su più URL del tuo sito, gli spider dei motori di ricerca potrebbero considerarli di bassa qualità . È possibile utilizzare una delle opzioni disponibili per bloccare l'indicizzazione di tali pagine (o singole risorse su una pagina). Puoi mantenerli visibili agli utenti ma bloccati dai risultati di ricerca, il che non danneggerà le tue classifiche per i contenuti che desideri vengano visualizzati nella ricerca.
  3. Contenuti da altre fonti. I contenuti, come gli annunci, generati da fonti di terze parti e duplicati in diversi punti del Web, non fanno parte del contenuto principale di una pagina. Se il contenuto dell'annuncio viene duplicato molte volte sul Web, un webmaster potrebbe voler impedire che gli annunci vengano visualizzati come parte della pagina.

Quello si prende cura del perché, che ne dici di come?

Sono così felice che tu l'abbia chiesto. Un metodo utilizzato per mantenere il contenuto fuori dall'indice consiste nel caricare il contenuto da un'origine esterna bloccata utilizzando un linguaggio che i bot non possono analizzare o eseguire; è come quando scrivi le parole a un altro adulto perché non vuoi che il bambino nella stanza sappia di cosa stai parlando. Il problema è che il bambino in questa situazione sta diventando più intelligente. Per molto tempo, se volevi nascondere qualcosa ai motori di ricerca, potresti usare JavaScript per caricare quel contenuto, il che significa che gli utenti lo ottengono, i bot no.

Ma Google non è affatto timido riguardo al loro desiderio di analizzare JavaScript con i loro bot. E stanno cominciando a farlo; lo strumento Visualizza come Google in Strumenti per i Webmaster ti consente di vedere le singole pagine così come le vedono i robot di Google.

screenshot di Visualizza come Strumento per i Webmaster di Google

Se stai utilizzando JavaScript per bloccare i contenuti del tuo sito, dovresti controllare alcune pagine di questo strumento; è probabile che Google lo veda.

Tieni presente, tuttavia, che solo perché Google può eseguire il rendering dei contenuti in JavaScript non significa che il contenuto venga memorizzato nella cache. Lo strumento "Fetch and Render" ti mostra cosa può vedere il bot; per scoprire cosa viene indicizzato dovresti comunque controllare la versione cache della pagina.

screenshot di come trovare la cache di Google del tuo sito

Esistono molti altri metodi per esternalizzare i contenuti di cui le persone discutono: iframes, AJAX, jQuery. Ma già nel 2012, gli esperimenti mostravano che Google poteva eseguire la scansione dei link inseriti negli iframe; quindi c'è quella tecnica. In effetti, i giorni in cui si parlava una lingua che i bot non potevano capire si stanno avvicinando alla fine.

Ma cosa succede se chiedi educatamente ai robot di evitare di guardare determinate cose? Bloccare o impedire elementi nel tuo robots.txt o in un tag Meta Robots è l'unico modo certo (a parte le directory del server che proteggono con password) per impedire che elementi o pagine vengano indicizzati.

John Mueller ha recentemente commentato che i contenuti generati con feed AJAX/JSON sarebbero "invisibili a [Google] se non consentissi la scansione del tuo JavaScript". Continua inoltre a chiarire che il semplice blocco di CSS o JavaScript non danneggerà necessariamente il tuo posizionamento: "Non c'è assolutamente nessuna semplice relazione 'CSS o JavaScript non è consentito eseguire la scansione, quindi gli algoritmi di qualità vedono il sito in modo negativo'". Quindi il modo migliore per mantenere i contenuti fuori dall'indice è semplicemente chiedere ai motori di ricerca di non indicizzare i tuoi contenuti. Può trattarsi di singoli URL, directory o file esterni.

Questo, dunque, ci riporta all'inizio: perché. Prima di decidere di bloccare uno qualsiasi dei tuoi contenuti, assicurati di sapere perché lo stai facendo e i rischi. Innanzitutto, bloccare i tuoi file CSS o JavaScript (soprattutto quelli che contribuiscono in modo sostanziale al layout del tuo sito) è rischioso; può, tra le altre cose, impedire ai motori di ricerca di vedere se le tue pagine sono ottimizzate per i dispositivi mobili. Non solo, ma dopo il lancio di Panda 4.0, alcuni siti che sono stati colpiti duramente sono stati in grado di rimbalzare sbloccando i loro CSS e JavaScript, il che indicherebbe che sono stati specificamente presi di mira dall'algoritmo di Google per bloccare questi elementi dai bot.

Un altro rischio che corri quando blocchi i contenuti: gli spider dei motori di ricerca potrebbero non essere in grado di vedere cosa viene bloccato, ma sanno che qualcosa è stato bloccato, quindi potrebbero essere costretti a fare supposizioni su quale sia quel contenuto. Sanno che gli annunci, ad esempio, sono spesso nascosti negli iframe o persino nei CSS; quindi se hai troppi contenuti bloccati nella parte superiore di una pagina, corri il rischio di essere colpito dall'algoritmo di layout di pagina "Top Heavy". Tutti i webmaster che stanno leggendo questo articolo e stanno valutando l'utilizzo di iframe dovrebbero considerare fortemente di consultare prima un SEO rispettabile. (Inserisci qui la spudorata promo BCI.)