Che cos'è l'indicizzazione semantica latente e come funziona?

Pubblicato: 2020-04-02

L'indicizzazione semantica latente (LSI) è stata a lungo motivo di dibattito tra i marketer della ricerca. Cerca su Google il termine "indicizzazione semantica latente" e incontrerai sostenitori e scettici in egual misura. Non c'è un chiaro consenso sui vantaggi di considerare l'LSI nel contesto del marketing sui motori di ricerca. Se non hai familiarità con il concetto, questo articolo riassumerà il dibattito sull'LSI, così puoi sperare di capire cosa significa per la tua strategia SEO.

Che cos'è l'indicizzazione semantica latente?

LSI è un processo che si trova in Natural Language Processing (NLP). La PNL è un sottoinsieme della linguistica e dell'ingegneria dell'informazione, con particolare attenzione al modo in cui le macchine interpretano il linguaggio umano. Una parte fondamentale di questo studio è la semantica distributiva. Questo modello ci aiuta a comprendere e classificare parole con significati contestuali simili all'interno di grandi set di dati.

Sviluppato negli anni '80, LSI utilizza un metodo matematico che rende il recupero delle informazioni più accurato. Questo metodo funziona identificando le relazioni contestuali nascoste tra le parole. Potrebbe aiutarti a scomporlo in questo modo:

  • Latente → Nascosto
  • Semantica → Relazioni tra le parole
  • Indicizzazione → Recupero delle informazioni

Come funziona l'indicizzazione semantica latente?

LSI funziona utilizzando l'applicazione parziale della Singular Value Decomposition (SVD). SVD è un'operazione matematica che riduce una matrice alle sue parti costituenti per calcoli semplici ed efficienti.

Quando si analizza una stringa di parole, LSI rimuove congiunzioni, pronomi e verbi comuni, noti anche come parole di stop. Questo isola le parole che compongono il 'contenuto' principale di una frase. Ecco un rapido esempio di come potrebbe apparire:

Queste parole vengono quindi inserite in un Term Document Matrix (TDM). Un TDM è una griglia 2D che elenca la frequenza con cui ogni parola (o termine) specifico ricorre nei documenti all'interno di un set di dati.

Le funzioni di pesatura vengono quindi applicate al TDM. Un semplice esempio è la classificazione di tutti i documenti che contengono la parola con un valore di 1 e tutti quelli che non lo contengono con un valore di 0. Quando le parole ricorrono con la stessa frequenza generale in questi documenti, si parla di co-occorrenza . Di seguito troverai un esempio di base di un TDM e come valuta la co-occorrenza in più frasi:

L'uso di SVD ci consente di approssimare i modelli di utilizzo delle parole in tutti i documenti. I vettori SVD prodotti da LSI predicono il significato in modo più accurato rispetto all'analisi dei singoli termini. In definitiva, LSI può utilizzare le relazioni tra le parole per comprendere meglio il loro senso, o significato, in un contesto specifico.

[Case Study] Guidare la crescita in nuovi mercati con la SEO on-page

Quando Springly ha iniziato a cercare di espandersi nel mercato nordamericano, la SEO on-page è stata identificata come una delle chiavi per un avvio di successo in un nuovo mercato. Scopri come passare da 0 al successo con la SEO tecnica per la tua strategia di contenuti.
Leggi il caso di studio

In che modo l'indicizzazione semantica latente è stata coinvolta nella SEO?

Nei suoi anni di formazione, Google ha scoperto che i motori di ricerca classificavano i siti Web in base alla frequenza di una determinata parola chiave. Questo, tuttavia, non garantisce il risultato di ricerca più pertinente. Google ha invece iniziato a classificare i siti Web che consideravano arbitri di informazioni affidabili.

Nel tempo, gli algoritmi di Google filtrerebbero i siti Web di bassa qualità e irrilevanti con maggiore precisione. Pertanto, gli esperti di marketing devono comprendere il significato dietro una ricerca, invece di fare affidamento sulle parole esatte utilizzate. Questo è il motivo per cui Roger Montti ha descritto LSI come "ruote di allenamento per i motori di ricerca" in un articolo sulle convinzioni SEO obsolete, aggiungendo che LSI ha "poco o zero rilevanza per il modo in cui i motori di ricerca classificano i siti Web oggi".

Il significato di una query di ricerca è strettamente legato all'intento che ne sta alla base. Google mantiene un documento chiamato Linee guida per la valutazione della qualità della ricerca. In queste linee guida, introducono quattro categorie utili per l'intento dell'utente:

  • Know Query : rappresenta la ricerca di informazioni su un argomento. Una variante di questo è la query "Know Simple", che è quando gli utenti cercano con una risposta particolare in mente.
  • Fare query : riflette il desiderio di impegnarsi in una particolare attività, come un acquisto o un download online. Tutte queste query possono essere definite da un senso di "interazione".
  • Query sito Web : questo è quando gli utenti cercano un sito Web o una pagina specifica. Queste ricerche indicano una conoscenza preliminare di un particolare sito Web o marchio.
  • Query visita di persona : l'utente sta cercando un luogo fisico, ad esempio un negozio fisico o un ristorante.

La teoria alla base di LSI, che definisce il significato contestuale di una parola all'interno di una frase, ha dato a Google un vantaggio competitivo. Tuttavia, iniziò a diffondersi l'idea che le "parole chiave LSI" fossero improvvisamente un biglietto d'oro per il successo SEO.

Esistono davvero le "parole chiave LSI"?

Molte pubblicazioni importanti rimangono fermi sostenitori delle parole chiave LSI. Eppure diverse fonti, come John Mueller, Webmaster Trends Analyst di Google, affermano che sono un mito. Queste fonti hanno iniziato a sollevare i seguenti punti:

  • LSI è stato sviluppato prima del World Wide Web e non doveva essere applicato a un set di dati così ampio e dinamico.
  • Il brevetto statunitense sull'indicizzazione semantica latente, concesso a un'organizzazione denominata Bell Communications Research Inc. nel 1989, sarebbe scaduto nel 2008. Pertanto, secondo Bill Slawski, Google che utilizza LSI sarebbe come "utilizzare un dispositivo telegrafico intelligente per connettersi a il web mobile.'
  • Google utilizza RankBrain, un metodo di apprendimento automatico che trasforma volumi di testo in "vettori", entità matematiche che aiutano i computer a comprendere la lingua scritta. RankBrain accoglie il Web come un set di dati in continua espansione, rendendolo utilizzabile da Google, a differenza di LSI.

In definitiva, LSI rivela una verità a cui i marketer dovrebbero attenersi: esplorare il contesto unico di una parola ci aiuta a comprendere l'intento dell'utente meglio delle parole chiave inserite nei contenuti. Tuttavia, ciò non conferma necessariamente che Google si classifichi in base a LSI. Pertanto, potrebbe essere sicuro dire che LSI lavora in SEO come una filosofia, piuttosto che una scienza esatta?

Torniamo alla citazione di Roger Montti su LSI come "ruote di allenamento per i motori di ricerca". Una volta che impari ad andare in bicicletta, tendi a togliere le ruote di allenamento. Possiamo presumere che nel 2020 Google non utilizzi più le rotelle?

Possiamo considerare il recente aggiornamento dell'algoritmo di Google. Nell'ottobre 2019 Pandu Nayak, Vice President of Search, ha annunciato che Google aveva iniziato a utilizzare un sistema di intelligenza artificiale chiamato BERT (Bidirectional Encoder Representations from Transformers). Con oltre il 10% di tutte le query di ricerca, questo è uno dei più grandi aggiornamenti di Google degli ultimi anni.

Quando analizza una query di ricerca, BERT considera una singola parola in relazione a tutte le parole in quella particolare frase. Questa analisi è bidirezionale, in quanto considera tutte le parole prima o dopo una parola specifica. La rimozione di una singola parola potrebbe avere un impatto drastico sul modo in cui BERT comprende il contesto unico di una frase.

Ciò segna un contrasto con LSI, che omette qualsiasi parola di arresto dalla sua analisi. L'esempio seguente mostra come la rimozione delle parole di arresto può alterare il modo in cui comprendiamo una frase:

Nonostante sia una parola chiave, "trova" è il punto cruciale della ricerca, che definiremmo una query "visita di persona".

Quindi cosa dovrebbero fare i marketer?

Inizialmente, si pensava che LSI fosse in grado di aiutare Google ad abbinare i contenuti alle query pertinenti. Tuttavia, sembra che il dibattito nel marketing sull'uso di LSI non sia ancora giunto a una conclusione univoca. Nonostante ciò, i professionisti del marketing possono ancora compiere molti passi per garantire che il loro lavoro rimanga strategicamente rilevante.

In primo luogo, gli articoli, il testo web e le campagne a pagamento dovrebbero essere ottimizzati per includere sinonimi e varianti. Questo spiega il modo in cui le persone con intenzioni simili usano la lingua in modo diverso.

I marketer devono continuare a scrivere con autorità e chiarezza. Questo è un must assoluto se vogliono che il loro contenuto risolva un problema specifico. Questo problema potrebbe essere la mancanza di informazioni o la necessità di un determinato prodotto o servizio. Una volta che i marketer lo fanno, mostra che capiscono veramente l'intento dell'utente.

Infine, dovrebbero anche fare un uso frequente di dati strutturati. Che si tratti di un sito web, di una ricetta o di una FAQ, i dati strutturati forniscono a Google il contesto per dare un senso a ciò che sta eseguendo la scansione.