Cosa sono i vettori di parole e come il markup strutturato li sovraccarica
Pubblicato: 2021-07-28Come si definiscono i vettori di parole? In questo post, ti introdurrò al concetto di vettori di parole. Esamineremo diversi tipi di incorporamenti di parole e, soprattutto, come funzionano i vettori di parole. Saremo quindi in grado di vedere l'impatto dei vettori di parole sulla SEO, il che ci porterà a capire come il markup di Schema.org per i dati strutturati può aiutarti a sfruttare i vettori di parole nella SEO.
Continua a leggere questo post se desideri saperne di più su questi argomenti.
Entriamo subito.
Cosa sono i vettori di parole?
I vettori di parole (chiamati anche incorporamenti di parole) sono un tipo di rappresentazione di parole che consente a parole con significati simili di avere una rappresentazione uguale.
In parole povere: un vettore di parole è una rappresentazione vettoriale di una parola particolare.
Secondo Wikipedia:
È una tecnica utilizzata nell'elaborazione del linguaggio naturale (NLP) per rappresentare le parole per l'analisi del testo, in genere come un vettore a valori reali che codifica il significato della parola in modo che le parole vicine nello spazio vettoriale abbiano probabilmente significati simili.
Il seguente esempio ci aiuterà a capirlo meglio:
Guarda queste frasi simili:
Buona giornata . e buona giornata.
Hanno a malapena un significato diverso. Se costruiamo un vocabolario esaustivo (chiamiamolo V), dovrebbe avere V = {Have, a, good, great, day} che unisce tutte le parole. Potremmo codificare la parola come segue.
La rappresentazione vettoriale di una parola può essere un vettore codificato one-hot dove 1 rappresenta la posizione in cui esiste la parola e 0 rappresenta il resto
Avere = [1,0,0,0,0]
a=[0,1,0,0,0]
buono=[0,0,1,0,0]
grande=[0,0,0,1,0]
giorno=[0,0,0,0,1]
Supponiamo che il nostro vocabolario abbia solo cinque parole: Re, Regina, Uomo, Donna e Bambino. Potremmo codificare le parole come:
Re = [1,0,0,0,0]
Regina = [0,1,0,0,0]
Uomo = [0,0,1,00]
Donna = [0,0,0,1,0]
Bambino = [0,0,0,0,1]
Tipi di incorporamento di parole (vettori di parole)
L'incorporamento di parole è una di queste tecniche in cui i vettori rappresentano il testo. Ecco alcuni dei tipi più popolari di incorporamento di parole:
- Incorporamento basato sulla frequenza
- Incorporamento basato sulla previsione
Non approfondiremo l'incorporamento basato sulla frequenza e l'incorporamento basato sulla previsione qui, ma potresti trovare le seguenti guide utili per comprendere entrambi:
Una comprensione intuitiva degli incorporamenti di parole e una rapida introduzione a Bag-of-Words (BOW) e TF-IDF per la creazione di funzioni dal testo
Una breve introduzione a WORD2Vec
Sebbene l'incorporamento basato sulla frequenza abbia guadagnato popolarità, c'è ancora un vuoto nella comprensione del contesto delle parole e limitato nelle loro rappresentazioni delle parole.
L'incorporamento basato sulla previsione (WORD2Vec) è stato creato, brevettato e introdotto nella comunità NLP nel 2013 da un team di ricercatori guidato da Tomas Mikolov di Google.
Secondo Wikipedia, l'algoritmo word2vec utilizza un modello di rete neurale per apprendere le associazioni di parole da un ampio corpus di testi (insieme di testi ampio e strutturato).
Una volta addestrato, un tale modello può rilevare parole sinonimi o suggerire parole aggiuntive per una frase parziale. Ad esempio, con Word2Vec, puoi facilmente creare tali risultati: Re – uomo + donna = Regina, che era considerato un risultato quasi magico.
Fonte immagine: Tensorflow
- [re] – [uomo] + [donna] ~= [regina] (un altro modo di pensare a questo è che [re] – [regina] codifica solo la parte di genere di [monarca])
- [camminare] – [nuotare] + [nuotare] ~= [camminare] (o [nuotare] – [nuotare] codifica solo il "passato" del verbo)
- [madrid] – [spagna] + [francia] ~= [parigi] (o [madrid] – [spagna] ~= [parigi] – [francia] che presumibilmente è più o meno "capitale")
Fonte: Brainslab Digital
So che questo è un po' tecnico, ma Stitch Fix ha messo insieme un post fantastico sulle relazioni semantiche e sui vettori di parole.
L'algoritmo Word2Vec non è un singolo algoritmo ma una combinazione di due tecniche che utilizza alcuni metodi di intelligenza artificiale per collegare la comprensione umana e la comprensione della macchina. Questa tecnica è essenziale per risolvere molti PNL problemi.
Queste due tecniche sono:
- – Modello CBOW (Continuous bag of words) o CBOW
- – Modello Skip-gram.
Entrambi sono reti neurali poco profonde che forniscono probabilità per le parole e si sono dimostrate utili in attività come il confronto delle parole e l'analogia delle parole.
Come funzionano i vettori di parole e word2vecs
Word Vector è un modello AI sviluppato da Google e ci aiuta a risolvere compiti NLP molto complessi.
“I modelli di Word Vector hanno un obiettivo centrale che dovresti conoscere:
È un algoritmo che aiuta Google a rilevare le relazioni semantiche tra le parole".
Ogni parola è codificata in un vettore (come un numero rappresentato in più dimensioni) per abbinare vettori di parole che appaiono in un contesto simile. Quindi si forma un vettore denso per il testo.
Questi modelli vettoriali mappano frasi semanticamente simili a punti vicini in base all'equivalenza, alle somiglianze o alla correlazione di idee e linguaggio
[Case Study] Guidare la crescita in nuovi mercati con la SEO on-page
Word2Vec- Come funziona?
Fonte immagine: Seopressor
Pro e contro di Word2Vec
Abbiamo visto che Word2vec è una tecnica molto efficace per generare similarità distributiva. Ho elencato alcuni dei suoi altri vantaggi qui:
- Non c'è difficoltà a comprendere i concetti di Word2vec. Word2Vec non è così complesso da non essere a conoscenza di ciò che sta accadendo dietro le quinte.
- L'architettura di Word2Vec è molto potente e facile da usare. Rispetto ad altre tecniche, è veloce da allenare.
- La formazione è quasi completamente automatizzata qui, quindi i dati contrassegnati dall'uomo non sono più necessari.
- Questa tecnica funziona sia per set di dati piccoli che grandi. Di conseguenza, è un modello facile da scalare.
- Se conosci i concetti, puoi facilmente replicare l'intero concetto e algoritmo.
- Cattura la somiglianza semantica eccezionalmente bene.
- Preciso ed efficiente dal punto di vista computazionale
- Poiché questo approccio non è supervisionato, consente di risparmiare molto tempo in termini di sforzi.
Sfide di Word2Vec
Il concetto di Word2vec è molto efficiente, ma potresti trovare alcuni punti un po' impegnativi. Ecco alcune delle sfide più comuni.
- Quando si sviluppa un modello word2vec per il set di dati, il debug può essere una sfida importante, poiché il modello word2vec è facile da sviluppare ma difficile da eseguire il debug.
- Non affronta le ambiguità. Quindi, nel caso di parole con più significati, l'incorporamento rifletterà la media di questi significati nello spazio vettoriale.
- Impossibile gestire parole sconosciute o OOV: il problema più grande con word2vec è l'incapacità di gestire parole sconosciute o fuori vocabolario (OOV).
Vettori di parole: un punto di svolta nell'ottimizzazione dei motori di ricerca?
Molti esperti SEO ritengono che Word Vector influisca sul posizionamento di un sito Web nei risultati dei motori di ricerca.
Negli ultimi cinque anni, Google ha introdotto due aggiornamenti dell'algoritmo che si concentrano chiaramente sulla qualità dei contenuti e sulla completezza del linguaggio.
Facciamo un passo indietro e parliamo degli aggiornamenti:
Colibrì
Nel 2013, Hummingbird ha dato ai motori di ricerca la capacità di analisi semantica. Utilizzando e incorporando la teoria della semantica nei loro algoritmi, hanno aperto un nuovo percorso nel mondo della ricerca.
Google Hummingbird è stato il più grande cambiamento al motore di ricerca da Caffeine nel 2010. Prende il nome dall'essere "preciso e veloce".
Secondo Search Engine Land, Hummingbird presta maggiore attenzione a ogni parola in una query, assicurando che venga considerata l'intera query, piuttosto che solo parole particolari.
L'obiettivo principale di Hummingbird era fornire risultati migliori comprendendo il contesto della query piuttosto che restituire risultati per parole chiave specifiche.
"Google Hummingbird è stato rilasciato a settembre 2013."
RankBrain
Nel 2015, Google ha annunciato RankBrain, una strategia che incorporava l'intelligenza artificiale (AI).
RankBrain è un algoritmo che aiuta Google a scomporre le query di ricerca complesse in query più semplici. RankBrain converte le query di ricerca dal linguaggio "umano" in un linguaggio che Google può facilmente comprendere.
Google ha confermato l'uso di RankBrain il 26 ottobre 2015 in un articolo pubblicato da Bloomberg.
BERT
Il 21 ottobre 2019, BERT ha iniziato a essere implementato nel sistema di ricerca di Google
BERT sta per Bidirectional Encoder Representations from Transformers, una tecnica basata sulla rete neurale utilizzata da Google per la pre-formazione nell'elaborazione del linguaggio naturale (NLP).
In breve, BERT aiuta i computer a capire il linguaggio in modo più simile agli esseri umani, ed è il più grande cambiamento nella ricerca da quando Google ha introdotto RankBrain.
Non è un sostituto di RankBrain, ma piuttosto un metodo aggiuntivo per comprendere il contenuto e le query.
Google utilizza BERT nel suo sistema di classificazione come aggiunta. L'algoritmo RankBrain esiste ancora per alcune query e continuerà ad esistere. Ma quando Google ritiene che BERT possa comprendere meglio una query, la utilizzerà.
Per ulteriori informazioni su BERT, dai un'occhiata a questo post di Barry Schwartz e all'approfondimento di Dawn Anderson.
Classifica il tuo sito con i vettori di parole
Presumo che tu abbia già creato e pubblicato contenuti unici e, anche dopo averlo ripulito più e più volte, non migliora il tuo posizionamento o traffico.
Ti chiedi perché questo ti sta succedendo?
Potrebbe essere perché non hai incluso Word Vector: il modello AI di Google.
- Il primo passo è identificare i vettori di parole delle prime 10 classifiche SERP per la tua nicchia.
- Scopri quali parole chiave stanno utilizzando i tuoi concorrenti e cosa potresti trascurare.
Applicando Word2Vec, che sfrutta le tecniche avanzate di elaborazione del linguaggio naturale e il framework di apprendimento automatico, sarai in grado di vedere tutto in dettaglio.
Ma questi sono possibili se conosci le tecniche di machine learning e NLP, ma possiamo applicare vettori di parole nel contenuto usando il seguente strumento:
WordGraph, il primo strumento vettoriale di parole al mondo
Questo strumento di intelligenza artificiale è stato creato con le reti neurali per l'elaborazione del linguaggio naturale e addestrato con l'apprendimento automatico.
Basato sull'Intelligenza Artificiale, WordGraph analizza i tuoi contenuti e ti aiuta a migliorarne la rilevanza per i primi 10 siti web di ranking.
Suggerisce parole chiave che sono matematicamente e contestualmente correlate alla tua parola chiave principale.
Personalmente, lo abbino a BIQ, un potente strumento SEO che funziona bene con WordGraph.
Aggiungi i tuoi contenuti allo strumento di content intelligence integrato in Biq. Ti mostrerà un intero elenco di suggerimenti SEO sulla pagina che puoi aggiungere se vuoi classificarti nella prima posizione.
Puoi vedere come funziona l'intelligenza dei contenuti in questo esempio. Gli elenchi ti aiuteranno a padroneggiare la SEO on-page e a classificarti utilizzando metodi attuabili!
Come potenziare i vettori di parole: utilizzando il markup dei dati strutturati
Il markup dello schema, o dati strutturati, è un tipo di codice (scritto in JSON, Java-Script Object Notation) creato utilizzando il vocabolario schema.org che aiuta i motori di ricerca a scansionare, organizzare e visualizzare i tuoi contenuti.
Come aggiungere dati strutturati
I dati strutturati possono essere facilmente aggiunti al tuo sito web aggiungendo uno script inline nel tuo html
Un esempio di seguito mostra come definire i dati strutturati della tua organizzazione nel formato più semplice possibile.
Per generare lo Schema Markup, utilizzo questo Schema Markup Generator (JSON-LD).
Ecco l'esempio dal vivo del markup dello schema per https://www.telecloudvoip.com/. Controlla il codice sorgente e cerca JSON.
Dopo aver creato il codice di markup dello schema, utilizza il test dei risultati multimediali di Google per verificare se la pagina supporta i risultati multimediali.
Puoi anche utilizzare lo strumento Semrush Site Audit per esplorare gli elementi dei dati strutturati per ciascun URL e identificare quali pagine sono idonee per essere presenti nei risultati multimediali.
Perché i dati strutturati sono importanti per la SEO?
I dati strutturati sono importanti per la SEO perché aiutano Google a capire di cosa trattano il tuo sito web e le tue pagine, ottenendo un posizionamento più accurato dei tuoi contenuti.
I dati strutturati migliorano sia l'esperienza del Search Bot che quella dell'utente, migliorando le SERP (pagine dei risultati dei motori di ricerca) con maggiori informazioni e precisione.
Per vedere l'impatto nella ricerca di Google, vai su Search Console e in Rendimento > Risultato della ricerca > Aspetto della ricerca, puoi visualizzare un'analisi di tutti i tipi di risultati multimediali come "video" e "Domande frequenti" e vedere le impressioni organiche e i clic che hanno generato per i tuoi contenuti
Di seguito sono riportati alcuni vantaggi dei dati strutturati:
- I dati strutturati supportano la ricerca semantica
- Supporta anche la tua E-AT (competenza, autorevolezza e fiducia)
- Avere dati strutturati può anche aumentare i tassi di conversione, poiché più persone vedranno le tue inserzioni, il che aumenta la probabilità che acquistino da te.
- Utilizzando i dati strutturati i motori di ricerca sono in grado di comprendere meglio il tuo marchio, il tuo sito Web e i tuoi contenuti.
- Sarà più facile per i motori di ricerca distinguere tra pagine di contatti, descrizioni di prodotti, pagine di ricette, pagine di eventi e recensioni dei clienti.
- Con l'aiuto dei dati strutturati, Google crea un grafico delle conoscenze migliore e più accurato e un pannello delle conoscenze sul tuo marchio.
- Questi miglioramenti possono comportare più impressioni organiche e clic organici.
I dati strutturati sono attualmente utilizzati da Google per migliorare i risultati di ricerca. Quando le persone cercano le tue pagine web utilizzando parole chiave, i dati strutturati possono aiutarti a ottenere risultati migliori. I motori di ricerca noteranno di più i tuoi contenuti se aggiungiamo il markup dello schema.
È possibile implementare il markup dello schema su un numero di elementi diversi. Di seguito sono elencate alcune aree in cui è possibile applicare lo schema:
- Articoli
- I post del blog
- Articoli di notizie
- Eventi
- Prodotti
- Video
- Servizi
- Recensioni
- Valutazioni aggregate
- Ristoranti
- Imprese locali
Ecco un elenco completo degli elementi che puoi contrassegnare con lo schema.
Dati strutturati con incorporamenti di entità
Il termine "entità" si riferisce a una rappresentazione di qualsiasi tipo di oggetto, concetto o soggetto. Un'entità può essere una persona, un film, un libro, un'idea, un luogo, un'azienda o un evento.
Sebbene le macchine non riescano davvero a capire le parole, con l'incorporamento di entità, sono in grado di comprendere facilmente la relazione tra re – regina = marito – moglie
Gli incorporamenti di entità funzionano meglio delle codifiche one-hot
L'algoritmo del vettore di parole viene utilizzato da Google per scoprire le relazioni semantiche tra le parole e, se combinato con dati strutturati, si ottiene un web semanticamente migliorato.
Utilizzando i dati strutturati, stai contribuendo a un web più semantico. Questo è un Web avanzato in cui descriviamo i dati in un formato leggibile dalla macchina.
I dati semantici strutturati sul tuo sito web aiutano i motori di ricerca ad abbinare i tuoi contenuti al pubblico giusto. L'uso di NLP, Machine Learning e Deep Learning aiuta a ridurre il divario tra ciò che le persone cercano e quali titoli sono disponibili.
Pensieri finali
Quando ora comprendi il concetto di vettori di parole e la sua importanza, puoi rendere la tua strategia di ricerca organica più efficace ed efficiente utilizzando vettori di parole, incorporamenti di entità e dati semantici strutturati.
Per ottenere il posizionamento, il traffico e le conversioni più elevati, devi utilizzare vettori di parole, incorporamenti di entità e dati semantici strutturati per dimostrare a Google che i contenuti della tua pagina web sono accurati, precisi e affidabili.