Ce sunt vectorii de cuvinte și cum le supraalimentează marcajul structurat

Publicat: 2021-07-28

Cum definiți vectorii de cuvinte? În această postare, vă voi prezenta conceptul de vectori de cuvinte. Vom analiza diferite tipuri de înglobare de cuvinte și, mai important, cum funcționează vectorii de cuvinte. Vom putea apoi să vedem impactul vectorilor de cuvinte asupra SEO, ceea ce ne va conduce să înțelegem cum marcarea Schema.org pentru datele structurate vă poate ajuta să profitați de vectorii de cuvinte în SEO.

Continuați să citiți această postare dacă doriți să aflați mai multe despre aceste subiecte.

Să ne scufundăm direct.

Ce sunt vectorii de cuvinte?

Vectorii de cuvinte (numiți și înglobări de cuvinte) sunt un tip de reprezentare a cuvintelor care permite cuvintelor cu semnificații similare să aibă o reprezentare egală.

În termeni simpli: Un vector de cuvânt este o reprezentare vectorială a unui anumit cuvânt.

Conform Wikipedia:
Este o tehnică folosită în procesarea limbajului natural (NLP) pentru reprezentarea cuvintelor pentru analiza textului, de obicei ca un vector cu valoare reală care codifică semnificația cuvântului, astfel încât cuvintele care sunt apropiate în spațiul vectorial sunt susceptibile de a avea semnificații similare.

Următorul exemplu ne va ajuta să înțelegem mai bine acest lucru:

Priviți aceste propoziții similare:

Sa ai o zi buna . și o zi minunată.

Abia au un alt sens. Dacă construim un vocabular exhaustiv (să-l numim V), acesta ar avea V = {Ave, a, good, great, day} combinând toate cuvintele. Am putea codifica cuvântul după cum urmează.
Reprezentarea vectorială a unui cuvânt poate fi un vector codificat one-hot, unde 1 reprezintă poziția în care există cuvântul și 0 reprezintă restul
Au = [1,0,0,0,0]
a=[0,1,0,0,0]
bun=[0,0,1,0,0]
grozav=[0,0,0,1,0]
zi=[0,0,0,0,1]

Să presupunem că vocabularul nostru are doar cinci cuvinte: rege, regină, bărbat, femeie și copil. Am putea codifica cuvintele ca:

Regele = [1,0,0,0,0]
Regina = [0,1,0,0,0]
Barbat = [0,0,1,00]
Femeie = [0,0,0,1,0]
Copil = [0,0,0,0,1]

Tipuri de încorporare a cuvintelor (vectori de cuvinte)

Word Embedding este o astfel de tehnică în care vectorii reprezintă text. Iată câteva dintre cele mai populare tipuri de încorporare a cuvintelor:

  • Încorporare bazată pe frecvență
  • Încorporare bazată pe predicții

Nu vom aprofunda aici încorporarea bazată pe frecvență și încorporarea bazată pe predicții, dar s-ar putea să găsiți utile următoarele ghiduri pentru a le înțelege pe ambele:

O înțelegere intuitivă a înglobărilor de cuvinte și o introducere rapidă în Bag-of-Words (BOW) și TF-IDF pentru crearea de caracteristici din text

O scurtă introducere în WORD2Vec

În timp ce încorporarea bazată pe frecvență a câștigat popularitate, există încă un gol în înțelegerea contextului cuvintelor și limitat în reprezentările lor.

Încorporarea bazată pe predicții (WORD2Vec) a fost creată, patentată și introdusă în comunitatea NLP în 2013 de o echipă de cercetători condusă de Tomas Mikolov de la Google.

Conform Wikipedia, algoritmul word2vec folosește un model de rețea neuronală pentru a învăța asocieri de cuvinte dintr-un corp mare de text (set mare și structurat de texte).

Odată antrenat, un astfel de model poate detecta cuvinte sinonime sau poate sugera cuvinte suplimentare pentru o propoziție parțială. De exemplu, cu Word2Vec, puteți crea cu ușurință astfel de rezultate: Rege – bărbat + femeie = Regina, care era considerat un rezultat aproape magic.

Sursa imagine: Tensorflow

  • [rege] – [bărbat] + [femeie] ~= [regina] (un alt mod de a gândi la acest lucru este că [regele] – [regina] codifică doar partea de gen a [monarh])
  • [mers] – [înot] + [înotat] ~= [mers] (sau [înotat] – [înot] codifică doar „timpul trecut” al verbului)
  • [madrid] – [spania] + [franța] ~= [paris] (sau [madrid] – [spania] ~= [paris] – [franța] care este, probabil, aproximativ „capitală”)

Sursa: Brainslab Digital

Știu că este puțin tehnic, dar Stitch Fix a creat o postare fantastică despre relațiile semantice și vectorii de cuvinte.

Algoritmul Word2Vec nu este un algoritm unic, ci o combinație de două tehnici care utilizează câteva metode AI pentru a face legătura între înțelegerea umană și înțelegerea mașinii. Această tehnică este esențială în rezolvarea multor probleme legate de NLP.

Aceste două tehnici sunt:

  • – CBOW (Continuous bag of words) sau model CBOW
  • – Model skip-gram.

Ambele sunt rețele neuronale superficiale care oferă probabilități pentru cuvinte și s-au dovedit utile în sarcini precum compararea cuvintelor și analogia cuvintelor.

Cum funcționează vectorii de cuvinte și word2vecs

Word Vector este un model AI dezvoltat de Google și ne ajută să rezolvăm sarcini NLP foarte complexe.

„Modelele Word Vector au un obiectiv central pe care ar trebui să-l cunoașteți:

Este un algoritm care ajută Google să detecteze relațiile semantice dintre cuvinte.”

Fiecare cuvânt este codificat într-un vector (ca număr reprezentat în mai multe dimensiuni) pentru a se potrivi cu vectorii de cuvinte care apar într-un context similar. Prin urmare, se formează un vector dens pentru text.

Aceste modele vectoriale mapează expresii similare din punct de vedere semantic la punctele din apropiere, pe baza echivalenței, asemănărilor sau relațiilor dintre idei și limbaj.

[Studiu de caz] Stimularea creșterii pe noi piețe cu SEO pe pagină

Când Springly a început să se extindă pe piața din America de Nord, SEO pe pagină a fost identificat ca una dintre cheile unui început de succes pe o nouă piață. Aflați cum să treceți de la 0 la succes cu SEO tehnic pentru strategia dvs. de conținut.
Citiți studiul de caz

Word2Vec- Cum funcționează?


Sursa imagine: Seopressor

Avantaje și dezavantaje ale Word2Vec

Am văzut că Word2vec este o tehnică foarte eficientă pentru a genera similitudini distribuționale. Am enumerat câteva dintre celelalte avantaje ale sale aici:

  • Nu există nicio dificultate în înțelegerea conceptelor Word2vec. Word2Vec nu este atât de complex încât să nu fii conștient de ceea ce se întâmplă în culise.
  • Arhitectura Word2Vec este foarte puternică și ușor de utilizat. În comparație cu alte tehnici, este rapid de antrenat.
  • Antrenamentul este aproape în întregime automatizat aici, astfel încât datele etichetate de oameni nu mai sunt necesare.
  • Această tehnică funcționează atât pentru seturi de date mici, cât și pentru mari. Drept urmare, este un model ușor de scalat.
  • Dacă cunoașteți conceptele, puteți replica cu ușurință întregul concept și algoritmul.
  • Surprinde similaritatea semantică excepțional de bine.
  • Acurate și eficiente din punct de vedere computațional
  • Deoarece această abordare este nesupravegheată, economisește foarte mult timp în ceea ce privește efortul.

Provocările Word2Vec

Conceptul Word2vec este foarte eficient, dar s-ar putea să găsiți câteva puncte puțin provocatoare. Iată câteva dintre cele mai frecvente provocări.

  • Când dezvoltați un model word2vec pentru setul dvs. de date, depanarea poate fi o provocare majoră, deoarece modelul word2vec este ușor de dezvoltat, dar greu de depanat.
  • Nu se ocupă de ambiguități. Deci, în cazul cuvintelor cu sensuri multiple, încorporarea va reflecta media acestor semnificații în spațiul vectorial.
  • Imposibil de a gestiona cuvinte necunoscute sau OOV: cea mai mare problemă cu word2vec este incapacitatea de a gestiona cuvinte necunoscute sau în afara vocabularului (OOV).

Vectori de cuvinte: o schimbare de joc în optimizarea pentru motoarele de căutare?

Mulți experți SEO cred că Word Vector afectează clasarea unui site web în rezultatele motoarelor de căutare.

În ultimii cinci ani, Google a introdus două actualizări de algoritm care pun un accent clar pe calitatea conținutului și pe caracterul complet al limbii.

Să facem un pas înapoi și să vorbim despre actualizări:

pasărea Colibri

În 2013, Hummingbird a oferit motoarelor de căutare capacitatea de analiză semantică. Utilizând și încorporând teoria semantică în algoritmii lor, ei au deschis o nouă cale către lumea căutării.

Google Hummingbird a fost cea mai mare schimbare a motorului de căutare de la Coffeine în 2010. Își ia numele de la faptul că este „precis și rapid”.

Potrivit Search Engine Land, Hummingbird acordă mai multă atenție fiecărui cuvânt dintr-o interogare, asigurându-se că întreaga interogare este luată în considerare, mai degrabă decât doar anumite cuvinte.

Scopul principal al Hummingbird a fost de a oferi rezultate mai bune prin înțelegerea contextului interogării, mai degrabă decât returnarea rezultatelor pentru anumite cuvinte cheie.

„Google Hummingbird a fost lansat în septembrie 2013.”

RankBrain

În 2015, Google a anunțat RankBrain, o strategie care a încorporat inteligența artificială (AI).

RankBrain este un algoritm care ajută Google să descompună interogările de căutare complexe în altele mai simple. RankBrain convertește interogările de căutare din limbajul „uman” într-o limbă pe care Google o poate înțelege cu ușurință.

Google a confirmat utilizarea RankBrain pe 26 octombrie 2015 într-un articol publicat de Bloomberg.

BERT

Pe 21 octombrie 2019, BERT a început să se instaleze în sistemul de căutare Google
BERT reprezintă Bidirectional Encoder Representations from Transformers, o tehnică bazată pe rețea neuronală folosită de Google pentru pre-instruire în procesarea limbajului natural (NLP).

Pe scurt, BERT ajută computerele să înțeleagă limbajul mai mult ca oamenii și este cea mai mare schimbare în căutare de când Google a introdus RankBrain.

Nu este un înlocuitor pentru RankBrain, ci mai degrabă o metodă adăugată pentru înțelegerea conținutului și a interogărilor.

Google folosește BERT în sistemul său de clasare ca un plus. Algoritmul RankBrain încă există pentru unele interogări și va continua să existe. Dar când Google consideră că BERT poate înțelege mai bine o interogare, o va folosi.

Pentru mai multe informații despre BERT, consultați această postare de Barry Schwartz, precum și scufundarea în profunzime a lui Dawn Anderson.

Clasează-ți site-ul cu Word Vectors

Presupun că ați creat și publicat deja conținut unic și, chiar și după ce l-ați șlefuit din nou și din nou, nu vă îmbunătățește clasarea sau traficul.
Te întrebi de ce ți se întâmplă asta?

Poate că nu ați inclus Word Vector: modelul AI al Google.

  • Primul pas este să identifici vectorii de cuvinte din primele 10 clasamente SERP pentru nișa ta.
  • Aflați ce cuvinte cheie folosesc concurenții dvs. și ce ați putea trece cu vederea.

Prin aplicarea Word2Vec, care profită de tehnicile avansate de procesare a limbajului natural și de cadrul de învățare automată, veți putea vedea totul în detaliu.

Dar acestea sunt posibile dacă cunoașteți tehnicile de învățare automată și NLP, dar putem aplica vectori de cuvinte în conținut folosind următorul instrument:

WordGraph, primul instrument Vector Word din lume

Acest instrument de inteligență artificială este creat cu rețele neuronale pentru procesarea limbajului natural și antrenat cu învățare automată.

Bazat pe inteligența artificială, WordGraph vă analizează conținutul și vă ajută să îmbunătățiți relevanța acestuia pentru primele 10 site-uri web din clasament.

Acesta sugerează cuvinte cheie care sunt legate matematic și contextual de cuvântul cheie principal.
Personal, îl asociez cu BIQ, un instrument SEO puternic care funcționează bine cu WordGraph.

Adăugați conținutul dvs. la instrumentul de informații despre conținut încorporat în Biq. Vă va arăta o listă întreagă de sfaturi SEO pe pagină pe care le puteți adăuga dacă doriți să vă clasați pe prima poziție.

Puteți vedea cum funcționează inteligența de conținut în acest exemplu. Listele vă vor ajuta să stăpâniți SEO pe pagină și să vă clasificați folosind metode acționabile!

Cum să supraîncărcați vectorii de cuvinte: folosind marcarea datelor structurate

Schema de marcare sau date structurate este un tip de cod (scris în JSON, Java-Script Object Notation) creat folosind vocabularul schema.org care ajută motoarele de căutare să acceseze cu crawlere, să organizeze și să afișeze conținutul.

Cum să adăugați date structurate

Datele structurate pot fi adăugate cu ușurință pe site-ul dvs., adăugând un script inline în html
Un exemplu de mai jos arată cum să definiți datele structurate ale organizației dvs. în cel mai simplu format posibil.

Pentru a genera Schema Markup, folosesc acest Schema Markup Generator (JSON-LD).

Iată exemplul live de marcare a schemei pentru https://www.telecloudvoip.com/. Verificați codul sursă și căutați JSON.

După ce este creat codul de markup al schemei, utilizați testul de rezultate îmbogățite de la Google pentru a vedea dacă pagina acceptă rezultate îmbogățite.
De asemenea, puteți utiliza instrumentul Semrush Site Audit pentru a explora elementele de date structurate pentru fiecare adresă URL și pentru a identifica ce pagini sunt eligibile pentru a fi în Rezultate îmbogățite.

De ce sunt importante datele structurate pentru SEO?

Datele structurate sunt importante pentru SEO, deoarece ajută Google să înțeleagă despre ce este vorba despre site-ul și paginile dvs., rezultând o clasare mai precisă a conținutului dvs.
Datele structurate îmbunătățesc atât experiența Search Bot, cât și experiența utilizatorului prin îmbunătățirea SERP (paginile cu rezultate ale motorului de căutare) cu mai multe informații și acuratețe.
Pentru a vedea impactul în căutarea Google, accesați Search Console și în Performanță > Rezultatul căutării > Aspectul căutării, puteți vedea o defalcare a tuturor tipurilor de rezultate bogate, cum ar fi „videoclipuri” și „Întrebări frecvente” și puteți vedea afișările organice și clicurile pe care le-au generat. pentru conținutul dvs.

Următoarele sunt câteva avantaje ale datelor structurate:

  • Datele structurate suportă căutarea semantică
  • De asemenea, vă sprijină E‑AT (expertiză, autoritate și încredere)
  • Dacă aveți date structurate, puteți crește și ratele de conversie, deoarece mai mulți oameni vă vor vedea înregistrările, ceea ce crește probabilitatea ca aceștia să cumpere de la dvs.
  • Folosind date structurate, motoarele de căutare pot înțelege mai bine marca dvs., site-ul dvs. web și conținutul dvs.
  • Va fi mai ușor pentru motoarele de căutare să facă distincția între paginile de contact, descrierile produselor, paginile de rețete, paginile de evenimente și recenziile clienților.
  • Cu ajutorul datelor structurate, Google construiește un grafic de cunoștințe mai bun și mai precis și un panou de cunoștințe despre marca dvs.
  • Aceste îmbunătățiri pot duce la mai multe afișări organice și clicuri organice.

Datele structurate sunt utilizate în prezent de Google pentru a îmbunătăți rezultatele căutării. Când oamenii caută paginile dvs. web folosind cuvinte cheie, datele structurate vă pot ajuta să obțineți rezultate mai bune. Motoarele de căutare vor observa conținutul dvs. mai mult dacă adăugăm marcajul Schema.
Puteți implementa marcarea schemei pe un număr de articole diferite. Mai jos sunt enumerate câteva zone în care schema poate fi aplicată:

  • Articole
  • Postări pe blog
  • Articole de știri
  • Evenimente
  • Produse
  • Videoclipuri
  • Servicii
  • Recenzii
  • Evaluări agregate
  • Restaurante
  • Afacere locală

Iată o listă completă a elementelor pe care le puteți marca cu schema.

Date structurate cu încorporare de entități

Termenul „entitate” se referă la o reprezentare a oricărui tip de obiect, concept sau subiect. O entitate poate fi o persoană, un film, o carte, o idee, un loc, o companie sau un eveniment.
În timp ce mașinile nu pot înțelege cu adevărat cuvintele, cu încorporarea de entități, ele sunt capabile să înțeleagă cu ușurință relația dintre rege – regină = soț – soție
Înglobările de entități au rezultate mai bune decât codificările one-hot

Algoritmul vector al cuvintelor este folosit de Google pentru a descoperi relațiile semantice dintre cuvinte și, atunci când este combinat cu date structurate, ajungem la un web îmbunătățit semantic.

Folosind date structurate, contribuiți la un web mai semantic. Acesta este un web îmbunătățit în care descriem datele într-un format care poate fi citit de mașină.

Datele semantice structurate de pe site-ul dvs. ajută motoarele de căutare să potrivească conținutul dvs. cu publicul potrivit. Utilizarea NLP, Machine Learning și Deep Learning ajută la reducerea decalajului dintre ceea ce caută oamenii și ce titluri sunt disponibile.

Gânduri finale

Pe măsură ce înțelegeți acum conceptul de vectori de cuvinte și importanța acestuia, puteți face strategia de căutare organică mai eficientă și mai eficientă utilizând vectori de cuvinte, înglobări de entități și date semantice structurate.
Pentru a obține cea mai înaltă clasare, trafic și conversii, trebuie să utilizați vectori de cuvinte, înglobări de entități și date semantice structurate pentru a demonstra lui Google că conținutul de pe pagina dvs. web este exact, precis și de încredere.