Ce este indexarea semantică latentă și cum funcționează?
Publicat: 2020-04-02Indexarea semantică latentă (LSI) a fost mult timp motiv de dezbatere în rândul agenților de marketing în căutare. Google termenul „indexare semantică latentă” și veți întâlni atât avocați, cât și sceptici în egală măsură. Nu există un consens clar cu privire la beneficiile luării în considerare a LSI în contextul marketingului pentru motoarele de căutare. Dacă nu sunteți familiarizat cu conceptul, acest articol va rezuma dezbaterea despre LSI, astfel încât să puteți înțelege ce înseamnă aceasta pentru strategia dvs. SEO.
Ce este indexarea semantică latentă?
LSI este un proces găsit în procesarea limbajului natural (NLP). NLP este un subset de lingvistică și ingineria informației, cu accent pe modul în care mașinile interpretează limbajul uman. O parte cheie a acestui studiu este semantica distribuțională. Acest model ne ajută să înțelegem și să clasificăm cuvinte cu semnificații contextuale similare în seturi mari de date.
Dezvoltat în anii 1980, LSI folosește o metodă matematică care face recuperarea informațiilor mai precisă. Această metodă funcționează prin identificarea relațiilor contextuale ascunse dintre cuvinte. Vă poate ajuta să o descompuneți astfel:
- Latent → Ascuns
- Semantic → Relații între cuvinte
- Indexare → Preluare informații
Cum funcționează indexarea semantică latentă?
LSI funcționează folosind aplicarea parțială a descompunere a valorii singulare (SVD). SVD este o operație matematică care reduce o matrice la părțile sale constitutive pentru calcule simple și eficiente.
Atunci când analizează un șir de cuvinte, LSI elimină conjuncțiile, pronumele și verbele comune, cunoscute și sub numele de cuvinte oprite. Aceasta izolează cuvintele care cuprind „conținutul” principal al unei fraze. Iată un exemplu rapid despre cum ar putea arăta:
Aceste cuvinte sunt apoi plasate într-o matrice de document pe termen (TDM). Un TDM este o grilă 2D care listează frecvența cu care fiecare cuvânt (sau termen) specific apare în documentele dintr-un set de date.
Funcțiile de cântărire sunt apoi aplicate TDM. Un exemplu simplu este clasificarea tuturor documentelor care conțin cuvântul cu o valoare de 1 și a tuturor celor care nu conțin o valoare de 0. Când cuvintele apar cu aceeași frecvență generală în aceste documente, se numește co-ocurență . Mai jos veți găsi un exemplu de bază al unui TDM și modul în care acesta evaluează co-apariția în mai multe fraze:
Utilizarea SVD ne permite să aproximăm tiparele de utilizare a cuvintelor în toate documentele. Vectorii SVD produși de LSI prezic sensul mai precis decât analiza termenilor individuali. În cele din urmă, LSI poate folosi relațiile dintre cuvinte pentru a înțelege mai bine sensul sau sensul lor într-un context specific.
[Studiu de caz] Stimularea creșterii pe noi piețe cu SEO pe pagină
Cum s-a implicat indexarea semantică latentă în SEO?
În anii săi de formare, Google a descoperit că motoarele de căutare clasau site-urile web pe baza frecvenței unui anumit cuvânt cheie. Acest lucru, însă, nu garantează cel mai relevant rezultat al căutării. În schimb, Google a început să clasifice site-urile web pe care le considerau arbitri de încredere ai informațiilor.
De-a lungul timpului, algoritmii Google ar filtra site-urile web de calitate scăzută și irelevante cu o mai mare acuratețe. Prin urmare, marketerii trebuie să înțeleagă sensul din spatele unei căutări, în loc să se bazeze pe cuvintele exacte folosite. Acesta este motivul pentru care Roger Montti a descris LSI ca fiind „roți de antrenament pentru motoarele de căutare” într-un articol despre convingerile învechite de SEO, adăugând că LSI are „relevanță mică până la zero pentru modul în care motoarele de căutare clasifică site-urile astăzi”.
Semnificația unei interogări de căutare este strâns legată de intenția din spatele acesteia. Google menține un document numit Ghidul pentru evaluarea calității căutării. În aceste instrucțiuni, ele introduc patru categorii utile pentru intenția utilizatorului:
- Know Query – Aceasta reprezintă căutarea de informații despre un subiect. O variantă la aceasta este interogarea „Know Simple”, care este atunci când utilizatorii caută cu un anumit răspuns în minte.
- Faceți interogări – Aceasta reflectă dorința de a se angaja într-o anumită activitate, cum ar fi o achiziție online sau o descărcare. Toate aceste interogări pot fi definite printr-un sentiment de „interacțiune”.
- Interogare pe site - Aceasta este atunci când utilizatorii caută un anumit site web sau o pagină. Aceste căutări indică o cunoaștere anterioară a unui anumit site web sau a unei mărci.
- Interogare de vizită personală – utilizatorul caută o locație fizică, cum ar fi un magazin fizic sau un restaurant.
Teoria din spatele LSI – definirea sensului contextual al unui cuvânt într-o frază – a oferit Google un avantaj competitiv. Cu toate acestea, a început să se răspândească ideea că „cuvintele cheie LSI” au fost dintr-o dată un bilet de aur pentru succesul SEO.
„Cuvinte cheie LSI” există cu adevărat?
Multe publicații notabile rămân fermi susținători ai cuvintelor cheie LSI. Cu toate acestea, mai multe surse, cum ar fi analistul Google Trends pentru webmasteri, John Mueller, afirmă că acestea sunt un mit. Aceste surse au început să ridice următoarele puncte:
- LSI a fost dezvoltat înainte de World Wide Web și nu a fost destinat să fie aplicat unui set de date atât de mare și dinamic.
- Brevetul american privind indexarea semantică latentă, acordat unei organizații numite Bell Communications Research Inc. în 1989, ar fi expirat în 2008. Prin urmare, potrivit lui Bill Slawski, Google folosind LSI ar fi asemănător cu „folosirea unui dispozitiv telegrafic inteligent pentru a se conecta la web mobil.'
- Google folosește RankBrain, o metodă de învățare automată care transformă volume de text în „vectori” – entități matematice care ajută computerele să înțeleagă limbajul scris. RankBrain găzduiește web-ul ca un set de date în continuă expansiune, făcându-l utilizabil de către Google, spre deosebire de LSI.
În cele din urmă, LSI dezvăluie un adevăr pe care marketerii ar trebui să-l respecte: explorarea contextului unic al unui cuvânt ne ajută să înțelegem mai bine intenția utilizatorului decât cuvintele cheie introduse în conținut. Cu toate acestea, acest lucru nu confirmă neapărat că Google se clasează pe baza LSI. Prin urmare, ar putea fi sigur să spunem că LSI funcționează în SEO ca o filozofie, mai degrabă decât o știință exactă?
Să revenim la citatul Roger Montti despre LSI ca „roți de antrenament pentru motoarele de căutare”. Odată ce înveți să mergi pe bicicletă, ai tendința să dai jos roțile de antrenament. Putem presupune că în 2020, Google nu mai folosește roțile de antrenament?
Putem lua în considerare recenta actualizare a algoritmului Google. În octombrie 2019, Pandu Nayak, vicepreședintele Căutării, a anunțat că Google a început să folosească un sistem AI numit BERT (Reprezentări de codificatori bidirecționale de la Transformers). Afectând peste 10% din toate interogările de căutare, aceasta este una dintre cele mai mari actualizări Google din ultimii ani.
Când analizează o interogare de căutare, BERT ia în considerare un singur cuvânt în relație cu toate cuvintele din acea expresie particulară. Această analiză este bidirecțională, în sensul că ia în considerare toate cuvintele înainte sau după un anumit cuvânt. Eliminarea unui singur cuvânt ar putea avea un impact drastic asupra modului în care BERT înțelege contextul unic al unei fraze.
Acest lucru marchează un contrast față de LSI, care omite orice cuvinte stop din analiza sa. Exemplul de mai jos arată cum eliminarea cuvintelor stop poate modifica modul în care înțelegem o expresie:
În ciuda faptului că este un cuvânt stop, „găsirea” este cheia căutării, pe care am defini-o ca o interogare „vizită în persoană”.
Deci, ce ar trebui să facă marketerii?
Inițial, se credea că LSI poate ajuta Google să potrivească conținutul cu interogările relevante. Cu toate acestea, se pare că dezbaterea în marketing în jurul utilizării LSI încă nu a ajuns la o singură concluzie. În ciuda acestui fapt, specialiștii în marketing pot face în continuare mulți pași pentru a se asigura că munca lor rămâne relevantă din punct de vedere strategic.
În primul rând, articolele, copia web și campaniile plătite ar trebui optimizate pentru a include sinonime și variante. Acest lucru explică modul în care oamenii cu intenții similare folosesc limbajul în mod diferit.
Specialiştii în marketing trebuie să continue să scrie cu autoritate şi claritate. Aceasta este o necesitate absolută dacă doresc ca conținutul lor să rezolve o anumită problemă. Această problemă poate fi lipsa de informații sau necesitatea unui anumit produs sau serviciu. Odată ce specialiștii în marketing fac acest lucru, arată că înțeleg cu adevărat intenția utilizatorului.
În cele din urmă, ar trebui să utilizeze frecvent datele structurate. Indiferent dacă este un site web, o rețetă sau o întrebare frecventă, datele structurate oferă Google contextul pentru a înțelege ceea ce accesează cu crawlere.