[Webinar Digest] SEO pe orbită: Rankbrain, AI, învățarea automată și viitorul căutării

Publicat: 2019-11-13

Seminarul web Rankbrain, AI, învățarea automată și viitorul căutării face parte din seria SEO în Orbit și a fost difuzat pe 19 iunie 2019. În acest episod, Bill Slawski își valorifică cunoștințele despre patentele Google și despre funcționarea căutării pentru a distruge. jos algoritmii probabili de căutare utilizați astăzi și postulează cum ar putea arăta sub capota unei versiuni viitoare a Google. Alăturați-vă nouă în timp ce explorăm viitorul SEO tehnic.

SEO in Orbit este prima serie de seminarii web care trimite SEO în spațiu. De-a lungul seriei, am discutat despre prezentul și viitorul SEO tehnic cu unii dintre cei mai buni specialiști SEO și am trimis sfaturile lor de top în spațiu pe 27 iunie 2019.

Urmărește reluarea aici:

Prezentându-l pe Bill Slawski

Bill Slawski, expert autodidact în brevete în motoare de căutare, este directorul SEO de la Go Fish Digital și blogger la SEO by the Sea. În cuvintele lui Bill: „Nu sunt informatician și nu sunt matematician. Am o diplomă de licență în limba engleză și o diplomă de Jurisdoctor în Drept. Citesc brevete de la motoarele de căutare din jurul anului 2005, pentru a afla ce au de spus despre căutare, căutare și web. Multe dintre aceste brevete acoperă algoritmi care urmăresc să abordeze anumite probleme și am găsit multe utile atunci când vine vorba de realizarea SEO.”

Acest episod a fost găzduit de Francois Goube, antreprenor în serie și co-fondatorul și CEO-ul OnCrawl. A fondat mai multe companii și este implicat activ în ecosistemul startup-urilor. Pasionat de analiza semantică și motoarele de căutare, îi place să analizeze publicațiile științifice Google și este un vorbitor regulat la conferințele SEO.

Ce sunt inteligența artificială și învățarea automată?

Există o mulțime de definiții ale AI.

O mare parte din munca Google se concentrează pe rețelele neuronale, ceea ce duce la modul în care funcționează învățarea automată. Utilizează un set de date care reprezintă setul de date ideal, marcat pentru a sublinia anumite caracteristici despre acesta, care este folosit pentru a antrena clasificatori. Acestea sunt apoi transformate în alte seturi de date pentru a analiza și clasifica noile informații pe baza a ceea ce au învățat din setul de eșantion. Asta este învățarea automată.

Domenii acoperite de AI

– Limbajul natural

AI poate acoperi diferite domenii, cum ar fi o mai bună înțelegere a limbajului natural. Există o serie de tehnici implicate și multe dintre lucrurile care vin de la Google ilustrează ceea ce este implicat în analiza limbajului natural.

– Răspuns la întrebare

Un brevet recent (link) încearcă să completeze spațiile libere în schemele de răspuns la întrebări.

Acesta explică modul în care Google ar putea folosi un grafic de cunoștințe pentru a înțelege care ar putea fi răspunsul la o întrebare. De exemplu, dacă lipsesc informații sau date incorecte pentru entități, Google ar putea încerca să estimeze răspunsul pe baza informațiilor asociate cu fapte conexe.

Ceea ce este interesant la acest brevet nu este că Google folosește estimarea pentru a răspunde la întrebări, ci că oferă explicațiile estimărilor lor.

– imitarea gândirii umane (rețele neuronale)

Învățarea automată se bazează pe AI, pe imitarea modului în care ar putea funcționa gândirea umană. Rețelele de învățare automată sunt numite rețele neuronale deoarece sunt construite pentru a încerca să reproducă modul în care funcționează neuronii dintr-un creier.

Rankbrain

– Relația cu pasărea colibri și contextul cuvântului

Atât Rankbrain, cât și Hummingbird sunt abordări de rescriere a interogărilor. Hummingbird a încercat să înțeleagă mai bine contextul unei interogări analizând toate cuvintele dintr-o interogare. Anterior, Google se uita doar la cuvinte unul lângă altul pentru a înțelege contextul; Colibri se uită dincolo de cuvintele imediat lângă altele. Ar putea chiar să ia în considerare propozițiile complete în interogările conversaționale. Hummingbird a încercat să folosească împreună toate cuvintele din interogare pentru a înțelege contextul.

– Rescrierea interogărilor în Rankbrain folosind abordarea de încorporare a cuvintelor

Spre deosebire de Hummingbird, Rankbrain folosește o abordare de încorporare a cuvintelor. Acesta examinează un scurt pasaj textual și poate determina dacă există cuvinte care lipsesc. Face acest lucru prin instruire pe seturi mari de date (200 de miliarde de cuvinte).

– Găsirea cuvintelor lipsă în interogare

De exemplu, interogarea „Puzzle New York Times” poate fi interpretată corect ca lipsind cuvântul „cuvânt încrucișat”. Rankbrain adaugă cuvântul lipsă la interogare și returnează rezultate pentru cuvintele încrucișate din New York Times celui care caută, deoarece asta este probabil ceea ce își dorește.

– Puteți optimiza pentru Rankbrain?

Este important să rețineți că nu puteți optimiza paginile pentru Rankbrain. Unii SEO au scris articole care spun că poți. Cu toate acestea, din tot ce a văzut Bill despre algoritm, sugerează că acesta este un proces de rescriere a interogărilor, nu ceva care afectează evaluarea unei pagini.

Algoritmi Google suplimentari care utilizează învățarea automată

Google nu are un singur „algoritm” care să conducă motorul de căutare. Are o mulțime de algoritmi diferiți care contribuie la modul în care funcționează. Rankbrain este unul dintre multe.

– Utilizarea scorurilor de calitate în cadrul categoriilor

Acest lucru ar putea însemna, de exemplu, că atunci când Google stabilește că există o mulțime de rezultate de tip informațional pentru o anumită interogare, în loc să clasifice paginile pe baza scorului de regăsire a informațiilor sau a evaluărilor de autoritate, cum ar fi PageRank, ar putea lua în considerare categorii. De acolo, s-ar putea să acorde Scoruri de calitate în cadrul categoriilor de site-uri web. Acest lucru va oferi un set mai divers de rezultate și va asigura că rezultatele de calitate superioară pot trece mai rapid în partea de sus a rezultatelor.

– Popularitatea paginii pentru rezultatele navigației

Acest tip de algoritm de clasare favorizează și paginile care sunt mai populare (pagini la care oamenii tind să meargă), în special pentru rezultatele de tip navigare. Când cei care caută deja știu că pagina este ceva ce doresc să vadă, pagina va tinde să se claseze foarte bine în paradigmele Scorului de calitate al categoriei.

– Influența CTR SERP

Scorurile de calitate ale categoriilor sugerează, de asemenea, că paginile care sunt adesea selectate în rezultatele căutării sunt, de asemenea, pagini de înaltă calitate și, de asemenea, s-ar clasa foarte bine în această abordare a calității categoriei.

Cu toate acestea, deși o abordare a scorului de calitate al categoriei este cu siguranță învățarea automată, nu este Rankbrain.

Rankbrain pentru satisfacerea nevoilor situaționale ale căutărilor

Rankbrain încearcă să înțeleagă ce poate lipsi dintr-o interogare. Cel mai important aspect al Rankbrain este că încearcă să răspundă nevoilor situației de căutare: ce a vrut să spună cu adevărat această persoană când a introdus interogarea în casetă?

Interogări de cuvinte cheie anterioare versus interogări vorbite și conversaționale curente

Dacă ne îndreptăm către interogări vorbite și de tip conversație, vor fi implicate mai multe cuvinte decât abordarea prin cuvinte cheie care a fost folosită în trecut.

În calitate de cercetător, încercați să ghiciți ce cuvinte trebuie să utilizați pentru a găsi informațiile de care aveți nevoie. Și nu ar trebui să faci astfel de presupuneri. Dacă cereți ceea ce doriți, Google ar trebui să fie capabil să îl analizeze și să determine ce ați vrut probabil să spuneți. Acesta este rolul Rankbrain.

Abordări de procesare a limbajului natural

Unul dintre lucrurile pe care le vedem este că Google acordă mult mai multă atenție procesării limbajului natural. Vedem că apar abordări de procesare a limbajului natural.

– Potrivirea neuronală

Danny Sullivan a scris puțin pe Twitter despre ceva ce a numit potrivire neuronală.

El a spus că acesta este un mijloc de a înțelege mai bine cuvintele de pe pagini și sensul acelor cuvinte în context. El a oferit câteva exemple despre cum un cuvânt ar putea însemna trei sau patru lucruri diferite, în funcție de modul în care este poziționat într-o propoziție.

– Încorporarea cuvântului

Google a lansat brevete despre utilizarea unei abordări de tip de încorporare a cuvintelor (cum au folosit-o în Rankbrain pentru a înțelege acele interogări textuale scurte) pentru cantități mai mari de text, cum ar fi paginile web.

– Cadre semantice

Un cadru semantic este atunci când folosești un limbaj ideal pentru o anumită situație. În fiecare situație, există un anumit limbaj care este folosit. De exemplu, punctele în contextul achiziției de credite ipotecare sau imobiliare nu au același înțeles ca punctele din jocurile de zaruri sau de societate.

Dacă înțelegeți cadrul, puteți înțelege mai bine contextul cuvintelor dintr-o pagină.

Acest lucru poate ajuta și la diferențierea cuvintelor în care sensul în sine diferă de la o situație la alta. „Cal”, de exemplu, nu înseamnă același lucru pentru un ecvestru și pentru un dulgher. Alte brevete au explorat, de asemenea, metode suplimentare de înțelegere a diferențelor contextuale în sens.

Utilizarea învățării automate pentru a identifica autorii pe baza stilurilor de scriere

Este destul de ușor pentru o mașină să identifice stilul de scriere al unui individ. Există o paralelă între aceasta și clasificările tematice ale conținutului datorită stilurilor standardizate în industrii precum imobiliare, sport etc.

În calitate de student englez, Bill a analizat literatura și a analizat diferitele moduri în care autorii s-au exprimat și de ce.

– Autorul punctează brevetul folosind frecvența de citare

Google are un brevet privind scorurile autorului. Pentru a nota autorii, unul dintre factorii luați în considerare este cât de des sunt citați de alți scriitori.

– Vizualizator Google Cărți N-Gram

Google lucrează mult cu modele de limbaj. Au scanat un număr mare de cărți. Vizualizatorul N-Gram vă permite să vedeți cum evoluează popularitatea unei fraze de-a lungul anilor.

– Brevet Scorul de calitate de N. Panda folosind modele de limbaj

Brevetul pentru Scorul de calitate al lui N. Panda vorbește despre utilizarea N-gramelor și despre construirea modelelor de limbaj pentru a înțelege calitatea paginilor web pe baza modului în care acestea se compară cu alte modele de limbă.

Acesta este un exemplu excelent de învățare automată în tehnologia motoarelor de căutare. Avem un set de date de pagini cu punctaj anterior și comparăm paginile noi cu cele bazate pe datele din setul de mostre inițial. Deoarece aceasta este folosită pentru a determina calitatea, paginile care conțin caracteristici ale paginilor bine scrise din setul original vor obține un scor mai mare.

Acest tip de model de limbaj poate fi folosit și pentru a înțelege stilul de scriere al diferiților autori.

Învățare automată viitoare cu date structurate

Învățarea automată este evidentă și în modul în care Google gestionează entitățile, în traducere și în aspectul a ceea ce Cindy Krum a numit Fraggles.

– Răspuns la pasaje și întărirea conținutului textual

Există un alt brevet care vorbește despre pasaje de răspuns, în care Google propune un mecanism de utilizare a pasajelor textuale găsite pe paginile web pentru a oferi răspunsuri la întrebări. Acesta a fost recent actualizat pentru a analiza nu numai pasajele textuale, ci și datele structurate care întăresc textul.

– Verificarea faptelor și consecvența

Utilizarea Schema asigură redundanță în informații. Acest lucru oferă Google un mijloc de a verifica consistența faptelor informaționale pe o pagină web prin compararea informațiilor textuale cu informațiile furnizate în marcajul structurat.

Acesta este același lucru care se întâmplă pe Google Maps, unde Google se uită la nume, adresă și număr de telefon.

Consecvența oferă un nivel de încredere că răspunsul poate fi mai probabil să fie corect.

– Pagini de întrebări frecvente și pagini de instrucțiuni

Pe măsură ce Google introduce suport pentru paginile de întrebări frecvente și schema de instrucțiuni, le vedem că se îndreaptă către mijloace de a-i determina pe proprietarii de site-uri să construiască în Scheme care reflectă ceea ce ar putea pune în textul unei pagini web.

Strategii pentru înțelegerea contextului pe pagina web

Google a luat alți pași pentru a încerca să înțeleagă mai bine conținutul din paginile web. Iată câteva:

– Utilizarea bazelor de cunoștințe și a termenilor de context

Brevetele Google au indicat că ar putea analiza bazele de cunoștințe și ar putea colecta definiții ale termenilor de context din acele baze de cunoștințe. Ei ar putea apoi să caute prezența acestor termeni de context pe o pagină web pentru a ajuta la determinarea sensului dependent de context al unui cuvânt este cel mai probabil.

Deci, o pagină despre un cal (un animal) poate conține cuvinte precum „șa”, în timp ce paginile despre alte tipuri de cai ar putea conține cuvinte precum „dulgherie”.

– Indexare bazată pe fraze

O altă abordare a învățării semantice pentru înțelegerea subiectelor de pe pagini datează din 2004 sau cam asa ceva. Indexarea bazată pe fraze nu este doar veche, ci și subiectul a cel puțin 20 de brevete și a fost actualizată și modificată de mai multe ori. Toate acestea îi indică lui Bill că indexarea bazată pe fraze este ceva care are o mare importanță în algoritmii Google.

– Construirea indexului inversat al frazelor predictive ale subiectului

Unul dintre brevetele asociate cu indexarea bazată pe fraze descrie construirea unui index inversat de fraze care apar pe pagini și care sunt predictive pentru subiecte. Un exemplu ar fi expresii precum „Președintele Statelor Unite”, „Secretar de stat” sau „Interviu în grădina de trandafiri” care sunt predictive pentru un subiect semantic al „Casa Albă”.

Cunoștințe pentru webmasteri în Schema

Google dezvoltă utilizarea unor lucruri precum Schema, dar definiția tipului de lucruri descrise de Schema este oferită de webmasteri. În acest fel, webmasterii pot contribui la construirea graficelor de cunoștințe împreună cu motoarele de căutare.

De exemplu, Google a adăugat „știe despre” ca aspect al Schemei. Cu toate acestea, webmasterii sunt cei care indică faptul că avocații pot ști despre legea amiralității sau legea brevetelor, care la rândul lor ajută la completarea graficului de cunoștințe.

Reprezentarea bazată pe mașină a cunoștințelor este un efort de colaborare.

[Studiu de caz] Gestionarea accesării cu crawlere a botului Google

Cu peste 26 000 de referințe de produse, 1001Pneus avea nevoie de un instrument de încredere pentru a-și monitoriza performanța SEO și pentru a se asigura că Google își dedica bugetul de accesare cu crawlere categoriilor și paginilor potrivite. Aflați cum să gestionați cu succes bugetul de accesare cu crawlere pentru site-urile web de comerț electronic cu OnCrawl.
Citiți studiul de caz

Căutare în evoluție și practici SEO învechite

– Cuvinte repetate în text alternativ

A spune Google că o fotografie a unei persoane trebuie să fie numită de două ori nu îl ajută pe Google să o înțeleagă și de două ori. Este chiar posibil ca acesta să scadă estimarea motorului de căutare a valorii paginii.

– LSI destinat bazelor de date mici statice

Producătorii de instrumente continuă să sugereze că SEO utilizează tehnici vechi. Un exemplu este indexarea semantică latentă (LSI), care a fost dezvoltată în 1989. A fost destinată bazelor de date mici, statice, care nu au dimensiunea web-ului și nu cresc cu viteza web-ului.

De fiecare dată când doriți să utilizați LSI, trebuie să aveți cea mai recentă versiune a bazei de date. Dacă continuați să adăugați informații în corpus, acesta trebuie să fie rulat din nou. Aceasta înseamnă că nu este foarte util pentru web.

– TF-IDF funcționează numai cu acces la corpus complet

TF-IDF (termenul frecvență-index de frecvență a documentului) este un alt exemplu. Acest lucru funcționează cel mai bine dacă aveți acces la corpusul complet al informațiilor care sunt indexate, în acest caz, la World Wide Web. Folosești TF-IDF atunci când vrei să știi care sunt cele mai comune cuvinte și care sunt cuvinte rare în întregul corpus. Dar dacă utilizați doar corpus din primele zece pagini de clasare pentru anumiți termeni în loc de întregul web, nu puteți stabili frecvența efectivă a termenilor.

Acest lucru poate afecta serios acuratețea analizei dvs.

Așteptările webmasterilor și capabilitățile Google: necesitatea comunicării de la Google

În ciuda anunțurilor recente, nu știm de fapt că marcajul de paginare nu este util pentru motoarele de căutare.

Deși marcajul de paginare nu mai este folosit pentru a gestiona conținutul duplicat pe paginile paginate, avem anumite așteptări de la Google. Ar trebui să poată înțelege când paginile sunt într-o serie. Anunțuri ca acesta dezvăluie dificultatea de a ști cât de bun sau de rău este Google în ceea ce fac.

Folosind frecvent cuvinte care apar concomitent

Trucul tehnic preferat al lui Bill este să se uite la cuvintele care apar frecvent în comun și care se clasează foarte bine pentru anumiți termeni și să se asigure că le folosește pe acelea în conținut, atât în ​​corp, cât și în textul ancoră care indică din pagina sa către paginile conexe. Acest lucru profită de „accesările de ancorare”, care se presupune că sunt tratate de motoarele de căutare ca „linkuri de experți”.

Această strategie este extrasă din indexarea bazată pe fraze.

– Probabilitatea statistică de co-apariție a frazei

Brevetul de indexare bazat pe fraze a fost actualizat acum aproximativ doi ani. Această abordare folosește acum câți termeni înrudiți apar pe pagini pentru a clasifica paginile.

Cu toate acestea, dacă pe o pagină apar mai mult decât un număr probabil statistic de termeni înrudiți, aceasta poate fi marcată ca spam. De exemplu, dacă ai răzui multe pagini pe un subiect și le-ai pune pe toate pe o singură pagină, ai avea prea mulți termeni înrudiți ca să se fi întâmplat în mod natural.

Acest lucru se potrivește bine cu modul în care Bill face cercetarea cuvintelor cheie. El se uită la pagini similare și creează o listă de expresii sau cuvinte similare care apar frecvent. El poate încerca să folosească unele dintre ele pe propria sa pagină, chiar dacă nu încearcă să se claseze pentru ele. Acest lucru creează conținut relevant pentru cuvintele cheie pentru care dorește să se clasifice.

LSI vs utilizarea sinonimelor sau a conținutului înrudit semantic

Exagerarea în jurul LSI este unul dintre subiectele cele mai puțin preferate ale lui Bill, în parte pentru că termenul este înșelător. Ceea ce mulți oameni sugerează atunci când discuția despre LSI nu are nimic de-a face cu indexarea semantică latentă. În schimb, sugerează doar adăugarea de sinonime sau conținut semantic în pagini.

Indicele inversat al indexării bazate pe fraze și bazele de cunoștințe care pot furniza termeni de context indică faptul că există termeni și surse la care puteți accesa pentru a găsi cuvinte care ar putea fi de ajutor dacă sunteți în căutarea strictă a unor termeni concomitenți la rang înalt. pagini pentru cuvântul cheie.

Cuvintele care par a fi sinonime uneori nu sunt, în opinia Google.

Indexare rapidă cu instrumentul de trimitere URL

Instrumentul de trimitere URL din noua versiune a Google Search Console este o modalitate foarte rapidă de a obține pagini indexate. Bill a văzut actualizări propagate către SERP-uri în decurs de un minut sau două.

Speranța lui Bill pentru un marcaj viitor: mai multe informații pentru brevete

Întrebarea publicului: Ce markup Schema ați dori să vedeți adăugat în viitor?

Pentru că scrie mult despre brevete, Bill ar dori să vadă o modalitate mai bună de a surprinde caracteristicile unice ale brevetelor. Unele dintre aceste caracteristici includ:

  • Clasele (ceea ce este destinat să abordeze brevetul)
  • Numele brevetului, deși „entitate principală a paginii” ar putea acoperi această caracteristică

Deoarece Google vă permite deja să căutați pe baza caracteristicilor Schema, finalitatea ar fi să puteți îmbunătăți căutarea brevetelor, astfel încât oamenii să poată cere să vadă brevete care acoperă anumite categorii.

Este Answer Engine Optimization viitorul căutării?

Întrebarea publicului: Crezi că SEO va deveni AEO în viitor?

Bill crede că, într-un fel, SEO a fost întotdeauna AEO.

– Indicații mai vechi ale Google ca motor de răspuns

Nu trecem neapărat printr-o evoluție. Există indicii vechi de 15 ani că Google s-a îndreptat în această direcție, de exemplu:

  • 2004: Funcția dicționar care permite utilizatorilor să caute sensul cuvintelor
  • 2005: Postarea de blog „Doar faptele” care arată primul fragment prezentat sau răspuns direct care nu a fost mulțumit prin furnizarea de zece link-uri albastre, dar a preferat să ofere un răspuns textual.

– Sergey Brin: brevet pentru algoritmul de înțelegere a faptelor și a relațiilor dintre fapte

Un alt indiciu că Google, ca motor de răspunsuri, nu este nimic nou, este brevetul lui Sergey Brin asupra unui algoritm de înțelegere a faptelor și a relațiilor dintre fapte. Acest brevet includea cinci cărți, titlurile lor, editorii lor, autorii lor și așa mai departe.

Teoria este că un robot ar accesa cu crawlere web căutând aceste cărți și...

[Întrerupere de către OK Google]

– Filigrane audio

Există, de asemenea, conceptul de filigrane audio care profită de frecvența ultra-înaltă. Acestea ar fi în afara intervalului de auz uman, dar câinii și computerele ar fi capabili să-i identifice. Acest lucru ar putea permite diferiților furnizori să urmărească faptul că ați auzit o reclamă cu filigran și ar putea fi potențial interesat de produs.

Acest lucru există de cel puțin cinci ani și nu este ceva despre care sa discutat în SEO.

Sfat de top

„Există o mulțime de informații greșite despre subiecte precum RankBrain, Potrivirea neuronală și Învățarea automată pe web. Unele dintre ele includ fapte cercetate cu atenție amestecate cu dezinformări, așa că fiți atenți la ceea ce vă bazați.”

SEO în Orbit a mers în spațiu

Dacă ați ratat călătoria noastră în spațiu pe 27 iunie, prindeți-o aici și descoperiți toate sfaturile pe care le-am trimis în spațiu.