Vincent Terrasi: Importanța actualizării de conținut util
Publicat: 2022-08-26Ce este actualizarea algoritmului de conținut util?
Săptămâna trecută, Google a anunțat lansarea unei actualizări de algoritm care urmărește să îmbunătățească calitatea rezultatelor căutării prin promovarea Conținutului util, care este în prezent lansat. Această actualizare se va aplica inițial numai pentru site-urile web în limba engleză și poate devaloriza conținutul întregului site dacă site-ul are o cantitate semnificativă de conținut neutil.
Ca și în cazul EAT, noțiunea de „util” nu poate fi cuantificată cu ușurință prin metrici concrete; algoritmul se bazează pe învățarea automată pentru a identifica conținutul neutil.
SEO cu experiență, specializați în EAT și actualizări de algoritm, au analizat deja, în detaliu, despre ce se știe și cum să reacționeze la actualizarea Conținutului util. Merita citite analizele lui Marie Haynes, Glenn Gabe si Lily Ray.
Pentru a continua discuția, am vorbit cu Vincent Terrasi, director de produs la Oncrawl și un expert în SEO de date, cu accent pe învățarea automată și pe modele de limbaj precum BERT și GPT-3.
Interviul cu Vincent Terrasi
„Putem identifica conținutul pur AI ca fiind nenatural și, prin urmare, va fi penalizat. Dar, pe de altă parte, în spatele acestei noțiuni de Conținut util, există un alt subiect care poate afecta negativ toate noile instrumente semantice care se bazează pe SERP-uri. În sfârșit, Google va putea detecta supraoptimizarea, adică pe cineva care ar face inginerie inversă amprenta perfectă pentru a se clasa în Google.”
Analiza conținutului și detectarea supraoptimizării: ce se va schimba cu adevărat actualizarea conținutului util
Rebecca: Mă tot gândesc la diferite elemente ale muncii tale care au câștigat locul al doilea la Tech SEO Boost 2019, unde ai vorbit despre generarea de text pentru SEO, impacturi și pericole. Am discutat, de asemenea, subiectul, mai ales când Google a lansat BERT, vorbind despre următorii pași și despre cum vor putea generaliza analiza textului prin învățarea automată. În acest caz, este un fel de clasificare și apoi de analiză semantică pe deasupra. Cam asta ai și tu din asta? Vă surprinde această actualizare?
Vincent: Da, asta am anunțat la SEO Boost Tech: că ei [Google] vor merge după acest tip de conținut.
Tot le spun clienților care sunt interesați de generarea de text la Oncrawl de ce trebuie să fie atenți la conținutul generat.
Trebuie să fii atent când vorbești despre conținutul generat de AI (inteligență artificială). Cu actualizarea Conținut util, nu vorbim deloc despre o acțiune manuală, chiar dacă ar putea părea genul de lucru care ar duce la o acțiune manuală. S-ar putea să fi văzut unele dintre știrile recente despre site-urile generate de AI și cu siguranță le-aș clasifica drept acțiune manuală. Asta a fost acum trei luni: au existat acțiuni manuale puternice în care au existat site-uri care spuneau că câștigă 100.000 USD pe lună. Toate au fost deindexate. Sunt acțiuni manuale.
Acum, există această actualizare cu un model de învățare automată care poate identifica dacă este text fără valoare adăugată. Așa că prefer să nu vorbesc despre AI, ci despre site-uri cu sau fără conținut fără valoare adăugată.
Rebecca: Da, există o confirmare de la Google că nu este vorba despre acțiunile manuale. Este interesant că, în acest caz, Google spune clar că este învățare automată și că rulează aproape tot timpul. Deci, în următoarele luni, un site afectat ar putea fi reclasificat... sau nu.
Vincent: Voi vorbi despre asta la conferința mea din septembrie cu Christian Meline la SEO Camp Paris, pentru că este ceva ce am identificat acum cinci luni. Iti poti imagina? Am identificat deja că se întâmplă lucruri cu Google.
În general, există două subiecte:
Există subiectul conținutului generat de AI. Putem spune că conținutul spam poate fi foarte ușor de identificat, deoarece AI se repetă. Dacă îl împărțiți în grupuri de cuvinte de trei, patru, cinci cuvinte, veți vedea că repetă aceleași fraze. Este foarte ușor de detectat. Nu trebuie să faceți învățare automată.
Și, pe de altă parte, partea de învățare automată este că, de fapt, există probabilități foarte stabile ca următorul cuvânt să apară.
Rebecca: Da, am vorbit și despre asta când lucram la cursurile tale de formare. Pe plan intern la Oncrawl, acest lucru a dus la munca în curs de desfășurare pentru crearea unui sistem de punctare pentru calitatea textelor generate, pentru a găsi conținut prea ușor de identificat ca atare.
Vincent: Așa este.
Putem identifica conținutul pur AI ca fiind nenatural și, prin urmare, va fi penalizat. Deci asta e prima problemă.
Dar, pe de altă parte, în spatele acestei noțiuni de Conținut util, există un alt subiect care poate afecta negativ toate noile instrumente semantice care se bazează pe SERP-uri.
În sfârșit, Google va putea detecta supraoptimizarea, adică pe cineva care ar face inginerie inversă amprenta perfectă pentru a se clasa pe Google. Și aici avem jucători puternici și talentați în Franța care nu au reacționat încă prea mult la știri: Freres Peyronnet, 1.fr, SEO Quantum etc. Sunt direct preocupați de problema supraoptimizării. Ei sunt direct afectați de această actualizare.
Rebecca: Să luăm site-ul tău transfer-learning.ai, care a fost mai degrabă un sandbox pentru a testa dacă am putea clasa cu conținut generat în întregime, adăugând în același timp ceva care nu există astăzi (în acest caz, legătura dintre cercetarea academică și cursurile de formare pe subiecte legate de învățare automată). După părerea ta, mai este posibil să faci așa ceva?
Vincent: Dacă aduce originalitate și nu este detectat ca spam, da, va fi întotdeauna posibil să faci așa ceva.
Cu toate acestea, dacă nu este considerat util, atunci nu va fi posibil.
În plus, vreau să le amintesc clar creatorilor francezi: vorbim despre engleză. Știm că lansarea în limba engleză poate dura luni și adesea un an. Când ne uităm înapoi la vechile actualizări de bază masive precum Panda sau Penguin, acestea au durat până la câțiva ani în unele cazuri. Cred că unii oameni vor profita de această perioadă de timp pentru a continua să practice tehnicile de spam. Și atunci Google va interveni.
Ceea ce voi discuta în timpul prezentării mele cu Christian Meline este că, în loc să propunem subiecte pe care Google le are deja și de care nu este interesat, suntem capabili să folosim noi tehnologii care ne ajută să propunem subiecte noi.
Vă voi da un exemplu. Dacă testez toate instrumentele SEO și generez idei de subiecte cu GPT-3 sau într-un instrument francez precum yourtext.guru, de exemplu, voi obține 40 de idei. Dacă folosesc tehnica lui Christian Meline, voi primi 4.500. Și unele dintre ele sunt chiar subiecte care nu au mai fost folosite până acum și nici măcar nu sunt în Google.
Ce crezi că va prefera Google? Să aibă conținut pe care îl cunoaște deja sau să aibă subiecte foarte interesante în care nimeni nu le-a săpat vreodată?
Cred că acesta este viitorul SEO: a putea detecta lucruri noi. Știu că și Koray merge în această direcție semantică.
Rebecca: Da, în sensul analizei lacunelor de conținut sau a lacunelor în care poți stabili o expertiză, pentru că sunt acele zone semantice ale unui subiect care nu sunt deloc abordate.
Vincent: Exact. Pe de altă parte, cred că această actualizare nu va face asta imediat. Va exista o versiune 1, o versiune 2 și așa mai departe. Dar scopul final al acestei actualizări este să facă asta.
[Studiu de caz] Gestionarea accesării cu crawlere a botului Google
Alte limbi și alte media: cum va fi implementată această actualizare?
Rebecca: Ai menționat mai devreme diferența dintre engleză și alte limbi precum franceza. Am făcut progrese uriașe în traducere, în procesarea agnostică a limbii, precum MuM. Crezi că va dura atât de mult până când această actualizare va trece în alte limbi?
Vincent: Sincer, am făcut ceva de la mine. Nu am tehnologia Google, nu cunosc Google, dar nu am văzut niciodată un algoritm care să dureze atât de mult să ruleze. Asta înseamnă că pentru un paragraf de 300 de cuvinte durează aproximativ zece secunde. Este o eternitate. De obicei vorbim de calcule TF-IDF, încorporare de cuvinte... și durează o secundă. Cu alte cuvinte, acest tip de algoritm este destul de greu de implementat. Acum știu că Google are tehnologia, au TPU-uri, au ingineri super inteligenți, dar cred că vor avea această limită atunci când vor folosi un model de limbă: trebuie să încărcați modelul de limbă. Și când există 200 de miliarde de parametri, poate doare.
Este amuzant, este cam în același timp cu lansarea modelului de generare de text pe HuggingFace. Deci, cred, și nu există nimeni care să spună asta cu siguranță, dar pe asta și-au bazat detectarea. De fapt, au lansat un model de generare de text pentru a detecta generarea de text. Google luptă cu focul, după cum se spune.
Rebecca: Da, cam așa funcționează, nu? Așa a fost întotdeauna în detectarea textelor automate. Folosim ceea ce știm despre modul în care este construit pentru a-l detecta.
Vincent: Ceea ce mă impresionează însă sunt instrumentele SEO care oferă o amprentă a SERP-urilor. Google spune acum: „Avem amprenta și vom putea spune dacă ești prea inspirat de ea”. Nimeni nu știe cum o fac. Știu cum o fac alte instrumente SEO, dar cum o fac ei [Google]? Nimeni nu stie.
Rebecca: De fapt, celălalt lucru care m-a remarcat a fost că este o analiză la nivel de site și apoi pentru fiecare site există, dacă vorbim într-adevăr de generalizare la nivel foarte înalt, o „valoare” a conținutului util sau inutil atribuit site-ului care poate avea impact asupra altor conținuturi de pe acel site. Și asta înseamnă multă analiză individuală și multă stocare de informații. Deci, chiar și doar pentru a procesa sau reprocesează asta, este nevoie de mult timp.
Vincent: Cred că asta este constrângerea pe care o au. Ei au anunțat că o fac doar pe Google Search, nu pe Google Discover.
Este un pic un paradox pentru că pe Google Discover, toată lumea înșală, toată lumea optimizează conținutul „SEO” doar pentru a fi în Google Discover. Cred că au o mare problemă acum cu Căutarea Google și tot acest conținut generat automat. Există unele site-uri care au trecut peste bord cu conținut generat automat.
Ei nu vorbesc despre o penalizare, așa că învârt asta ca cu Google RankBrain, ca un nou semnal.
Și nu toate site-urile vor fi afectate. Mă gândesc în special la site-urile de comerț electronic cu toate descrierile lor de produse. Știm că toată lumea se copiază.
Rebecca: Da, creând variante pe baza descrierilor oficiale ale producătorilor, mărcilor.
Vincent: Da.
Dar unele site-uri media sunt mai expuse riscului. Există un fenomen care este cunoscut în SEO de mult timp. De exemplu, unele site-uri preiau conținut în limba engleză și îl traduc fără a adăuga nicio valoare. Nimeni nu a vorbit despre asta, dar există un risc major pentru acest tip de site pentru că nu adaugă nimic și pe deasupra și au defectul de a nu-și cita sursele.
Rebecca: Și vor avea, de asemenea, conținutul original în engleză pentru a face o comparație.
Vincent: Da, etapa în care trecem de la engleză la franceză cu această actualizare va afecta probabil multe dintre site-urile spam.
Dintre toate știrile SEO din ultimele luni, aceasta este cea mai importantă actualizare. De asemenea, am putea spune și RankBrain, dar a fost mult mai puțin evident de punctat, greu de văzut care sunt rezultatele reale ale aplicării sale.
Rebecca: Cred că de fapt este aproape, cu conceptul de analiză semantică și cu părțile site-ului care nu au legătură cu restul site-ului.
Vincent: Exact.
Știu că au lucrat la asta de ceva vreme. Am avut un prieten care lucrează la Google, care a spus că lucrează la asta din 2009; au existat două echipe de cercetare în acest sens. Încearcă să o facă acum în timp real și vor face multă curățare.
Dar încă nu știm prea multe despre implementare. Cum o vor face? Cu un semnal? Vor fi indexați mai puțin bine cei care trișează? Nimeni nu poate răspunde la această întrebare, cu excepția lui John Mueller.
Rebecca: Mă îndoiesc că până și lui i se va permite. Îmi imaginez că se vor respecta linia lor de: „creați conținut util pentru utilizatori, nu pentru motoarele de căutare și nu veți avea nicio problemă”.
Vincent: Pe Twitter, el este bombardat cu întrebări despre acest subiect, iar răspunsurile lui au fost puțin ample.
Impactul asupra creării de conținut în viitor
Rebecca: Nu sunt surprinsă de asta. Cred că probabil că nu are informații mai precise. Și chiar dacă o face, trebuie să fie absolut interzis să se vorbească despre algoritm.
Oricum, sunt foarte nerăbdător să încep să văd brevetele care au legătură cu această actualizare, să fac o reanalizare a brevetelor într-un an, doi ani, să văd ce este acolo și dacă există vreo indicație de utilizare puțin mai târziu. Dar asta e un alt subiect.
Vincent: Pentru a pregăti conferința mea din septembrie, am enumerat cum recunoaștem conținutul de calitate, conținutul util. L-am bazat pe articolul din jurnaldunet (în franceză) în care Christian Meline scrisese despre acest subiect în urmă cu [trei] ani. Conținutul său este încă complet relevant. Pe de altă parte, el nu se bazează pe machine learning. El urăște, așa că acestea sunt valori de bază, utile: titlul este bine scris? Există greșeli de ortografie? Oferă cunoștințe noi? Rareori lucruri în care veți avea nevoie de învățare automată pentru a le face.
Rebecca: Acest tip de sfat va fi foarte important pentru că majoritatea SEO-urilor nu au neapărat resursele, datele, timpul sau doar abilitățile pentru a implementa învățarea automată, pentru a-și putea analiza site-urile, pentru a ști dacă există riscurile de a cădea în asta sau nu.
Vincent: Exact. Trebuie să urmărim acest lucru foarte, foarte îndeaproape.
În plus, trebuie să fim foarte atenți la ceea ce spunem. Trebuie să vorbim la timpul condițional. Nu există nimeni care să fie sigur despre acest subiect.
Rebecca: Asta e sigur. Avem doar lucruri la nivel foarte înalt, ceea ce înseamnă că nu avem dovezi, indicii și informații. Deci, în mod clar, tot ce putem spune despre asta nu sunt concluzii, ci teorii.
Vincent: Exact.
Iată ce am stabilit ca punct de plecare:
- Analiza jetoanelor pentru a privi repetiția: identificați când este excesiv, când este doar pentru a clasifica.
- Apoi, probabilitățile dintre cuvintele pe care le-am menționat mai devreme.
- Și în sfârșit unul, grupuri de cuvinte.
Doar cu aceste trei combo-uri, pot detecta 90% din textele generate de AI care nu au fost optimizate de un om. Așa că imaginați-vă ce poate face Google! Este uimitor.
Rebecca: Deci, cu siguranță, ar trebui să participăm la conferința dvs. SEO Campus pe 23 septembrie cu Christian.
Vincent: Da, am vrut să dezactivăm puțin subiectul conținutului util. Este amuzant: chiar înainte ca Google să înceapă să vorbească despre actualizare, aveam asta planificat.
Îmi place și acest subiect pentru că sunt foarte ecologic. Mă face să mă simt mai bine să știu că există astfel de controale pentru a împiedica oamenii să trimită spam. Pentru că ne costă resurse inimaginabile.
Rebecca: Da, da. Cu această actualizare, toată lumea acordă o atenție deosebită. Cred că oamenii care cred că nu va schimba nimic greșesc. Putem vedea că se va schimba nu numai modul în care creăm conținut, ci și modul în care Google evaluează conținutul. Și acestea sunt strategii pe care nu le-am văzut până acum.
Vincent: Exact. De fapt, dacă doriți să luați o poziție extremă, Google nu evaluează conținutul. Asta e o mare slăbiciune. Obișnuia doar indexarea și clasarea. Acum se vor filtra în amonte. Și asta a criticat Bing pe Google pentru că nu a făcut.
Rebecca: Da, cea mai mare parte a analizei [pe conținut] a venit la momentul clasamentului.
Vincent: Așa este. Acum pare a avea un mic filtru. Sunt de acord cu tine: abia aștept să văd brevetul care iese pe asta. Vor trebui să dezvăluie unde au pus filtrul. Unde pariezi ca au pus filtrul? Înainte, după indexare sau înainte, după clasare? Unde l-ai pune?
Rebecca: Deoarece trebuie să ai cea mai mare parte a site-ului pentru a putea face asta, aș spune...
Vincent: Nu uitați că aveți nevoie de amprenta SERP-urilor, așa cum am discutat, pentru indexare. Deci trebuie să le indexați.
Rebecca: Da, asta aveam să spun. Cred că ar trebui să fie un pas suplimentar, nu riscăm să ne de-indexăm, deci vorbim de un impact după indexare, poate și după clasamentul [inițial].
Vincent: Da, pentru mine, e după clasament. Dacă aș fi fost Google, acesta este ceva ce l-aș fi adăugat la Google RankBrain, deoarece este capabil să adună semnale etc. Acum, întrebarea este cât de impact va fi pe site-uri.
Rebecca: Cu învățarea automată, poate varia foarte mult de la un site la altul, deoarece poți avea un control mult mai mare asupra impactului său și asupra cât de mult conținut inutil este pe fiecare site.
Vincent: Limita cu Google este falsul pozitiv. Aceasta ar fi de-indexarea [sau penalizarea] paginilor legitime. Așa că cred că impactul inițial va fi foarte, foarte scăzut, dar chiar vor merge după trișori.
Totuși, am avut oameni care mă contactau, care erau puțin îngrijorați. Le-am spus că la început, va detecta doar text fără calitate. Adică cred că un text [generat], urmat de corecturi umane, poate avea toată utilitatea lui.
Nu sunt la fel de strict ca alții care spun „AI = gunoi”. Nici eu nu prea cred asta.
Rebecca: Asta nu mă surprinde, venind de la tine!
Este puțin frustrant, știind că va fi lent. După cum spuneți, pentru a evita falsele pozitive, acesta este un alt motiv pentru lansarea în limba engleză: au o mai bună cunoaștere a limbii engleze. Acest lucru face posibilă introducerea unor controale suplimentare care sunt mult mai costisitoare, înainte de a generaliza întregul web și la alte limbi care sunt mai puțin bine stăpânite, mai puțin bine automatizate.
În orice caz, a fost o discuție foarte bogată. Vă mulțumesc foarte mult pentru acest schimb.
Vincent: Putem vorbi din nou despre asta oricând doriți.
Rebecca: A fost o plăcere.