Vincent Terrasi: L'importanza dell'aggiornamento dei contenuti utili
Pubblicato: 2022-08-26Che cos'è l'aggiornamento dell'algoritmo Contenuto utile?
La scorsa settimana, Google ha annunciato il rilascio di un aggiornamento dell'algoritmo che cerca di migliorare la qualità dei risultati di ricerca promuovendo i contenuti utili, attualmente in fase di rilascio. Questo aggiornamento si applicherà inizialmente solo ai siti Web in lingua inglese e potrebbe svalutare il contenuto dell'intero sito se il sito ha una quantità significativa di contenuti non utili.
Come con EAT, la nozione di "utile" non può essere facilmente quantificata da metriche concrete; l'algoritmo si basa sull'apprendimento automatico per identificare i contenuti inutili.
SEO esperti specializzati in EAT e aggiornamenti di algoritmi hanno già analizzato, in dettaglio, cosa si sa e come reagire all'aggiornamento dei contenuti utili. Vale la pena leggere le analisi di Marie Haynes, Glenn Gabe e Lily Ray.
Per approfondire la discussione, ho parlato con Vincent Terrasi, Product Director di Oncrawl ed esperto in Data SEO con particolare attenzione all'apprendimento automatico e ai modelli linguistici come BERT e GPT-3.
L'intervista a Vincenzo Terrasi
“Possiamo identificare i contenuti di pura intelligenza artificiale come innaturali e quindi saranno penalizzati. Ma d'altra parte, dietro questa nozione di Contenuto Utile, c'è un altro argomento che può influenzare negativamente tutti i nuovi strumenti semantici che si basano sulle SERP. Google sarà finalmente in grado di rilevare l'eccessiva ottimizzazione, voglio dire, qualcuno che decodificherebbe l'impronta perfetta per classificarsi in Google".
Analisi dei contenuti e rilevamento dell'eccessiva ottimizzazione: cosa cambierà davvero l'aggiornamento dei contenuti utili
Rebecca: Continuo a pensare a vari elementi del tuo lavoro che si sono aggiudicati il secondo posto al Tech SEO Boost 2019 dove hai parlato della generazione di testi per la SEO, degli impatti e dei pericoli. Abbiamo anche discusso l'argomento, soprattutto quando Google ha rilasciato BERT, parlando dei prossimi passaggi e di come sarebbero stati in grado di generalizzare l'analisi del testo attraverso l'apprendimento automatico. In questo caso, è un po' come la classificazione e poi l'analisi semantica per di più. È più o meno quello che stai ottenendo anche tu? Questo aggiornamento ti sorprende?
Vincent: Sì, è quello che ho annunciato alla SEO Boost Tech: che loro [Google] avrebbero cercato questo tipo di contenuto.
Continuo a dire ai clienti interessati alla generazione di testo in Oncrawl perché devono stare attenti ai contenuti generati.
Devi stare attento quando parli di contenuti generati dall'IA (intelligenza artificiale). Con l'aggiornamento dei contenuti utili, non stiamo affatto parlando di un'azione manuale, anche se potrebbe sembrare il tipo di cosa che porterebbe a un'azione manuale. Potresti aver visto alcune delle notizie recenti sui siti generati dall'intelligenza artificiale e lo classificherei sicuramente come azione manuale. Questo è successo tre mesi fa: c'erano forti azioni manuali in cui c'erano siti che affermavano di guadagnare $ 100.000 al mese. Erano tutti deindicizzati. Quelle sono azioni manuali.
Ora c'è questo aggiornamento con un modello di apprendimento automatico in grado di identificare se si tratta di testo senza valore aggiunto. Quindi preferirei non parlare di IA, ma di siti con o senza contenuto a valore aggiunto.
Rebecca: Sì, c'è una conferma da Google che non si tratta delle azioni manuali. È interessante notare che in questo caso Google sta chiaramente dicendo che si tratta di apprendimento automatico e che è praticamente in esecuzione tutto il tempo. Quindi, nei mesi successivi, un sito interessato potrebbe essere riclassificato... o meno.
Vincent: Parlerò di questo alla mia conferenza di settembre con Christian Meline al SEO Camp Paris, perché è qualcosa che abbiamo identificato cinque mesi fa. Riesci a immaginare? Avevamo già identificato che c'erano cose in corso con Google.
Nel complesso, gli argomenti sono due:
C'è il tema dei contenuti generati dall'IA. Possiamo dire che il contenuto di spam può essere molto facile da identificare perché l'IA si ripete. Se lo scomponi in gruppi di parole di tre, quattro, cinque parole, vedrai che ripete le stesse frasi. È molto facile da rilevare. Non è necessario eseguire l'apprendimento automatico.
E d'altra parte, la parte di apprendimento automatico è che ci sono in effetti probabilità molto stabili che appaia la parola successiva.
Rebecca: Sì, ne abbiamo parlato anche quando stavamo lavorando ai tuoi corsi di formazione. All'interno di Oncrawl, questo ha portato al lavoro attualmente in corso per creare un sistema di punteggio per la qualità dei testi generati, al fine di trovare contenuti troppo facilmente identificabili come tali.
Vincenzo: Esatto.
Possiamo identificare il puro contenuto di IA come innaturale e quindi sarà penalizzato. Quindi questo è il primo problema.
Ma d'altra parte, dietro questa nozione di Contenuto Utile, c'è un altro argomento che può influenzare negativamente tutti i nuovi strumenti semantici che si basano sulle SERP.
Google sarà finalmente in grado di rilevare l'eccessiva ottimizzazione, voglio dire, qualcuno che decodificherebbe l'impronta perfetta per classificarsi in Google. E qui abbiamo giocatori forti e talentuosi in Francia che non hanno ancora reagito molto alla notizia: i Freres Peyronnet, 1.fr, SEO Quantum, ecc. Sono direttamente interessati dal problema dell'eccessiva ottimizzazione. Sono direttamente interessati da questo aggiornamento.
Rebecca: Prendiamo il tuo sito transfer-learning.ai che era più una sandbox per testare se potevamo classificarci con contenuti interamente generati, aggiungendo qualcosa che oggi non esiste (in questo caso il collegamento tra ricerca accademica e corsi di formazione su argomenti relativi all'apprendimento automatico). Secondo te è ancora possibile fare questo genere di cose?
Vincent: Se porta originalità e non viene rilevato come spam, sì, sarà sempre possibile fare questo genere di cose.
Tuttavia, se non è considerato utile, non sarà possibile.
Inoltre, voglio dare un chiaro promemoria ai creatori francesi: stiamo parlando di inglese. Sappiamo che il roll-out in inglese può durare mesi e spesso un anno. Quando guardiamo indietro ai vecchi enormi aggiornamenti di base come Panda o Penguin, in alcuni casi sono durati fino a diversi anni. Penso che alcune persone approfitteranno di questo periodo di tempo per continuare a praticare tecniche di spam. E poi interverrà Google.
Quello di cui parlerò durante la mia presentazione con Christian Meline è che invece di proporre argomenti che Google ha già e che non gli interessa, siamo in grado di utilizzare nuove tecnologie che ci aiutano a proporre nuovi argomenti.
Ti faccio un esempio. Se provo tutti gli strumenti SEO e genero idee per argomenti con GPT-3, o in uno strumento francese come yourtext.guru per esempio, otterrò 40 idee. Se uso la tecnica di Christian Meline, avrò 4.500. E alcuni di essi sono persino argomenti che non sono mai stati utilizzati prima e non sono nemmeno in Google.
Cosa pensi che Google preferirà? Avere contenuti che già conosce o avere argomenti molto interessanti che nessuno ha mai approfondito?
Penso che questo sia il futuro della SEO: essere in grado di rilevare cose nuove. So che Koray sta andando anche in quella direzione semantica.
Rebecca: Sì, nel senso di analizzare le lacune o le lacune nei contenuti in cui è possibile stabilire un'esperienza, perché sono quelle aree semantiche di un argomento che non vengono affatto affrontate.
Vincenzo: Esatto. D'altra parte, penso che questo aggiornamento non lo farà immediatamente. Ci sarà una versione 1, una versione 2 e così via. Ma l'obiettivo finale di questo aggiornamento è quello di farlo.
[Case Study] Gestione della scansione dei bot di Google
Altre lingue e altri media: come verrà distribuito questo aggiornamento?
Rebecca: Hai menzionato prima la differenza tra l'inglese e altre lingue come il francese. Abbiamo fatto enormi passi avanti nella traduzione, nell'elaborazione indipendente dalla lingua, come con MuM. Pensi che ci vorrà davvero così tanto tempo prima che questo aggiornamento si sposti in altre lingue?
Vincent: Francamente, ho fatto del lavoro per conto mio. Non ho la tecnologia di Google, non conosco Google, ma non ho mai visto un algoritmo che impiega così tanto tempo per essere eseguito. Ciò significa che per un paragrafo di 300 parole, ci vogliono circa dieci secondi. È un'eternità. Di solito stiamo parlando di calcoli TF-IDF, incorporamenti di parole... e ci vuole un secondo. In altre parole, questo tipo di algoritmo è piuttosto pesante da implementare. Ora so che Google ha la tecnologia, hanno le TPU, hanno ingegneri super intelligenti, ma penso che avranno questo limite quando utilizzeranno un modello linguistico: devi caricare il modello linguistico. E quando ci sono 200 miliardi di parametri, può far male.
È divertente, è più o meno nello stesso periodo del rilascio del modello di generazione del testo su HuggingFace. Quindi penso, e non c'è nessuno che possa dirlo con certezza, ma è su questo che hanno basato la loro individuazione. In effetti, hanno rilasciato un modello di generazione del testo per rilevare la generazione del testo. Google sta combattendo il fuoco con il fuoco, come si suol dire.
Rebecca: Sì, è così che funziona, giusto? È sempre stato così nel rilevare i testi automatizzati. Usiamo ciò che sappiamo su come è costruito per rilevarlo.
Vincent: Ma quello che mi colpisce sono gli strumenti SEO che forniscono un'impronta digitale delle SERP. Google ora sta dicendo: "Abbiamo l'impronta e saremo in grado di dire se ne sei troppo ispirato". Nessuno sa come fanno. So come lo fanno gli altri strumenti SEO, ma come lo fanno [Google]? Nessuno sa.
Rebecca: In realtà, l'altra cosa che mi ha colpito è stata che si tratta di un'analisi a livello di sito e quindi per ogni sito c'è, se parliamo davvero di generalizzazione di livello molto alto, un "valore" di Contenuto utile o non utile assegnato al sito che può avere un impatto su altri contenuti di quel sito. E questo è un sacco di analisi individuale e un sacco di archiviazione di informazioni. Quindi, anche solo per elaborarlo o rielaborarlo, ci vuole molto tempo.
Vincent: Penso che questo sia il vincolo che hanno. Hanno annunciato che lo stanno facendo solo su Ricerca Google e non su Google Discover.
È un po' un paradosso perché su Google Discover tutti imbrogliano, tutti ottimizzano i contenuti "SEO" solo per essere in Google Discover. Penso che in questo momento abbiano un grosso problema con la Ricerca Google e tutti questi contenuti generati automaticamente. Ci sono alcuni siti che hanno esagerato con i contenuti generati automaticamente.
Non stanno parlando di una penalità, quindi stanno girando come con Google RankBrain, come un nuovo segnale.
E non tutti i siti saranno interessati. Penso in particolare ai siti di e-commerce con tutte le loro descrizioni dei prodotti. Sappiamo che tutti si copiano a vicenda.
Rebecca: Sì, creando varianti in base alle descrizioni ufficiali dei produttori, dei marchi.
Vincenzo: Sì.
Ma alcuni siti di media sono più a rischio. C'è un fenomeno noto in SEO da molto tempo. Ad esempio, alcuni siti prendono contenuti in inglese e li traducono senza aggiungere alcun valore. Nessuno ne ha parlato, ma c'è un grosso rischio per questo tipo di sito perché non aggiunge nulla e per di più, e hanno il difetto di non citare le loro fonti.
Rebecca: E avranno anche il contenuto originale in inglese con cui fare un confronto.
Vincent: Sì, la fase in cui passiamo dall'inglese al francese con questo aggiornamento probabilmente danneggerà molti dei siti di spam.
Di tutte le notizie SEO degli ultimi mesi, questo è l'aggiornamento più importante. Anche RankBrain, potremmo dire, ma è stato molto meno ovvio indicarlo, difficile vedere quali siano i risultati effettivi della sua applicazione.
Rebecca: Penso che in realtà sia vicino, con il concetto di analisi semantica e le parti del sito Web che non sono correlate al resto del sito Web.
Vincenzo: Esatto.
So che ci stanno lavorando da un po'. Avevo un amico che lavora in Google, che ha detto che ci lavora dal 2009; c'erano due gruppi di ricerca su questo. Stanno cercando di farlo ora in tempo reale e faranno molte pulizie.
Ma non sappiamo ancora molto sull'implementazione. Come lo faranno? Con un segnale? Coloro che imbrogliano saranno indicizzati meno bene? Nessuno può rispondere a questa domanda tranne John Mueller.
Rebecca: Dubito che anche a lui sarà permesso. Immagino che manterranno la loro linea di: "crea contenuti utili per gli utenti, non per i motori di ricerca, e non avrai problemi".
Vincent: Su Twitter, viene bombardato da domande su questo argomento e le sue risposte sono state un po' generiche.
L'impatto sulla creazione di contenuti in futuro
Rebecca: Non sono sorpreso da questo. Penso che probabilmente non ha informazioni più specifiche. E anche se lo fa, deve essere assolutamente vietato parlare dell'algoritmo.
Ad ogni modo, sono molto ansioso di iniziare a vedere i brevetti relativi a questo aggiornamento, di fare una nuova analisi dei brevetti tra un anno, due anni, per vedere cosa c'è là fuori e se c'è qualche indicazione di utilizzo un po' più tardi. Ma questo è un altro argomento.
Vincent: Per prepararmi alla mia conferenza di settembre, ho elencato come riconosciamo i contenuti di qualità, i contenuti utili. L'ho basato sull'articolo del journaldunet (in francese) dove Christian Meline aveva scritto sull'argomento [tre] anni fa. Il suo contenuto è ancora del tutto pertinente. D'altra parte, non fa affidamento sull'apprendimento automatico. Lo odia, quindi queste sono metriche di base e utili: il titolo è ben scritto? Ci sono errori di ortografia? Fornisce nuove conoscenze? Raramente cose in cui avrai bisogno dell'apprendimento automatico per farle.
Rebecca: Questo tipo di consiglio sarà estremamente importante perché la maggior parte dei SEO non ha necessariamente le risorse, i dati, il tempo o solo le competenze per implementare l'apprendimento automatico, per poter analizzare i propri siti, per sapere se ci sono rischi di caderci dentro o meno.
Vincenzo: Esatto. Dobbiamo seguirlo molto, molto da vicino.
Inoltre, dobbiamo stare molto attenti a ciò che diciamo. Dobbiamo parlare al condizionale. Non c'è nessuno che sia certo su questo argomento.
Rebecca: Questo è certo. Abbiamo solo cose di altissimo livello, il che significa che non abbiamo prove, indizi e informazioni. Quindi chiaramente tutto ciò che possiamo dire al riguardo non sono conclusioni, sono teorie.
Vincenzo: Esatto.
Ecco cosa ho impostato come punto di partenza:
- L'analisi dei token per guardare alla ripetizione: identificare quando è eccessiva, quando è solo per classificare.
- Poi, le probabilità tra le parole che ho menzionato prima.
- E infine uno, i gruppi di parole.
Solo con queste tre combo, posso rilevare il 90% dei testi generati dall'IA che non sono stati ottimizzati da un essere umano. Quindi immagina cosa può fare Google! È strabiliante.
Rebecca: Quindi dovremmo assolutamente partecipare alla tua conferenza SEO Campus il 23 settembre con Christian.
Vincent: Sì, volevamo separare un po' l'argomento dei contenuti utili. È divertente: anche prima che Google iniziasse a parlare dell'aggiornamento, lo avevamo pianificato.
Mi piace anche questo argomento perché ho una mentalità molto ecologica. Mi fa sentire meglio sapere che ci sono controlli del genere per impedire alle persone di spammare. Perché ci costa risorse inimmaginabili.
Rebecca: Sì, lo fa. Con questo aggiornamento, tutti prestano molta attenzione. Penso che le persone che pensano che non cambierà nulla si sbagliano. Possiamo vedere che cambierà non solo il modo in cui creiamo i contenuti, ma anche il modo in cui Google valuta i contenuti. E queste sono strategie che non abbiamo mai visto prima.
Vincenzo: Esatto. Infatti, se vuoi assumere una posizione estrema, Google non valuta i contenuti. Questa è una grande debolezza. Era usato solo per indicizzare e classificare. Ora filtreranno a monte. Ed è ciò che Bing stava criticando Google per non averlo fatto.
Rebecca: Sì, la maggior parte dell'analisi [sul contenuto] è arrivata al momento della classifica.
Vincenzo: Esatto. Ora sembra avere un piccolo filtro. Sono d'accordo con te: non vedo l'ora di vedere il brevetto che esce su questo. Dovranno rivelare dove hanno messo il filtro. Dove scommetti che hanno messo il filtro? Prima, dopo l'indicizzazione o prima, dopo la classifica? Dove lo metteresti?
Rebecca: Dal momento che devi avere la maggior parte del sito per poterlo fare, direi...
Vincent: Non dimenticare che hai bisogno del footprint delle SERP, come abbiamo discusso, per l'indicizzazione. Quindi devi indicizzarli.
Rebecca: Sì, è quello che stavo per dire. Penso che dovrebbe essere un passaggio in più, non corriamo il rischio di una deindidicizzazione, quindi stiamo parlando di un impatto dopo l'indicizzazione, magari anche dopo la classifica [iniziale].
Vincent: Sì, per me è dopo la classifica. Se fossi Google, questo è qualcosa che avrei aggiunto a Google RankBrain, perché è in grado di aggregare segnali, ecc. Ora, la domanda è quanto avrà un impatto sui siti.
Rebecca: Con l'apprendimento automatico, può variare molto da sito a sito, perché puoi avere molto più controllo sul suo impatto e sulla quantità di contenuti inutili su ciascun sito.
Vincent: Il limite con Google sono i falsi positivi. Ciò significherebbe de-indicizzare [o penalizzare] le pagine legittime. Quindi penso che l'impatto iniziale sarà molto, molto basso, ma daranno davvero la caccia agli imbroglioni.
Ho avuto persone che mi hanno contattato, però, che erano un po' preoccupate. Ho detto loro che all'inizio rileverà solo il testo senza qualità. Cioè, penso che un testo [generato], seguito da una correzione di bozze umana, possa avere tutta la sua utilità.
Non sono severo come altri che dicono "AI = spazzatura". Non ci credo nemmeno io.
Rebecca: Questo non mi sorprende, detto da te!
È un po' frustrante, sapere che sarà lento. Come dici tu, per evitare falsi positivi, questo è un altro motivo per lanciarsi in inglese: hanno una migliore padronanza dell'inglese. Ciò consente di inserire controlli aggiuntivi molto più costosi, prima di generalizzare a tutto il web e ad altri linguaggi meno padroneggiati, meno automatizzati.
In ogni caso, è stata una discussione molto ricca. Grazie mille per questo scambio.
Vincent: Possiamo parlarne di nuovo ogni volta che vuoi.
Rebecca: È stato un piacere.