[Webinar Digest] SEO in Orbit: Rankbrain, AI, machine learning e il futuro della ricerca

Pubblicato: 2019-11-13

Il webinar Rankbrain, AI, machine learning and the future of search fa parte della serie SEO in Orbit ed è andato in onda il 19 giugno 2019. In questo episodio, Bill Slawski sfrutta la sua conoscenza dei brevetti di Google e del funzionamento della ricerca per rompere ridurre i probabili algoritmi di ricerca utilizzati oggi e postulare come potrebbe apparire sotto il cofano di una futura versione di Google. Unisciti a noi mentre esploriamo il futuro della SEO tecnica.

SEO in Orbit è la prima serie di webinar che invia SEO nello spazio. Durante la serie, abbiamo discusso del presente e del futuro della SEO tecnica con alcuni dei migliori specialisti SEO e inviato i loro migliori consigli nello spazio il 27 giugno 2019.

Guarda il replay qui:

Presentando Bill Slawski

Esperto di brevetti sui motori di ricerca autodidatta, Bill Slawski è il direttore del SEO reach di Go Fish Digital e un blogger di SEO by the Sea. Nelle stesse parole di Bill: “Non sono uno scienziato informatico e non sono un matematico. Ho una laurea in inglese e una laurea in giurisprudenza. Leggo brevetti dai motori di ricerca dal 2005 circa, per sapere cosa hanno da dire sulla ricerca, sui ricercatori e sul Web. Molti di questi brevetti coprono algoritmi che mirano ad affrontare problemi particolari e ne ho trovati molti utili quando si tratta di eseguire SEO".

Questo episodio è stato presentato da Francois Goube, imprenditore seriale e co-fondatore e CEO di OnCrawl. Ha fondato diverse società ed è attivamente coinvolto nell'ecosistema delle startup. Appassionato di analisi semantica e motori di ricerca, ama analizzare le pubblicazioni scientifiche di Google ed è relatore regolare a conferenze SEO.

Cosa sono l'IA e l'apprendimento automatico?

Ci sono molte definizioni di AI.

Gran parte del lavoro di Google si concentra sulle reti neurali, che portano al modo in cui funziona l'apprendimento automatico. Utilizza un set di dati che rappresenta il set di dati ideale, contrassegnato per sottolineare alcune sue caratteristiche, che viene utilizzato per addestrare i classificatori. Questi vengono quindi rilasciati su altri set di dati per analizzare e classificare le nuove informazioni in base a ciò che hanno appreso dal set di campioni. Questo è l'apprendimento automatico.

Aree coperte da AI

- Linguaggio naturale

L'IA può coprire diverse aree, come una migliore comprensione del linguaggio naturale. Ci sono un certo numero di tecniche coinvolte e molte delle cose che escono da Google illustrano cosa è coinvolto nell'analisi del linguaggio naturale.

– Risposte alle domande

Un recente brevetto (link) cerca di riempire gli spazi vuoti negli schemi di risposta delle domande.

Spiega come Google potrebbe utilizzare un grafico della conoscenza per capire quale potrebbe essere la risposta a una domanda. Ad esempio, se ci sono informazioni mancanti o dati errati per le entità, Google potrebbe provare a stimare la risposta sulla base di informazioni associate a fatti correlati.

La cosa interessante di questo brevetto non è che Google stia usando la stima per rispondere alle domande, ma che stia fornendo le spiegazioni per le sue stime.

– Imitare il pensiero umano (reti neurali)

L'apprendimento automatico si basa sull'intelligenza artificiale, sull'imitazione del modo in cui il pensiero umano potrebbe funzionare. Le reti di apprendimento automatico sono chiamate reti neurali perché sono costruite per tentare di replicare il modo in cui funzionano i neuroni in un cervello.

Cervello di rango

– Relazione con Colibrì e contesto delle parole

Sia Rankbrain che Hummingbird sono approcci di riscrittura delle query. Hummingbird ha cercato di comprendere meglio il contesto di una query esaminando tutte le parole in una query. In precedenza, Google guardava solo le parole una accanto all'altra per capire il contesto; Colibrì guarda oltre le parole immediatamente una accanto all'altra. Potrebbe anche prendere in considerazione frasi complete nelle query conversazionali. Hummingbird ha cercato di utilizzare tutte le parole nella query insieme per comprendere il contesto.

– Riscrittura di query in Rankbrain utilizzando l'approccio di incorporamento di parole

A differenza di Hummingbird, Rankbrain utilizza un approccio di incorporamento delle parole. Esamina un breve passaggio testuale ed è in grado di determinare se ci sono parole che mancano. Lo fa allenandosi su grandi insiemi di dati (200 miliardi di parole).

– Trovare le parole mancanti nella query

Ad esempio, la query "puzzle del New York Times" può essere correttamente interpretata come se mancasse la parola "cruciverba". Rankbrain aggiunge la parola mancante alla query e restituisce i risultati per il cruciverba del New York Times al ricercatore, poiché probabilmente è quello che vogliono.

– Puoi ottimizzare per Rankbrain?

È importante notare che non puoi ottimizzare le pagine per Rankbrain. Alcuni SEO hanno scritto articoli dicendo che puoi. Tuttavia, da tutto ciò che Bill ha visto sull'algoritmo, suggerisce che si tratta di un processo di riscrittura di query, non qualcosa che influisce sulla valutazione di una pagina.

Algoritmi Google aggiuntivi che utilizzano l'apprendimento automatico

Google non ha un singolo "algoritmo" che guida il motore di ricerca. Ha molti algoritmi diversi che contribuiscono al suo funzionamento. Rankbrain è uno dei tanti.

– Utilizzo dei punteggi di qualità all'interno delle categorie

Ciò potrebbe significare, ad esempio, che quando Google determina che ci sono molti risultati di tipo informativo per una determinata query, invece di classificare le pagine in base al punteggio di recupero delle informazioni o alle valutazioni di autorità come PageRank, potrebbero considerare le categorie. Da lì, potrebbero fornire punteggi di qualità all'interno delle categorie di siti Web. Ciò fornirà una serie più diversificata di risultati e garantirà che risultati di qualità superiore possano spostarsi più rapidamente in cima ai risultati.

– Popolarità della pagina per i risultati di navigazione

Questo tipo di algoritmo di ranking favorisce anche le pagine più popolari (pagine a cui le persone tendono ad andare), in particolare per i risultati di tipo di navigazione. Quando i ricercatori sanno già che la pagina è qualcosa che vogliono vedere, la pagina tenderà a classificarsi in alto nei paradigmi del punteggio di qualità della categoria.

– Influenza della SERP CTR

I punteggi di qualità della categoria suggeriscono anche che le pagine che sono spesso selezionate nei risultati di ricerca sono anche pagine di alta qualità e si classificherebbero anche molto in questo approccio di qualità per categoria.

Tuttavia, sebbene un approccio basato sul punteggio di qualità della categoria sia sicuramente l'apprendimento automatico, non è Rankbrain.

Rankbrain per soddisfare le esigenze situazionali dei ricercatori

Rankbrain sta cercando di capire cosa potrebbe mancare in una query. L'aspetto più importante di Rankbrain è che tenta di soddisfare le esigenze della situazione dei ricercatori: cosa intendeva veramente questa persona quando ha digitato la query nella casella?

Query di parole chiave passate rispetto a query parlate e conversazionali correnti

Se ci stiamo muovendo verso query parlate e di tipo conversazione, ci saranno più parole coinvolte rispetto all'approccio basato su parole chiave utilizzato in passato.

Come ricercatore, stai cercando di indovinare quali parole devi usare per trovare le informazioni di cui hai bisogno. E non dovresti aver bisogno di fare questo tipo di ipotesi. Se chiedi quello che vuoi, Google dovrebbe essere in grado di analizzarlo e determinare cosa probabilmente intendevi. Questo è il ruolo di Rankbrain.

Approcci di elaborazione del linguaggio naturale

Una delle cose che stiamo vedendo è che Google presta molta più attenzione all'elaborazione del linguaggio naturale. Stiamo vedendo apparire approcci di elaborazione del linguaggio naturale.

– Corrispondenza neurale

Danny Sullivan ha twittato qualcosa su qualcosa che ha chiamato corrispondenza neurale.

Negli ultimi mesi, Google ha utilizzato la corrispondenza neurale, il metodo -AI per collegare meglio le parole ai concetti. Super sinonimi, in un certo senso, che incidono sul 30% delle query. Non sapete cosa significa "effetto soap opera" cercarlo? Possiamo capirlo meglio. pic.twitter.com/Qrwp5hKFNz
— Danny Sullivan (@dannysullivan) 24 settembre 2018

Ha detto che questo è un mezzo per comprendere meglio le parole sulle pagine e il significato di quelle parole nel contesto. Ha fornito alcuni esempi di come una parola potrebbe significare tre o quattro cose diverse a seconda di come è posizionata all'interno di una frase.

– Incorporamento di parole

Google ha rilasciato brevetti sull'utilizzo di un approccio del tipo di incorporamento di parole (come quello utilizzato in Rankbrain per comprendere quelle brevi query testuali) per quantità di testo più lunghe, come le pagine Web.

– Frame semantici

Un frame semantico è quando usi il linguaggio ideale per una determinata situazione. In ogni situazione, c'è un certo linguaggio che viene utilizzato. Ad esempio, i punti nel contesto di un mutuo o di un acquisto immobiliare non hanno lo stesso significato dei punti nei dadi o nei giochi da tavolo.

Se capisci il framework, puoi capire meglio il contesto delle parole in una pagina.

Questo può anche aiutare a distinguere tra parole in cui il significato stesso differisce da situazione a situazione. “Cavallo”, ad esempio, non significa la stessa cosa per un equestre e per un falegname. Altri brevetti hanno anche esplorato metodi aggiuntivi per comprendere le differenze di significato contestuali.

Utilizzo dell'apprendimento automatico per identificare gli autori in base agli stili di scrittura

È abbastanza facile per una macchina identificare lo stile di scrittura di un individuo. C'è un parallelo tra questo e le classificazioni tematiche dei contenuti dovute a stili standardizzati in settori come quello immobiliare, sportivo, ecc.

Da studente inglese, Bill ha analizzato la letteratura e ha esaminato i diversi modi in cui gli autori si esprimevano e perché.

– L'autore valuta il brevetto usando la frequenza delle citazioni

Google ha un brevetto relativo ai punteggi degli autori. Per valutare gli autori, uno dei fattori presi in considerazione è la frequenza con cui vengono citati da altri autori.

– Visualizzatore N-Gram di Google Libri

Google lavora molto con i modelli linguistici. Hanno scansionato un gran numero di libri. Il visualizzatore N-Gram ti consente di vedere come si evolve la popolarità di una frase nel corso degli anni.

– Brevetto Quality Score di N. Panda che utilizza modelli linguistici

Il brevetto Quality Score di N. Panda parla dell'utilizzo di N-grammi e della creazione di modelli linguistici per comprendere la qualità delle pagine Web in base al confronto con altri modelli linguistici.

Questo è un ottimo esempio di apprendimento automatico nella tecnologia dei motori di ricerca. Abbiamo un set di dati di pagine precedentemente valutate e stiamo confrontando le nuove pagine con quelle basate sui dati del set di campioni originale. Poiché questo viene utilizzato per determinare la qualità, le pagine che contengono caratteristiche di pagine ben scritte del set originale riceveranno un punteggio più alto.

Questo tipo di modello linguistico può essere utilizzato anche per comprendere lo stile di scrittura di diversi autori.

Apprendimento automatico futuro con dati strutturati

L'apprendimento automatico è evidente anche nel modo in cui Google gestisce le entità, nella traduzione e nell'aspetto di ciò che Cindy Krum ha chiamato Fraggles.

– Rispondere a passaggi e rafforzare il contenuto testuale

C'è un altro brevetto che parla di passaggi di risposta, in cui Google propone un meccanismo per utilizzare i passaggi testuali che si trovano sulle pagine web per fornire risposte a domande. Questo è stato recentemente aggiornato per esaminare non solo i passaggi testuali ma anche i dati strutturati che rafforzano il testo.

– Verifica dei fatti e coerenza

L'utilizzo di Schema fornisce la ridondanza delle informazioni. Ciò offre a Google un mezzo per verificare la coerenza dei fatti informativi su una pagina web confrontando le informazioni testuali con le informazioni fornite nel markup strutturato.

Questa è la stessa cosa che accade su Google Maps dove Google cerca nome, indirizzo e numero di telefono.

La coerenza fornisce un livello di sicurezza che la risposta potrebbe essere più probabile che sia corretta.

– Pagine di domande frequenti e pagine di istruzioni

Poiché Google introduce la pagina delle domande frequenti e il supporto per lo schema di istruzioni, li vediamo muoversi verso mezzi per convincere i proprietari di siti a creare uno schema che rifletta ciò che potrebbero inserire nel testo di una pagina web.

Strategie per comprendere il contesto in una pagina web

Google ha adottato altre misure per cercare di comprendere meglio i contenuti all'interno delle pagine web. Eccone alcuni:

– Uso di basi di conoscenza e termini di contesto

I brevetti di Google hanno indicato che potrebbero esaminare basi di conoscenza e potrebbero raccogliere definizioni di termini di contesto da tali basi di conoscenza. Potrebbero quindi cercare la presenza di questi termini di contesto in una pagina Web per aiutare a determinare quale significato dipendente dal contesto di una parola è più probabile.

Quindi una pagina su un cavallo (un animale) potrebbe contenere parole come "sella", mentre pagine su altri tipi di cavalli potrebbero contenere parole come "falegnameria".

– Indicizzazione a frase

Un altro approccio all'apprendimento semantico per comprendere gli argomenti nelle pagine risale al 2004 circa. L'indicizzazione basata su frasi non è solo vecchia, ma è anche oggetto di almeno 20 brevetti ed è stata aggiornata e modificata più volte. Tutto ciò indica a Bill che l'indicizzazione basata su frasi è qualcosa che ha molta importanza negli algoritmi di Google.

– Costruire un indice invertito di frasi predittive di argomento

Uno dei brevetti associati all'indicizzazione basata su frasi descrive la creazione di un indice invertito di frasi che appaiono sulle pagine e che sono predittivi di argomenti. Un esempio potrebbero essere frasi come "Presidente degli Stati Uniti", "Segretario di Stato" o "Intervista al Rose Garden" che sono predittive di un argomento semantico della "Casa Bianca".

Conoscenza della materia del webmaster in Schema

Google sta sviluppando l'uso di cose come Schema, ma la definizione del tipo di cose descritte da Schema è fornita dai webmaster. In questo modo i webmaster possono contribuire alla costruzione dei grafici della conoscenza insieme ai motori di ricerca.

Ad esempio, Google ha aggiunto "sapere" come aspetto di Schema. Tuttavia, i webmaster sono quelli che indicano che gli avvocati possono conoscere il diritto dell'ammiragliato o il diritto dei brevetti, che a loro volta aiutano a compilare il grafico della conoscenza.

La rappresentazione della conoscenza basata sulla macchina è uno sforzo collaborativo.

[Case Study] Gestione della scansione dei bot di Google

Con oltre 26.000 referenze di prodotti, 1001Pneus aveva bisogno di uno strumento affidabile per monitorare le proprie prestazioni SEO ed essere sicuro che Google stesse dedicando il proprio crawl budget alle categorie e alle pagine giuste. Scopri come gestire con successo il crawl budget per i siti di e-commerce con OnCrawl.

Leggi il caso di studio

Ricerca in evoluzione e pratiche SEO obsolete

– Parole ripetute in testo alternativo

Dire a Google che una fotografia di una persona deve essere nominata due volte non aiuta Google a capirla due volte. È anche possibile che possa diminuire la stima del valore della pagina da parte del motore di ricerca.

– LSI destinato a piccoli database statici

I produttori di strumenti continuano a suggerire che i SEO utilizzino vecchie tecniche. Un esempio è l'indicizzazione semantica latente (LSI), sviluppata nel 1989. Era concepita per database statici di piccole dimensioni che non hanno le dimensioni del Web e non crescono alla velocità del Web.

Ogni volta che si desidera utilizzare LSI, è necessario disporre dell'ultima versione del database. Se continui ad aggiungere informazioni al corpus, è necessario eseguirlo di nuovo. Ciò significa che non è molto utile per il web.

– TF-IDF funziona solo con accesso al corpus completo

TF-IDF (termine frequenza del documento indice di frequenza) è un altro esempio. Funziona meglio se si ha accesso all'intero corpus delle informazioni indicizzate, in questo caso il World Wide Web. Usi TF-IDF quando vuoi sapere quali sono le parole più comuni e quali sono parole rare nell'intero corpus. Ma se utilizzi solo il corpus delle prime dieci pagine di ranking per determinati termini anziché per l'intero Web, non puoi stabilire la frequenza effettiva dei termini.

Ciò può compromettere seriamente l'accuratezza dell'analisi.

Aspettative del webmaster e capacità di Google: necessità di comunicazione da parte di Google

Nonostante i recenti annunci, in realtà non sappiamo che il markup dell'impaginazione non sia utile per i motori di ricerca.

Sebbene il markup di impaginazione non sia più utilizzato per gestire i contenuti duplicati su pagine impaginate, abbiamo alcune aspettative di Google. Dovrebbero essere in grado di capire quando le pagine sono in una serie. Annunci come questo rivelano la difficoltà di sapere quanto sia bravo o cattivo Google in quello che fa.

Usare parole che ricorrono frequentemente

Il trucco tecnico preferito di Bill è guardare le parole che ricorrono frequentemente e che hanno un punteggio elevato per determinati termini e assicurarsi che le usi nel contenuto, sia nel corpo che nell'anchor text che punta dalla sua pagina a pagine correlate. Ciò sfrutta i "risultati di ancoraggio", che presumibilmente sono trattati dai motori di ricerca come "collegamenti di esperti".

Questa strategia è tratta dall'indicizzazione basata su frasi.

– Probabilità statistica di co-occorrenza delle frasi

Il brevetto di indicizzazione a frase è stato aggiornato circa due anni fa. Questo approccio ora utilizza il numero di termini correlati visualizzati sulle pagine per classificare le pagine.

Tuttavia, se su una pagina viene visualizzato un numero di termini correlati superiore a un numero statisticamente probabile, può essere contrassegnato come spam. Ad esempio, se hai raschiato molte pagine su un argomento e le hai messe tutte su una pagina, avresti troppi termini correlati perché ciò avvenisse naturalmente.

Questo si adatta bene al modo in cui Bill fa la ricerca per parole chiave. Guarda pagine simili e crea un elenco di frasi o parole simili che ricorrono frequentemente. Potrebbe provare a usarne alcuni sulla sua stessa pagina, anche se non sta cercando di classificarli. Questo crea contenuti rilevanti per le parole chiave per le quali vuole classificarsi.

LSI vs utilizzo di sinonimi o contenuto semanticamente correlato

Il clamore intorno a LSI è uno degli argomenti meno preferiti da Bill, in parte perché il termine è fuorviante. Ciò che molte persone suggeriscono quando il discorso sull'LSI non ha nulla a che fare con l'indicizzazione semantica latente. Invece, stanno solo suggerendo di aggiungere sinonimi o contenuti semanticamente correlati alle pagine.

L'indice invertito dell'indicizzazione basata su frasi e le basi di conoscenza in grado di fornire termini di contesto indicano che ci sono termini e fonti a cui puoi rivolgerti per trovare parole che potrebbero essere utili se stai cercando rigorosamente termini che ricorrono in coincidenza su un rango elevato pagine per la tua parola chiave.

Le parole che sembrano sinonimi a volte non lo sono, secondo Google.

Indicizzazione rapida con lo strumento di invio URL

Lo strumento di invio degli URL nella nuova versione di Google Search Console è un modo davvero rapido per ottenere le pagine indicizzate. Bill ha visto gli aggiornamenti propagarsi alle SERP entro un minuto o due.

La speranza di Bill per il markup futuro: maggiori informazioni per i brevetti

Domanda del pubblico: quale markup Schema vorresti vedere aggiunto in futuro?

Poiché scrive molto sui brevetti, Bill vorrebbe vedere un modo migliore per catturare le caratteristiche uniche dei brevetti. Alcune di queste caratteristiche includono:

Classi (a cosa è destinato il brevetto)
Nome del brevetto, anche se "entità principale della pagina" potrebbe coprire questa funzione

Poiché Google consente già di effettuare ricerche in base alle funzionalità di Schema, la finalità sarebbe quella di poter migliorare la ricerca dei brevetti, in modo che le persone possano chiedere di vedere i brevetti che coprono determinate categorie.

L'ottimizzazione per i motori di risposta è il futuro della ricerca?

Domanda del pubblico: pensi che la SEO diventerà AEO in futuro?

Bill crede che, in un certo senso, la SEO sia sempre stata AEO.

– Vecchie indicazioni di Google come motore di risposta

Non stiamo necessariamente attraversando un'evoluzione. Ci sono indicazioni di 15 anni fa che Google si stesse dirigendo in questa direzione, ad esempio:

2004: funzione di dizionario che consente agli utenti di cercare il significato delle parole
2005: post sul blog "Solo i fatti" che mostra il primo frammento in primo piano o risposta diretta che non è stata soddisfatta fornendo dieci collegamenti blu, ma ha preferito fornire una risposta testuale.

– Sergey Brin: brevetto per algoritmo per comprendere fatti e relazioni tra fatti

Un'altra indicazione che Google come motore di risposta non è una novità è un brevetto di Sergey Brin su un algoritmo per comprendere i fatti e le relazioni tra i fatti. Questo brevetto includeva cinque libri, i loro titoli, i loro editori, i loro autori e così via.

La teoria è che un bot esegua la scansione del Web alla ricerca di questi libri e...

[Interruzione di OK Google]

– Filigrane audio

C'è anche il concetto di filigrane audio che sfruttano le frequenze ultra alte. Sarebbero fuori dalla portata dell'udito umano, ma cani e computer sarebbero in grado di identificarli. Ciò potrebbe consentire a diversi fornitori di tenere traccia del fatto che hai ascoltato una pubblicità con filigrana e potrebbero essere potenzialmente interessati al prodotto.

Questo è in circolazione da almeno cinque anni e non è qualcosa che è stato discusso in SEO.

Il miglior consiglio

"C'è molta disinformazione su argomenti come RankBrain, Neural Matching e Machine Learning sul Web. Alcuni di essi includono fatti accuratamente studiati mescolati a disinformazione, quindi fai attenzione a ciò su cui fai affidamento".

SEO in Orbit è andato nello spazio

Se ti sei perso il nostro viaggio nello spazio il 27 giugno, prendilo qui e scopri tutti i suggerimenti che abbiamo inviato nello spazio.