Come funziona Google: la storia di un ingegnere di ranking di Google #SMX

Pubblicato: 2022-06-12

L'ingegnere software di Google Paul Haahr lavora in Google da più di 14 anni. Per due di loro, ha condiviso un ufficio con Matt Cutts. Sta partecipando al palco di SMX West 2016 per condividere come funziona Google dal punto di vista di un ingegnere di Google o, almeno, condividere il più possibile in 30 minuti. Successivamente, Gary Illyes, analista delle tendenze dei webmaster, si unirà a lui sul palco e i due risponderanno alle domande del pubblico di SMX con la moderazione dell'editor dei motori di ricerca Danny Sullivan (vai alla parte di domande e risposte!).

Da sinistra: Gary Illyes, analista delle tendenze per i webmaster di Google, Paul Haahr, ingegnere del software di Google e Danny Sullivan, editore dei motori di ricerca, sul palco di SMX West 2016 a San Jose.

Come funziona Google

Haahr si apre raccontandoci cosa fanno gli ingegneri di Google. Il loro lavoro include:

Scrittura del codice per le ricerche
Ottimizzazione delle metriche
Alla ricerca di nuovi segnali
Combinando vecchi segnali in nuovi modi
Risultati in movimento con buone valutazioni in alto
Spostamento dei risultati con valutazioni negative verso il basso
Correzione delle linee guida per la valutazione
Sviluppo di nuove metriche quando necessario

Due parti di un motore di ricerca:

In anticipo (prima della query)
Elaborazione delle query

Prima della domanda

Scansiona il web
Analizza le pagine scansionate
- Estrai link
- Rendering di contenuti
- Annota la semantica
Costruisci un indice

L'indice

Come l'indice di un libro
Per ogni parola, un elenco di pagine su cui appare
Suddiviso in gruppi di milioni di pagine
Più metadati per documento

Elaborazione delle query

Interrogare la comprensione e l'espansione
La query nomina entità note?
Recupero e punteggio
- Invia la query a tutti gli shard
  Ogni frammento
  - Trova le pagine corrispondenti
  - Calcola un punteggio per query+pagina
  - Rimanda la prima pagina N in base al punteggio
- Combina tutte le prime pagine
- Ordina per punteggio
Aggiustamenti post-recupero
- Raggruppamento degli host
- C'è una duplicazione

Segnali di punteggio

Un segnale è:

Un'informazione usata nel punteggio
Indipendente dalla query: caratteristica di una pagina
Dipendente dalla query

Metrica

"Se non puoi misurarlo, non puoi migliorarlo" - Lord Kelvin

Rilevanza
- Una pagina risponde in modo utile alla domanda dell'utente
- Metrica di prima linea della classifica
Qualità
- Quanto sono buoni i risultati che mostriamo
Tempo per il risultato (più veloce è meglio)

Google si misura con esperimenti dal vivo:

Esperimenti A/B sul traffico reale
Cerca le modifiche nei modelli di clic
Un sacco di traffico è in un esperimento o nell'altro

Contemporaneamente, Google ha testato 41 blues diversi per vedere quale fosse il migliore.

Google fa anche esperimenti sui valutatori umani:

Mostra i risultati di ricerca sperimentali di persone reali
Chiedi come sono i risultati
Aggrega le valutazioni tra i valutatori
Pubblica le linee guida che spiegano i criteri per i valutatori
Gli strumenti supportano questa operazione in modo automatizzato, simile a Mechanical Turk

Google giudica le pagine in base a due fattori principali:

Necessità soddisfatte (dove il cellulare è in primo piano e al centro)
Qualità della pagina

Ha bisogno di voti soddisfatti:

Soddisfa pienamente
Soddisfa molto
Soddisfa altamente
Soddisfa moderatamente
Soddisfa leggermente
Non riesce a soddisfare

Concetti di qualità della pagina:

Competenza
Un'autorità
Resistenza alla ruggine

Processo di sviluppo dell'ingegnere di Google:

Idea
Ripeti fino al momento
- Scrivi il codice
- Genera dati
- Esegui esperimenti
- Analizzare
Rapporto di lancio dell'analista quantitativo
Avvia revisione
Lancio

Cosa va storto?

Ci sono due tipi di problemi:

Valutazioni sistematicamente negative
Le metriche non catturano le cose a cui teniamo

Ecco un esempio di valutazione negativa. Qualcuno cerca [fertilizzante agricolo del Texas] e il risultato della ricerca fornisce una mappa della sede del produttore. È molto improbabile che sia quello che vogliono. Google lo determina attraverso esperimenti dal vivo. Se un valutatore vede le mappe e le valuta in base alle esigenze di "Highly Meets", allora questo è un errore nel punto di valutazione.

Oppure, cosa succede se mancano le metriche? Nel 2009-2011 ci sono state molte lamentele per contenuti di bassa qualità. Ma le metriche di pertinenza hanno continuato a salire, a causa delle content farm. Conclusione: Google non stava misurando le metriche necessarie. Pertanto, la metrica della qualità è stata sviluppata indipendentemente dalla pertinenza.

Ecco la presentazione di Paul Haahr, che vale la pena dare un'occhiata:
Aggiornamento 7/19: la presentazione è stata ora contrassegnata come privata dall'autore.

Come funziona Google: il punto di vista di un ingegnere di ranking di Paul Haahr di Search Marketing Expo – SMX

Gary Illyes e Paul Haahr rispondono alle domande del pubblico di SMX

SMX: Come si inserisce RankBrain in tutto questo?

Haahr: RankBrain vede un sottoinsieme dei segnali. Non posso entrare troppo nei dettagli su come funziona RankBrain. Capiamo come funziona ma non tanto cosa sta facendo. Utilizza molte delle cose che abbiamo pubblicato sull'apprendimento profondo.

In che modo RankBrain conosce l'autorità di una pagina?

Haahr: È tutta una funzione dell'allenamento che riceve. Vede query e altri segnali. Non posso dire molto di più che sarebbe utile.

SMX: Quando accedi a un'app Google, ti distingui in base alle informazioni che raccogli? Se sei in Google Now o in Chrome, ciò può influire su ciò che stai vedendo?

Haahr: È davvero una questione di se sei loggato o meno. Forniamo un'esperienza coerente. La tua cronologia di navigazione ti segue in entrambi.

Google fornisce risultati diversi per le stesse query in momenti diversi della giornata?

Illyes: Non ne sono sicuro. In Mappe, ad esempio, se visualizziamo qualcosa relativo alle mappe, mostreremo le ore. Non cambia ciò che appare, a conoscenza di Gary.

SMX: Cosa sta succedendo con Panda e Penguin?

Illyes: Ho rinunciato a dare una data o una sequenza temporale su Penguin. Ci stiamo lavorando, pensando a come lanciarlo, ma sinceramente non conosco una data e non voglio dire una data perché ho già sbagliato tre o quattro volte, ed è un male per gli affari.

SMX: Post-Google Authorship, come stai monitorando l'autorità dell'autore?

Haahr: Non entrerò nei dettagli. Quello che dirò è che i valutatori dovrebbero esaminarlo manualmente per una pagina che stanno vedendo. Ciò che misuriamo è: siamo in grado di fare un buon lavoro nel servire risultati che i valutatori ritengono siano buone autorità.

SMX: Ciò significa che l'autorità viene utilizzata come fattore diretto o indiretto?

Haahr: Non direi sì o no. È molto più complicato di così e non posso dare una risposta diretta.

SMX: Quando la paternità esplicita è terminata, Google ha detto di continuare ad avere i sottotitoli. Dovresti preoccuparti di rel=author?

Illyes: C'è almeno un team che sta ancora esaminando l'utilizzo del tag rel=author solo per il bene di sviluppi futuri. Se fossi un SEO lascerei comunque il tag. Non fa male averlo. Su nuove pagine, tuttavia, probabilmente non ne vale la pena. Anche se potremmo usarlo per qualcosa in futuro.

SMX: Cosa stai leggendo in questo momento?

Haahr: Leggo molto giornalismo e pochissimi libri. Tuttavia, ho appena finito “City on Fire” – parla di New York negli anni '70. Ci sono 900 pagine e sono rimasto deluso quando è finito. Ho appena iniziato "Non può succedere qui".