Come funziona Google: la storia di un ingegnere di ranking di Google #SMX
Pubblicato: 2022-06-12L'ingegnere software di Google Paul Haahr lavora in Google da più di 14 anni. Per due di loro, ha condiviso un ufficio con Matt Cutts. Sta partecipando al palco di SMX West 2016 per condividere come funziona Google dal punto di vista di un ingegnere di Google o, almeno, condividere il più possibile in 30 minuti. Successivamente, Gary Illyes, analista delle tendenze dei webmaster, si unirà a lui sul palco e i due risponderanno alle domande del pubblico di SMX con la moderazione dell'editor dei motori di ricerca Danny Sullivan (vai alla parte di domande e risposte!).
Come funziona Google
Haahr si apre raccontandoci cosa fanno gli ingegneri di Google. Il loro lavoro include:
- Scrittura del codice per le ricerche
- Ottimizzazione delle metriche
- Alla ricerca di nuovi segnali
- Combinando vecchi segnali in nuovi modi
- Risultati in movimento con buone valutazioni in alto
- Spostamento dei risultati con valutazioni negative verso il basso
- Correzione delle linee guida per la valutazione
- Sviluppo di nuove metriche quando necessario
Due parti di un motore di ricerca:
- In anticipo (prima della query)
- Elaborazione delle query
Prima della domanda
- Scansiona il web
- Analizza le pagine scansionate
- Estrai link
- Rendering di contenuti
- Annota la semantica
- Costruisci un indice
L'indice
- Come l'indice di un libro
- Per ogni parola, un elenco di pagine su cui appare
- Suddiviso in gruppi di milioni di pagine
- Più metadati per documento
Elaborazione delle query
- Interrogare la comprensione e l'espansione
La query nomina entità note? - Recupero e punteggio
- Invia la query a tutti gli shard
Ogni frammento- Trova le pagine corrispondenti
- Calcola un punteggio per query+pagina
- Rimanda la prima pagina N in base al punteggio
- Combina tutte le prime pagine
- Ordina per punteggio
- Invia la query a tutti gli shard
- Aggiustamenti post-recupero
- Raggruppamento degli host
- C'è una duplicazione
Segnali di punteggio
Un segnale è:
- Un'informazione usata nel punteggio
- Indipendente dalla query: caratteristica di una pagina
- Dipendente dalla query
Metrica
"Se non puoi misurarlo, non puoi migliorarlo" - Lord Kelvin
- Rilevanza
- Una pagina risponde in modo utile alla domanda dell'utente
- Metrica di prima linea della classifica
- Qualità
- Quanto sono buoni i risultati che mostriamo
- Tempo per il risultato (più veloce è meglio)
Google si misura con esperimenti dal vivo:
- Esperimenti A/B sul traffico reale
- Cerca le modifiche nei modelli di clic
- Un sacco di traffico è in un esperimento o nell'altro
Contemporaneamente, Google ha testato 41 blues diversi per vedere quale fosse il migliore.
Google fa anche esperimenti sui valutatori umani:
- Mostra i risultati di ricerca sperimentali di persone reali
- Chiedi come sono i risultati
- Aggrega le valutazioni tra i valutatori
- Pubblica le linee guida che spiegano i criteri per i valutatori
- Gli strumenti supportano questa operazione in modo automatizzato, simile a Mechanical Turk
Google giudica le pagine in base a due fattori principali:
- Necessità soddisfatte (dove il cellulare è in primo piano e al centro)
- Qualità della pagina
Ha bisogno di voti soddisfatti:
- Soddisfa pienamente
- Soddisfa molto
- Soddisfa altamente
- Soddisfa moderatamente
- Soddisfa leggermente
- Non riesce a soddisfare
Concetti di qualità della pagina:
- Competenza
- Un'autorità
- Resistenza alla ruggine
Processo di sviluppo dell'ingegnere di Google:
- Idea
- Ripeti fino al momento
- Scrivi il codice
- Genera dati
- Esegui esperimenti
- Analizzare
- Rapporto di lancio dell'analista quantitativo
- Avvia revisione
- Lancio
Cosa va storto?
Ci sono due tipi di problemi:
- Valutazioni sistematicamente negative
- Le metriche non catturano le cose a cui teniamo
Ecco un esempio di valutazione negativa. Qualcuno cerca [fertilizzante agricolo del Texas] e il risultato della ricerca fornisce una mappa della sede del produttore. È molto improbabile che sia quello che vogliono. Google lo determina attraverso esperimenti dal vivo. Se un valutatore vede le mappe e le valuta in base alle esigenze di "Highly Meets", allora questo è un errore nel punto di valutazione.
Oppure, cosa succede se mancano le metriche? Nel 2009-2011 ci sono state molte lamentele per contenuti di bassa qualità. Ma le metriche di pertinenza hanno continuato a salire, a causa delle content farm. Conclusione: Google non stava misurando le metriche necessarie. Pertanto, la metrica della qualità è stata sviluppata indipendentemente dalla pertinenza.
Ecco la presentazione di Paul Haahr, che vale la pena dare un'occhiata:
Aggiornamento 7/19: la presentazione è stata ora contrassegnata come privata dall'autore.
Gary Illyes e Paul Haahr rispondono alle domande del pubblico di SMX
SMX: Come si inserisce RankBrain in tutto questo?
Haahr: RankBrain vede un sottoinsieme dei segnali. Non posso entrare troppo nei dettagli su come funziona RankBrain. Capiamo come funziona ma non tanto cosa sta facendo. Utilizza molte delle cose che abbiamo pubblicato sull'apprendimento profondo.
In che modo RankBrain conosce l'autorità di una pagina?
Haahr: È tutta una funzione dell'allenamento che riceve. Vede query e altri segnali. Non posso dire molto di più che sarebbe utile.
SMX: Quando accedi a un'app Google, ti distingui in base alle informazioni che raccogli? Se sei in Google Now o in Chrome, ciò può influire su ciò che stai vedendo?
Haahr: È davvero una questione di se sei loggato o meno. Forniamo un'esperienza coerente. La tua cronologia di navigazione ti segue in entrambi.
Google fornisce risultati diversi per le stesse query in momenti diversi della giornata?
Illyes: Non ne sono sicuro. In Mappe, ad esempio, se visualizziamo qualcosa relativo alle mappe, mostreremo le ore. Non cambia ciò che appare, a conoscenza di Gary.
SMX: Cosa sta succedendo con Panda e Penguin?
Illyes: Ho rinunciato a dare una data o una sequenza temporale su Penguin. Ci stiamo lavorando, pensando a come lanciarlo, ma sinceramente non conosco una data e non voglio dire una data perché ho già sbagliato tre o quattro volte, ed è un male per gli affari.
SMX: Post-Google Authorship, come stai monitorando l'autorità dell'autore?
Haahr: Non entrerò nei dettagli. Quello che dirò è che i valutatori dovrebbero esaminarlo manualmente per una pagina che stanno vedendo. Ciò che misuriamo è: siamo in grado di fare un buon lavoro nel servire risultati che i valutatori ritengono siano buone autorità.
SMX: Ciò significa che l'autorità viene utilizzata come fattore diretto o indiretto?
Haahr: Non direi sì o no. È molto più complicato di così e non posso dare una risposta diretta.
SMX: Quando la paternità esplicita è terminata, Google ha detto di continuare ad avere i sottotitoli. Dovresti preoccuparti di rel=author?
Illyes: C'è almeno un team che sta ancora esaminando l'utilizzo del tag rel=author solo per il bene di sviluppi futuri. Se fossi un SEO lascerei comunque il tag. Non fa male averlo. Su nuove pagine, tuttavia, probabilmente non ne vale la pena. Anche se potremmo usarlo per qualcosa in futuro.
SMX: Cosa stai leggendo in questo momento?
Haahr: Leggo molto giornalismo e pochissimi libri. Tuttavia, ho appena finito “City on Fire” – parla di New York negli anni '70. Ci sono 900 pagine e sono rimasto deluso quando è finito. Ho appena iniziato "Non può succedere qui".