Como o Google funciona: a história de um engenheiro de classificação do Google #SMX

Publicados: 2022-06-12

O engenheiro de software do Google, Paul Haahr, está no Google há mais de 14 anos. Para dois deles, ele dividia um escritório com Matt Cutts. Ele está no palco do SMX West 2016 para compartilhar como o Google funciona do ponto de vista de um engenheiro do Google – ou, pelo menos, compartilhar o máximo que puder em 30 minutos. Depois, o analista de tendências para webmasters, Gary Illyes, se juntará a ele no palco e os dois responderão a perguntas do público da SMX com a moderação do editor do Search Engine Land, Danny Sullivan (pule para a parte de perguntas e respostas!).

Da esquerda: o analista de tendências do Google Webmaster Gary Illyes, o engenheiro de software do Google Paul Haahr e o editor do Search Engine Land Danny Sullivan no palco do SMX West 2016 em San Jose.

Como o Google funciona

Haahr começa nos contando o que os engenheiros do Google fazem. Seu trabalho inclui:

  • Escrevendo código para pesquisas
  • Otimizando métricas
  • Em busca de novos sinais
  • Combinando sinais antigos de novas maneiras
  • Movendo resultados com boas classificações para cima
  • Movendo os resultados com classificações ruins para baixo
  • Como corrigir diretrizes de classificação
  • Desenvolvimento de novas métricas quando necessário

Duas partes de um mecanismo de pesquisa:

  • Antecipado (antes da consulta)
  • Processamento de consultas

Antes da consulta

  • Rastrear a web
  • Analise as páginas rastreadas
    • Extrair links
    • Renderizar conteúdo
    • Anotar semântica
  • Construir um índice

O índice

  • Como o índice de um livro
  • Para cada palavra, uma lista de páginas em que aparece
  • Dividido em grupos de milhões de páginas
  • Além de metadados por documento

Processamento de consultas

  • Compreensão e expansão da consulta
    A consulta nomeia alguma entidade conhecida?
  • Recuperação e pontuação
    • Envie a consulta para todos os fragmentos
      Cada fragmento

      • Encontra as páginas correspondentes
      • Calcula uma pontuação para consulta+página
      • Envia de volta a página N superior por pontuação
    • Combine todas as páginas principais
    • Classificar por pontuação
  • Ajustes pós-recuperação
    • Cluster de host
    • Existe duplicação

Sinais de pontuação

Um sinal é:

  • Uma informação usada na pontuação
  • Query independente – recurso de uma página
  • Dependente da consulta

Métricas

“Se você não pode medi-lo, você não pode melhorá-lo” – Lord Kelvin

  • Relevância
    • Uma página responde de maneira útil à consulta do usuário
    • Métrica de primeira linha do ranking
  • Qualidade
    • Quão bons são os resultados que mostramos
  • Tempo para o resultado (mais rápido é melhor)

O Google se mede com experimentos ao vivo:

  • Experimentos A/B em tráfego real
  • Procure mudanças nos padrões de clique
  • Muito tráfego está em um experimento ou outro

Ao mesmo tempo, o Google testou 41 blues diferentes para ver qual era o melhor.

O Google também faz experimentos com avaliadores humanos:

  • Mostrar resultados de pesquisa experimentais de pessoas reais
  • Pergunte como são os resultados
  • Classificações agregadas entre avaliadores
  • Publicar diretrizes explicando os critérios para os avaliadores
  • As ferramentas suportam fazer isso de maneira automatizada, semelhante ao Mechanical Turk

O Google julga as páginas em dois fatores principais:

  • Necessidades atendidas (onde o celular está na frente e no centro)
  • Qualidade da página

Notas de necessidades atendidas:

  • Atende totalmente
  • Muito Altamente Atende
  • Altamente atende
  • Atende moderadamente
  • Ligeiramente atende
  • Falha ao atender

Conceitos de qualidade de página:

  • Perícia
  • Uma autoridade
  • Confiabilidade

Processo de desenvolvimento do engenheiro do Google:

  • Idéia
  • Repita até ficar pronto
    • Escrever código
    • Gerar dados
    • Executar experimentos
    • Analisar
  • Relatório de lançamento por analista quantitativo
  • Iniciar revisão
  • Lançar

O que dá errado?

Existem dois tipos de problemas:

  • Classificações sistematicamente ruins
  • As métricas não capturam as coisas com as quais nos importamos

Aqui está um exemplo de uma classificação ruim. Alguém pesquisa por [fertilizante agrícola do Texas] e o resultado da pesquisa fornece um mapa para a sede do fabricante. É muito improvável que seja isso que eles querem. O Google determina isso por meio de experimentos ao vivo. Se um avaliador vir os mapas e classificá-los como necessidades “Altamente Atendem”, isso é uma falha no momento da classificação.

Ou, e se as métricas estiverem ausentes? Em 2009-2011, houve muitas reclamações sobre conteúdo de baixa qualidade. Mas as métricas de relevância continuaram subindo, devido aos farms de conteúdo. Conclusão: o Google não estava medindo as métricas que precisavam ser. Assim, a métrica de qualidade foi desenvolvida além da relevância.

Aqui está o deck de slides de Paul Haahr, que vale a pena dar uma olhada:
Atualização 19/07: A apresentação agora foi marcada como privada pelo autor.

Como o Google funciona: a perspectiva de um engenheiro de classificação Por Paul Haahr da Search Marketing Expo – SMX

Gary Illyes e Paul Haahr respondem a perguntas do público SMX

SMX: Como o RankBrain se encaixa em tudo isso?

Haahr: RankBrain consegue ver um subconjunto dos sinais. Não posso entrar em muitos detalhes sobre como o RankBrain funciona. Entendemos como funciona, mas não tanto o que está fazendo. Ele usa muitas das coisas que publicamos sobre aprendizado profundo.

Como o RankBrain saberia a autoridade de uma página?

Haahr: É tudo uma função do treinamento que recebe. Ele vê consultas e outros sinais. Eu não posso dizer muito mais que seria útil.

SMX: Quando você está conectado a um aplicativo do Google, você se diferencia pelas informações coletadas? Se você estiver no Google Now x Chrome, isso pode afetar o que você está vendo?

Haahr: É realmente uma questão de se você está logado ou não. Nós fornecemos uma experiência consistente. Seu histórico de navegação segue você para qualquer um.

O Google fornece resultados diferentes para as mesmas consultas em horários diferentes do dia?

Illyes: Não tenho certeza. No Maps, por exemplo, se exibirmos algo relacionado a mapas, mostraremos as horas. Isso não muda o que aparece, até onde Gary sabe.

SMX: O que está acontecendo com o Panda e o Pinguim?

Illyes: Eu desisti de dar uma data ou linha do tempo no Penguin. Estamos trabalhando nisso, pensando em como lançá-lo, mas sinceramente não sei uma data e não quero dizer uma data porque já errei três ou quatro vezes, e é ruim para os negócios.

SMX: Autoria pós-Google, como você está rastreando a autoridade do autor?

Haahr: Não vou entrar em detalhes. O que vou dizer é que os avaliadores devem revisar isso manualmente para uma página que estão vendo. O que medimos é: somos capazes de fazer um bom trabalho ao servir resultados que os avaliadores consideram boas autoridades.

SMX: Isso significa que a autoridade é usada como um fator direto ou indireto?

Haahr: Eu não diria sim ou não. É muito mais complicado do que isso e não posso dar uma resposta direta.

SMX: Quando a autoria explícita terminou, o Google disse para continuar tendo assinaturas. Você deveria se preocupar com rel=author?

Illyes: Há pelo menos uma equipe que ainda está analisando o uso da tag rel=author apenas para desenvolvimentos futuros. Se eu fosse um SEO ainda deixaria a tag. Não custa tê-lo. Em novas páginas, no entanto, provavelmente não vale a pena ter. Embora possamos usá-lo para algo no futuro.

SMX: O que você está lendo agora?

Haahr: Leio muito jornalismo e pouquíssimos livros. No entanto, acabei de terminar “City on Fire” – é sobre Nova York nos anos 70. São 900 páginas e fiquei decepcionado quando terminou. Acabei de começar “Não pode acontecer aqui”.

Assine o link do blog BCI