Cómo funciona Google: la historia de un ingeniero de clasificación de Google #SMX

Publicado: 2022-06-12

El ingeniero de software de Google, Paul Haahr, ha estado en Google durante más de 14 años. Para dos de ellos, compartió oficina con Matt Cutts. Subirá al escenario de SMX West 2016 para compartir cómo funciona Google desde la perspectiva de un ingeniero de Google o, al menos, compartir todo lo que pueda en 30 minutos. Después, el analista de tendencias para webmasters, Gary Illyes, se unirá a él en el escenario y los dos responderán las preguntas de la audiencia de SMX con el editor de Search Engine Land, Danny Sullivan, como moderador (¡pase a la sección de preguntas y respuestas!).

Desde la izquierda: Gary Illyes, analista de tendencias para webmasters de Google, Paul Haahr, ingeniero de software de Google, y Danny Sullivan, editor de Search Engine Land, en el escenario SMX West 2016 en San José.

Cómo funciona Google

Haahr comienza diciéndonos qué hacen los ingenieros de Google. Su trabajo incluye:

  • Escribir código para búsquedas
  • Optimización de métricas
  • Buscando nuevas señales
  • Combinando viejas señales de nuevas formas
  • Mover resultados con buenas calificaciones hacia arriba
  • Mover los resultados con malas calificaciones hacia abajo
  • Directrices de clasificación de fijación
  • Desarrollar nuevas métricas cuando sea necesario

Dos partes de un motor de búsqueda:

  • Ahead of time (antes de la consulta)
  • Procesamiento de consultas

Antes de la Consulta

  • rastrear la web
  • Analizar las páginas rastreadas
    • Extraer enlaces
    • Renderizar contenidos
    • Anotar semántica
  • Construir un índice

El índice

  • Como el índice de un libro.
  • Para cada palabra, una lista de páginas en las que aparece
  • Dividido en grupos de millones de páginas
  • Más metadatos por documento

Procesamiento de consultas

  • Comprensión y expansión de consultas
    ¿La consulta nombra alguna entidad conocida?
  • Recuperación y puntuación
    • Enviar la consulta a todos los fragmentos
      cada fragmento

      • Encuentra las páginas coincidentes
      • Calcula una puntuación para consulta+página
      • Devuelve la página N superior por puntuación
    • Combina todas las páginas principales
    • Ordenar por puntaje
  • Ajustes posteriores a la recuperación
    • Agrupación de hosts
    • ¿Hay duplicación?

Señales de puntuación

Una señal es:

  • Una pieza de información utilizada en la puntuación.
  • Consulta independiente: característica de una página
  • Consulta dependiente

Métrica

“Si no puedes medirlo, no puedes mejorarlo” – Lord Kelvin

  • Relevancia
    • ¿Una página responde de manera útil a la consulta del usuario?
    • Métrica de primera línea del ranking
  • Calidad
    • Que buenos son los resultados que mostramos
  • Tiempo hasta el resultado (más rápido es mejor)

Google se mide a sí mismo con experimentos en vivo:

  • Experimentos A/B sobre tráfico real
  • Busque cambios en los patrones de clics
  • Hay mucho tráfico en un experimento u otro

En un momento, Google probó 41 azules diferentes para ver cuál era el mejor.

Google también realiza experimentos con evaluadores humanos:

  • Mostrar resultados de búsqueda experimentales de personas reales
  • Pregunta cómo son los resultados
  • Calificaciones agregadas entre evaluadores
  • Publicar pautas que expliquen los criterios para los evaluadores.
  • Las herramientas admiten hacer esto de forma automatizada, similar a Mechanical Turk

Google juzga las páginas según dos factores principales:

  • Necesidades satisfechas (donde el móvil está al frente y al centro)
  • Calidad de la página

Calificaciones de necesidades satisfechas:

  • Cumple completamente
  • Muy Altamente Cumple
  • Cumple altamente
  • Cumple moderadamente
  • Cumple ligeramente
  • no cumple

Conceptos de calidad de página:

  • experiencia
  • Autoritatividad
  • confiabilidad

Proceso de desarrollo de ingenieros de Google:

  • Ocurrencia
  • Repita hasta que esté listo
    • Escribir código
    • Generar datos
    • Ejecutar experimentos
    • Analizar
  • Informe de lanzamiento por analista cuantitativo
  • Revisión de lanzamiento
  • Lanzar

¿Qué sale mal?

Hay dos clases de problemas:

  • Calificaciones sistemáticamente malas
  • Las métricas no capturan las cosas que nos importan

Aquí hay un ejemplo de una mala calificación. Alguien busca [fertilizante agrícola de Texas] y el resultado de la búsqueda proporciona un mapa de la sede del fabricante. Es muy poco probable que eso sea lo que quieren. Google determina esto a través de experimentos en vivo. Si un calificador ve los mapas y los califica como "Satisface en gran medida" las necesidades, entonces esto es una falla en el punto de calificación.

O, ¿qué sucede si faltan las métricas? En 2009-2011, hubo muchas quejas sobre contenido de baja calidad. Pero las métricas de relevancia siguieron aumentando debido a las granjas de contenido. Conclusión: Google no estaba midiendo las métricas que necesitaba. Por lo tanto, la métrica de calidad se desarrolló aparte de la relevancia.

Aquí está la plataforma de diapositivas de Paul Haahr, que vale la pena ver:
Actualización 7/19: La presentación ahora ha sido marcada como privada por el autor.

Cómo funciona Google: la perspectiva de un ingeniero de clasificación Por Paul Haahr de Search Marketing Expo - SMX

Gary Illyes y Paul Haahr responden preguntas de la audiencia de SMX

SMX: ¿Cómo encaja RankBrain en todo esto?

Haahr: RankBrain puede ver un subconjunto de las señales. No puedo entrar en demasiados detalles sobre cómo funciona RankBrain. Entendemos cómo funciona, pero no tanto lo que está haciendo. Utiliza muchas de las cosas que hemos publicado sobre el aprendizaje profundo.

¿Cómo sabría RankBrain la autoridad de una página?

Haahr: Todo depende del entrenamiento que recibe. Ve consultas y otras señales. No puedo decir mucho más que sería útil.

SMX: Cuando inicia sesión en una aplicación de Google, ¿se diferencia por la información que recopila? Si estás en Google Now vs. Chrome, ¿eso puede afectar lo que estás viendo?

Haahr: Es realmente una cuestión de si estás conectado o no. Brindamos una experiencia consistente. Tu historial de navegación te sigue a cualquiera de los dos.

¿Google ofrece diferentes resultados para las mismas consultas en diferentes momentos del día?

Illyes: No estoy seguro. En Maps, por ejemplo, si mostramos algo relacionado con los mapas mostraremos las horas. No cambia lo que aparece, según el conocimiento de Gary.

SMX: ¿Qué está pasando con Panda y Penguin?

Illyes: Renuncié a dar una fecha o un cronograma de Penguin. Estamos trabajando en eso, pensando en cómo lanzarlo, pero sinceramente no sé una fecha y no quiero decir una fecha porque ya me equivoqué tres o cuatro veces y es malo para el negocio.

SMX: Autoría posterior a Google, ¿cómo está rastreando la autoridad del autor?

Haahr: Ahí no voy a entrar en ningún detalle. Lo que diré es que se espera que los evaluadores revisen eso manualmente para una página que están viendo. Lo que medimos es: ¿somos capaces de hacer un buen trabajo al brindar resultados que los evaluadores consideran buenas autoridades?

SMX: ¿Eso significa que la autoridad se utiliza como un factor directo o indirecto?

Haahr: Yo no diría ni sí ni no. Es mucho más complicado que eso y no puedo dar una respuesta directa.

SMX: Cuando finalizó la autoría explícita, Google dijo que siguiera teniendo firmas. ¿Deberías molestarte con rel=author?

Illyes: Hay al menos un equipo que todavía está investigando el uso de la etiqueta rel=author solo por el bien de futuros desarrollos. Si yo fuera un SEO todavía dejaría la etiqueta. No duele tenerlo. En las páginas nuevas, sin embargo, probablemente no valga la pena tenerlo. Aunque podríamos usarlo para algo en el futuro.

SMX: ¿Qué estás leyendo ahora mismo?

Haahr: Leo mucho periodismo y muy pocos libros. Sin embargo, acabo de terminar “City on Fire”, se trata de Nueva York en los años 70. Son 900 páginas y me decepcionó cuando terminó. Acabo de empezar "No puede pasar aquí".

Suscríbase al enlace del blog de BCI