Cómo funciona Google: la historia de un ingeniero de clasificación de Google #SMX
Publicado: 2022-06-12El ingeniero de software de Google, Paul Haahr, ha estado en Google durante más de 14 años. Para dos de ellos, compartió oficina con Matt Cutts. Subirá al escenario de SMX West 2016 para compartir cómo funciona Google desde la perspectiva de un ingeniero de Google o, al menos, compartir todo lo que pueda en 30 minutos. Después, el analista de tendencias para webmasters, Gary Illyes, se unirá a él en el escenario y los dos responderán las preguntas de la audiencia de SMX con el editor de Search Engine Land, Danny Sullivan, como moderador (¡pase a la sección de preguntas y respuestas!).
Cómo funciona Google
Haahr comienza diciéndonos qué hacen los ingenieros de Google. Su trabajo incluye:
- Escribir código para búsquedas
- Optimización de métricas
- Buscando nuevas señales
- Combinando viejas señales de nuevas formas
- Mover resultados con buenas calificaciones hacia arriba
- Mover los resultados con malas calificaciones hacia abajo
- Directrices de clasificación de fijación
- Desarrollar nuevas métricas cuando sea necesario
Dos partes de un motor de búsqueda:
- Ahead of time (antes de la consulta)
- Procesamiento de consultas
Antes de la Consulta
- rastrear la web
- Analizar las páginas rastreadas
- Extraer enlaces
- Renderizar contenidos
- Anotar semántica
- Construir un índice
El índice
- Como el índice de un libro.
- Para cada palabra, una lista de páginas en las que aparece
- Dividido en grupos de millones de páginas
- Más metadatos por documento
Procesamiento de consultas
- Comprensión y expansión de consultas
¿La consulta nombra alguna entidad conocida? - Recuperación y puntuación
- Enviar la consulta a todos los fragmentos
cada fragmento- Encuentra las páginas coincidentes
- Calcula una puntuación para consulta+página
- Devuelve la página N superior por puntuación
- Combina todas las páginas principales
- Ordenar por puntaje
- Enviar la consulta a todos los fragmentos
- Ajustes posteriores a la recuperación
- Agrupación de hosts
- ¿Hay duplicación?
Señales de puntuación
Una señal es:
- Una pieza de información utilizada en la puntuación.
- Consulta independiente: característica de una página
- Consulta dependiente
Métrica
“Si no puedes medirlo, no puedes mejorarlo” – Lord Kelvin
- Relevancia
- ¿Una página responde de manera útil a la consulta del usuario?
- Métrica de primera línea del ranking
- Calidad
- Que buenos son los resultados que mostramos
- Tiempo hasta el resultado (más rápido es mejor)
Google se mide a sí mismo con experimentos en vivo:
- Experimentos A/B sobre tráfico real
- Busque cambios en los patrones de clics
- Hay mucho tráfico en un experimento u otro
En un momento, Google probó 41 azules diferentes para ver cuál era el mejor.
Google también realiza experimentos con evaluadores humanos:
- Mostrar resultados de búsqueda experimentales de personas reales
- Pregunta cómo son los resultados
- Calificaciones agregadas entre evaluadores
- Publicar pautas que expliquen los criterios para los evaluadores.
- Las herramientas admiten hacer esto de forma automatizada, similar a Mechanical Turk
Google juzga las páginas según dos factores principales:
- Necesidades satisfechas (donde el móvil está al frente y al centro)
- Calidad de la página
Calificaciones de necesidades satisfechas:
- Cumple completamente
- Muy Altamente Cumple
- Cumple altamente
- Cumple moderadamente
- Cumple ligeramente
- no cumple
Conceptos de calidad de página:
- experiencia
- Autoritatividad
- confiabilidad
Proceso de desarrollo de ingenieros de Google:
- Ocurrencia
- Repita hasta que esté listo
- Escribir código
- Generar datos
- Ejecutar experimentos
- Analizar
- Informe de lanzamiento por analista cuantitativo
- Revisión de lanzamiento
- Lanzar
¿Qué sale mal?
Hay dos clases de problemas:
- Calificaciones sistemáticamente malas
- Las métricas no capturan las cosas que nos importan
Aquí hay un ejemplo de una mala calificación. Alguien busca [fertilizante agrícola de Texas] y el resultado de la búsqueda proporciona un mapa de la sede del fabricante. Es muy poco probable que eso sea lo que quieren. Google determina esto a través de experimentos en vivo. Si un calificador ve los mapas y los califica como "Satisface en gran medida" las necesidades, entonces esto es una falla en el punto de calificación.
O, ¿qué sucede si faltan las métricas? En 2009-2011, hubo muchas quejas sobre contenido de baja calidad. Pero las métricas de relevancia siguieron aumentando debido a las granjas de contenido. Conclusión: Google no estaba midiendo las métricas que necesitaba. Por lo tanto, la métrica de calidad se desarrolló aparte de la relevancia.
Aquí está la plataforma de diapositivas de Paul Haahr, que vale la pena ver:
Actualización 7/19: La presentación ahora ha sido marcada como privada por el autor.
Gary Illyes y Paul Haahr responden preguntas de la audiencia de SMX
SMX: ¿Cómo encaja RankBrain en todo esto?
Haahr: RankBrain puede ver un subconjunto de las señales. No puedo entrar en demasiados detalles sobre cómo funciona RankBrain. Entendemos cómo funciona, pero no tanto lo que está haciendo. Utiliza muchas de las cosas que hemos publicado sobre el aprendizaje profundo.
¿Cómo sabría RankBrain la autoridad de una página?
Haahr: Todo depende del entrenamiento que recibe. Ve consultas y otras señales. No puedo decir mucho más que sería útil.
SMX: Cuando inicia sesión en una aplicación de Google, ¿se diferencia por la información que recopila? Si estás en Google Now vs. Chrome, ¿eso puede afectar lo que estás viendo?
Haahr: Es realmente una cuestión de si estás conectado o no. Brindamos una experiencia consistente. Tu historial de navegación te sigue a cualquiera de los dos.
¿Google ofrece diferentes resultados para las mismas consultas en diferentes momentos del día?
Illyes: No estoy seguro. En Maps, por ejemplo, si mostramos algo relacionado con los mapas mostraremos las horas. No cambia lo que aparece, según el conocimiento de Gary.
SMX: ¿Qué está pasando con Panda y Penguin?
Illyes: Renuncié a dar una fecha o un cronograma de Penguin. Estamos trabajando en eso, pensando en cómo lanzarlo, pero sinceramente no sé una fecha y no quiero decir una fecha porque ya me equivoqué tres o cuatro veces y es malo para el negocio.
SMX: Autoría posterior a Google, ¿cómo está rastreando la autoridad del autor?
Haahr: Ahí no voy a entrar en ningún detalle. Lo que diré es que se espera que los evaluadores revisen eso manualmente para una página que están viendo. Lo que medimos es: ¿somos capaces de hacer un buen trabajo al brindar resultados que los evaluadores consideran buenas autoridades?
SMX: ¿Eso significa que la autoridad se utiliza como un factor directo o indirecto?
Haahr: Yo no diría ni sí ni no. Es mucho más complicado que eso y no puedo dar una respuesta directa.
SMX: Cuando finalizó la autoría explícita, Google dijo que siguiera teniendo firmas. ¿Deberías molestarte con rel=author?
Illyes: Hay al menos un equipo que todavía está investigando el uso de la etiqueta rel=author solo por el bien de futuros desarrollos. Si yo fuera un SEO todavía dejaría la etiqueta. No duele tenerlo. En las páginas nuevas, sin embargo, probablemente no valga la pena tenerlo. Aunque podríamos usarlo para algo en el futuro.
SMX: ¿Qué estás leyendo ahora mismo?
Haahr: Leo mucho periodismo y muy pocos libros. Sin embargo, acabo de terminar “City on Fire”, se trata de Nueva York en los años 70. Son 900 páginas y me decepcionó cuando terminó. Acabo de empezar "No puede pasar aquí".