[Resumen del seminario web] SEO en órbita: Rankbrain, IA, aprendizaje automático y el futuro de la búsqueda

Publicado: 2019-11-13

El seminario web Rankbrain, IA, aprendizaje automático y el futuro de la búsqueda es parte de la serie SEO en órbita y se emitió el 19 de junio de 2019. En este episodio, Bill Slawski aprovecha su conocimiento de las patentes de Google y el funcionamiento de la búsqueda para romper descifrar los algoritmos de búsqueda probables que se utilizan en la actualidad y postular cómo se vería bajo el capó de una versión futura de Google. Únase a nosotros mientras exploramos el futuro del SEO técnico.

SEO in Orbit es la primera serie de seminarios web que envía SEO al espacio. A lo largo de la serie, discutimos el presente y el futuro del SEO técnico con algunos de los mejores especialistas en SEO y enviamos sus mejores consejos al espacio el 27 de junio de 2019.

Mira la repetición aquí:

Presentando a Bill Slawski

Bill Slawski, experto autodidacta en patentes de motores de búsqueda, es el director de alcance de SEO en Go Fish Digital y bloguero en SEO by the Sea. En las propias palabras de Bill: “No soy un informático, y no soy un matemático. Tengo una licenciatura en inglés y un doctorado en derecho. He estado leyendo patentes de los motores de búsqueda desde alrededor de 2005, para aprender lo que tienen que decir sobre la búsqueda, los buscadores y la Web. Muchas de estas patentes cubren algoritmos que tienen como objetivo abordar problemas particulares, y he encontrado muchas útiles cuando se trata de realizar SEO”.

Este episodio fue presentado por Francois Goube, emprendedor en serie y cofundador y director ejecutivo de OnCrawl. Ha fundado varias empresas y participa activamente en el ecosistema de startups. Apasionado del análisis semántico y de los motores de búsqueda, le encanta analizar publicaciones científicas de Google y es ponente habitual en congresos de SEO.

¿Qué son la IA y el aprendizaje automático?

Hay muchas definiciones de IA.

Gran parte del trabajo de Google se centra en las redes neuronales, lo que conduce a cómo funciona el aprendizaje automático. Utiliza un conjunto de datos que representa el conjunto de datos ideal, marcado para enfatizar ciertas características sobre él, que se usa para entrenar clasificadores. Luego, estos se liberan en otros conjuntos de datos para analizar y clasificar la nueva información en función de lo que aprendieron del conjunto de muestra. Eso es aprendizaje automático.

Áreas cubiertas por la IA

- Lenguaje natural

La IA puede cubrir diferentes áreas, como una mejor comprensión del lenguaje natural. Hay una serie de técnicas involucradas, y muchas de las cosas que surgen de Google ilustran lo que implica el análisis del lenguaje natural.

– Respuesta a preguntas

Una patente reciente (enlace) intenta llenar espacios en blanco en esquemas de respuesta a preguntas.

Explica cómo Google podría usar un gráfico de conocimiento para comprender cuál podría ser la respuesta a una pregunta. Por ejemplo, si falta información o hay datos incorrectos para las entidades, Google podría intentar estimar la respuesta en función de la información asociada con hechos relacionados.

Lo interesante de esta patente no es que Google utilice la estimación para responder preguntas, sino que proporciona las explicaciones de sus estimaciones.

– Imitar el pensamiento humano (redes neuronales)

El aprendizaje automático se basa en la IA, en imitar la forma en que podría funcionar el pensamiento humano. Las redes de aprendizaje automático se denominan redes neuronales porque están diseñadas para intentar replicar la forma en que funcionan las neuronas en un cerebro.

Rankbrain

– Relación con el colibrí y el contexto de la palabra

Tanto Rankbrain como Hummingbird son enfoques de reescritura de consultas. Hummingbird trató de comprender mejor el contexto de una consulta mirando todas las palabras en una consulta. Anteriormente, Google solo miraba las palabras una al lado de la otra para comprender el contexto; Colibrí mira más allá de las palabras inmediatamente una al lado de la otra. Incluso podría tener en cuenta oraciones completas en consultas conversacionales. Hummingbird trató de usar todas las palabras de la consulta juntas para comprender el contexto.

– Reescritura de consultas en Rankbrain utilizando el enfoque de incrustación de palabras

A diferencia de Hummingbird, Rankbrain utiliza un enfoque de incrustación de palabras. Examina un breve pasaje textual y es capaz de determinar si faltan palabras. Lo hace entrenando en grandes conjuntos de datos (200 mil millones de palabras).

– Encontrar palabras que faltan en la consulta

Por ejemplo, la consulta "rompecabezas del New York Times" se puede interpretar correctamente como que falta la palabra "crucigrama". Rankbrain agrega la palabra que falta a la consulta y devuelve los resultados del crucigrama del New York Times al buscador, ya que eso es probablemente lo que quiere.

– ¿Se puede optimizar para Rankbrain?

Es importante tener en cuenta que no puede optimizar páginas para Rankbrain. Algunos SEO han escrito artículos que dicen que puedes. Sin embargo, todo lo que Bill ha visto sobre el algoritmo sugiere que se trata de un proceso de reescritura de consultas, no algo que afecte la evaluación de una página.

Algoritmos adicionales de Google que utilizan el aprendizaje automático

Google no tiene un único “algoritmo” que impulse el motor de búsqueda. Tiene muchos algoritmos diferentes que contribuyen a su funcionamiento. Rankbrain es uno de muchos.

– Uso de puntajes de calidad dentro de las categorías

Esto podría significar, por ejemplo, que cuando Google determina que hay muchos resultados de tipo informativo para una consulta determinada, en lugar de clasificar las páginas según la puntuación de recuperación de información o las calificaciones de autoridad como PageRank, podrían considerar categorías. A partir de ahí, pueden otorgar puntajes de calidad dentro de las categorías del sitio web. Esto proporcionará un conjunto de resultados más diverso y garantizará que los resultados de mayor calidad puedan pasar más rápidamente a la parte superior de los resultados.

– Popularidad de la página para los resultados de navegación

Este tipo de algoritmo de clasificación también favorece las páginas que son más populares (páginas a las que la gente tiende a ir), en particular para los resultados de tipo de navegación. Cuando los buscadores ya saben que la página es algo que quieren ver, la página tenderá a clasificarse alto en los paradigmas de nivel de calidad de categoría.

– Influencia de SERP CTR

Los puntajes de calidad de categoría también sugieren que las páginas que a menudo se seleccionan en los resultados de búsqueda también son páginas de alta calidad y también se clasificarían alto bajo este enfoque de calidad de categoría.

Sin embargo, aunque un enfoque de puntaje de calidad de categoría es definitivamente aprendizaje automático, no es Rankbrain.

Rankbrain para satisfacer las necesidades situacionales de los buscadores

Rankbrain está tratando de entender lo que puede faltar en una consulta. El aspecto más importante de Rankbrain es que intenta satisfacer las necesidades de la situación de los buscadores: ¿qué quiso decir realmente esta persona cuando escribió la consulta en el cuadro?

Consultas de palabras clave anteriores frente a consultas habladas y conversacionales actuales

Si nos movemos hacia consultas habladas y de tipo conversación, habrá más palabras involucradas que el enfoque de palabras clave que se usaba en el pasado.

Como buscador, está tratando de adivinar qué palabras necesita usar para encontrar la información que necesita. Y no debería necesitar hacer este tipo de conjeturas. Si pides lo que quieres, Google debería poder analizarlo y determinar lo que probablemente quisiste decir. Este es el papel de Rankbrain.

Enfoques de procesamiento del lenguaje natural

Una de las cosas que estamos viendo es que Google presta mucha más atención al procesamiento del lenguaje natural. Estamos viendo aparecer enfoques de procesamiento de lenguaje natural.

– Emparejamiento neuronal

Danny Sullivan tuiteó un poco sobre algo que él llamó emparejamiento neuronal.

Dijo que este es un medio para comprender mejor las palabras en las páginas y el significado de esas palabras en contexto. Proporcionó algunos ejemplos de cómo una palabra puede significar tres o cuatro cosas diferentes dependiendo de cómo se ubique dentro de una oración.

– Incrustación de palabras

Google ha estado publicando patentes sobre el uso de un enfoque de tipo incrustación de palabras (como el que usaron en Rankbrain para comprender esas consultas textuales cortas) para cantidades más largas de texto, como páginas web.

– Marcos Semánticos

Un marco semántico es cuando usas un lenguaje ideal para una determinada situación. En cada situación, hay cierto lenguaje que se utiliza. Por ejemplo, los puntos en el contexto de una hipoteca o compra de bienes raíces no tienen el mismo significado que los puntos en los juegos de dados o de mesa.

Si comprende el marco, podrá comprender mejor el contexto de las palabras en una página.

Esto también puede ayudar a diferenciar entre palabras en las que el significado difiere de una situación a otra. “Caballo”, por ejemplo, no significa lo mismo para un jinete que para un carpintero. Otras patentes también han explorado métodos adicionales para comprender las diferencias contextuales en el significado.

Uso del aprendizaje automático para identificar autores en función de los estilos de escritura

Es bastante fácil para una máquina identificar el estilo de escritura de un individuo. Existe un paralelismo entre esto y las clasificaciones temáticas de contenido debido a estilos estandarizados en industrias como inmobiliaria, deportes, etc.

Como estudiante de inglés, Bill analizó la literatura y observó las diferentes formas en que los autores se expresaban y por qué.

– El autor puntúa la patente usando la frecuencia de citas

Google tiene una patente sobre las partituras de los autores. Para puntuar a los autores, uno de los factores que se tienen en cuenta es la frecuencia con la que otros escritores los citan.

– Visor N-Gram de Google Books

Google trabaja mucho con los modelos de lenguaje. Han escaneado una gran cantidad de libros. El visor de N-Gram le permite ver cómo evoluciona la popularidad de una frase a lo largo de los años.

– Patente Quality Score de N. Panda usando modelos de lenguaje

La patente Quality Score de N. Panda habla sobre el uso de N-gramas y la creación de modelos de lenguaje para comprender la calidad de las páginas web en función de cómo se comparan con otros modelos de lenguaje.

Este es un gran ejemplo de aprendizaje automático en la tecnología de motores de búsqueda. Tenemos un conjunto de datos de páginas puntuadas previamente y estamos comparando páginas nuevas con las que se basan en los datos del conjunto de muestra original. Dado que esto se usa para determinar la calidad, las páginas que contienen características de páginas bien escritas del conjunto original obtendrán una puntuación más alta.

Este tipo de modelo de lenguaje también se puede utilizar para comprender el estilo de escritura de diferentes autores.

Aprendizaje automático futuro con datos estructurados

El aprendizaje automático también es evidente en la forma en que Google administra las entidades, en la traducción y en la apariencia de lo que Cindy Krum ha llamado Fraggles.

– Responder pasajes y reforzar el contenido textual

Hay otra patente que habla de pasajes de respuesta, en la que Google propone un mecanismo para usar pasajes textuales que se encuentran en las páginas web para proporcionar respuestas a las preguntas. Esto se actualizó recientemente para observar no solo los pasajes textuales, sino también los datos estructurados que refuerzan el texto.

– Verificación de hechos y consistencia.

El uso de Schema proporciona redundancia en la información. Esto le da a Google un medio para verificar la consistencia de los hechos informativos en una página web comparando la información textual con la información provista en el marcado estructurado.

Esto es lo mismo que sucede en los mapas de Google, donde Google busca el nombre, la dirección y el número de teléfono.

La coherencia proporciona un nivel de confianza de que es más probable que la respuesta sea correcta.

– Páginas de preguntas frecuentes y páginas de instrucciones

A medida que Google presenta la página de preguntas frecuentes y la compatibilidad con esquemas de instrucciones, los vemos avanzar hacia medios para que los propietarios de sitios construyan un esquema que refleje lo que podrían poner en el texto de una página web.

Estrategias para entender el contexto en la página web

Google ha tomado otras medidas para tratar de comprender mejor el contenido de las páginas web. Aquí hay algunos:

– Uso de bases de conocimiento y términos de contexto

Las patentes de Google han indicado que podrían buscar en las bases de conocimiento y recopilar definiciones de términos de contexto de esas bases de conocimiento. Luego, podrían buscar la presencia de estos términos de contexto en una página web para ayudar a determinar qué significado de una palabra dependiente del contexto es más probable.

Por lo tanto, una página sobre un caballo (un animal) puede contener palabras como "silla de montar", mientras que las páginas sobre otros tipos de caballos pueden contener palabras como "carpintería".

– Indexación basada en frases

Otro enfoque del aprendizaje semántico para comprender los temas de las páginas data de 2004 más o menos. La indexación basada en frases no solo es antigua, sino que también es objeto de al menos 20 patentes y se ha actualizado y modificado varias veces. Todo esto le indica a Bill que la indexación basada en frases es algo que tiene mucha importancia en los algoritmos de Google.

– Construcción de índice invertido de frases predictivas de tema

Una de las patentes asociadas con la indexación basada en frases describe la creación de un índice invertido de frases que aparecen en las páginas y que predicen los temas. Un ejemplo serían frases como “Presidente de los Estados Unidos”, “Secretario de Estado” o “Entrevista en Rose Garden” que son predictivas de un tópico semántico de “Casa Blanca”.

Conocimiento de la materia del webmaster en Schema

Google está desarrollando el uso de cosas como Schema, pero los webmasters proporcionan la definición del tipo de cosas que describe Schema. De esta manera, los webmasters pueden contribuir a construir los gráficos de conocimiento junto con los motores de búsqueda.

Por ejemplo, Google ha agregado "conoce sobre" como un aspecto de Schema. Sin embargo, los webmasters son los que indican que los abogados pueden saber sobre derecho marítimo o derecho de patentes, que a su vez ayudan a llenar la gráfica de conocimiento.

La representación del conocimiento basada en máquinas es un esfuerzo colaborativo.

[Estudio de caso] Administrar el rastreo de bots de Google

Con más de 26 000 referencias de productos, 1001Pneus necesitaba una herramienta confiable para monitorear su rendimiento de SEO y asegurarse de que Google dedicaba su presupuesto de rastreo a las categorías y páginas correctas. Aprenda a administrar con éxito el presupuesto de rastreo para sitios web de comercio electrónico con OnCrawl.
Lea el estudio de caso

Búsqueda en evolución y prácticas de SEO obsoletas

– Palabras repetidas en texto alternativo

Decirle a Google que una fotografía de una persona debe ser nombrada dos veces no ayuda a Google a entenderla dos veces mejor. Incluso es posible que pueda disminuir la estimación del motor de búsqueda del valor de la página.

– LSI destinado a pequeñas bases de datos estáticas

Los fabricantes de herramientas siguen sugiriendo que los SEO usan técnicas antiguas. Un ejemplo es la indexación semántica latente (LSI), que se desarrolló en 1989. Estaba pensada para bases de datos pequeñas y estáticas que no son del tamaño de la web y no crecen al ritmo que lo hace la web.

Cada vez que desee utilizar LSI, debe tener la última versión de la base de datos. Si continúa agregando información al corpus, debe ejecutarse nuevamente. Esto significa que no es muy útil para la web.

– TF-IDF funciona solo con acceso al corpus completo

TF-IDF (frecuencia de documento de índice de frecuencia de término) es otro ejemplo. Esto funciona mejor si tiene acceso al corpus completo de la información que se indexa, en este caso, la red mundial. Utiliza TF-IDF cuando desea saber cuáles son las palabras más comunes y cuáles son palabras raras en todo el corpus. Pero si solo usa el corpus de la página de clasificación de los diez primeros para ciertos términos en lugar de toda la web, no puede establecer la frecuencia real del término.

Esto puede afectar seriamente la precisión de su análisis.

Expectativa del webmaster y capacidades de Google: necesidad de comunicación de Google

A pesar de los anuncios recientes, en realidad no sabemos si el marcado de paginación no es útil para los motores de búsqueda.

Aunque el marcado de paginación ya no se usa para administrar contenido duplicado en páginas paginadas, tenemos ciertas expectativas de Google. Deben poder entender cuándo las páginas están en una serie. Anuncios como este revelan la dificultad de saber qué tan bueno o qué tan malo es Google en lo que hace.

Usar palabras concurrentes frecuentes

El truco técnico favorito de Bill es buscar palabras que coexisten con frecuencia y que tienen una clasificación alta para ciertos términos y asegurarse de que las usa en el contenido, tanto en el cuerpo como en el texto de anclaje que apunta desde su página a páginas relacionadas. Esto aprovecha los "éxitos de anclaje", que supuestamente los motores de búsqueda tratan como "enlaces expertos".

Esta estrategia se extrae de la indexación basada en frases.

– Probabilidad estadística de co-ocurrencia de frases

La patente de indexación basada en frases se actualizó hace unos dos años. Este enfoque ahora utiliza la cantidad de términos relacionados que aparecen en las páginas para clasificar las páginas.

Sin embargo, si en una página aparece más de un número estadísticamente probable de términos relacionados, se puede marcar como spam. Por ejemplo, si extrajo muchas páginas sobre un tema y las puso todas en una sola página, tendría demasiados términos relacionados para que sucediera de forma natural.

Esto encaja bien con la forma en que Bill investiga las palabras clave. Mira páginas similares y crea una lista de frases o palabras similares que ocurren con frecuencia. Puede intentar usar algunos de ellos en su propia página, incluso si no está tratando de posicionarse para ellos. Esto crea contenido relevante para las palabras clave para las que quiere clasificar.

LSI frente al uso de sinónimos o contenido relacionado semánticamente

La exageración en torno a LSI es uno de los temas menos favoritos de Bill, en parte porque el término es engañoso. Lo que mucha gente está sugiriendo cuando hablar de LSI no tiene nada que ver con la indexación semántica latente. En cambio, solo sugieren agregar sinónimos o contenido relacionado semánticamente a las páginas.

El índice invertido de la indexación basada en frases y las bases de conocimiento que pueden proporcionar términos de contexto indican que hay términos y fuentes a las que puede acudir para encontrar palabras que podrían ser útiles si está buscando estrictamente términos concurrentes en alto rango. páginas para su palabra clave.

Las palabras que parecen sinónimos a veces no lo son, según la estimación de Google.

Indexación rápida con la herramienta de envío de URL

La herramienta de envío de URL en la nueva versión de Google Search Console es una forma realmente rápida de indexar páginas. Bill ha visto actualizaciones propagadas a los SERP en uno o dos minutos.

La esperanza de Bill para el marcado futuro: más información para patentes

Pregunta de la audiencia: ¿Qué marcado Schema le gustaría ver agregado en el futuro?

Debido a que escribe mucho sobre patentes, a Bill le gustaría ver una mejor manera de capturar las características únicas de las patentes. Algunas de estas características incluyen:

  • Clases (lo que la patente pretende abordar)
  • Nombre de la patente, aunque la "entidad principal de la página" podría cubrir esta función

Dado que Google ya le permite buscar en función de las características de Schema, la finalidad sería poder mejorar la búsqueda de patentes, de modo que las personas puedan solicitar ver patentes que cubran ciertas categorías.

¿Es la optimización del motor de respuesta el futuro de la búsqueda?

Pregunta de la audiencia: ¿Crees que el SEO se convertirá en AEO en el futuro?

Bill cree que, en cierto modo, el SEO siempre ha sido AEO.

– Indicaciones más antiguas de Google como motor de respuesta

No necesariamente estamos pasando por una evolución. Hay indicios de hace 15 años de que Google se dirigía en esta dirección, por ejemplo:

  • 2004: función de diccionario que permite a los usuarios buscar el significado de las palabras
  • 2005: Publicación de blog "Solo los hechos" que muestra el primer fragmento destacado o respuesta directa que no se satisfizo al proporcionar diez enlaces azules, pero prefirió proporcionar una respuesta textual.

– Sergey Brin: patente de algoritmo para comprender hechos y relaciones entre hechos

Otra indicación de que Google como motor de respuesta no es nada nuevo es una patente de Sergey Brin sobre un algoritmo para comprender hechos y relaciones entre hechos. Esta patente incluía cinco libros, sus títulos, sus editores, sus autores, etc.

La teoría es que un bot rastrearía la web en busca de estos libros y...

[Interrupción de OK Google]

– Marcas de agua de audio

También existe el concepto de marcas de agua de audio que aprovechan la frecuencia ultra alta. Caerían fuera del alcance del oído humano, pero los perros y las computadoras podrían identificarlos. Esto podría permitir que diferentes proveedores rastreen el hecho de que ha escuchado un comercial con marca de agua y podría estar potencialmente interesado en el producto.

Esto ha existido durante al menos cinco años y no es algo que se haya discutido en SEO.

Consejo superior

“Hay mucha información errónea sobre temas como RankBrain, Neural Matching y Machine Learning en la Web. Parte de esto incluye hechos cuidadosamente investigados mezclados con información errónea, así que tenga cuidado con lo que confía”.

SEO en órbita fue al espacio

Si te perdiste nuestro viaje al espacio el 27 de junio, míralo aquí y descubre todos los consejos que enviamos al espacio.