[Webinar Digest] SEO em órbita: Rankbrain, IA, aprendizado de máquina e o futuro da pesquisa
Publicados: 2019-11-13O webinar Rankbrain, IA, aprendizado de máquina e o futuro da pesquisa faz parte da série SEO in Orbit e foi ao ar em 19 de junho de 2019. Neste episódio, Bill Slawski aproveita seu conhecimento das patentes do Google e do funcionamento da pesquisa para quebrar analisar prováveis algoritmos de busca usados hoje e postular como pode ser sob o capô de uma futura versão do Google. Junte-se a nós enquanto exploramos o futuro do SEO técnico.
SEO in Orbit é a primeira série de webinars que envia SEO para o espaço. Ao longo da série, discutimos o presente e o futuro do SEO técnico com alguns dos melhores especialistas em SEO e enviamos suas principais dicas para o espaço em 27 de junho de 2019.
Assista a reprise aqui:
Apresentando Bill Slawski
Especialista em patentes de mecanismos de busca autodidata, Bill Slawski é o diretor de alcance de SEO da Go Fish Digital e um blogueiro da SEO by the Sea. Nas próprias palavras de Bill: “Eu não sou um cientista da computação e não sou um matemático. Sou bacharel em inglês e doutor em direito. Tenho lido patentes dos mecanismos de busca desde cerca de 2005, para saber o que eles têm a dizer sobre busca, buscadores e a Web. Muitas dessas patentes cobrem algoritmos que visam resolver problemas específicos, e achei muitas úteis quando se trata de realizar SEO.”
Este episódio foi apresentado por François Goube, empresário em série e cofundador e CEO da OnCrawl. Fundou várias empresas e está ativamente envolvido no ecossistema de startups. Apaixonado por análise semântica e mecanismos de busca, ele adora analisar publicações científicas do Google e é palestrante regular em conferências de SEO.
O que são IA e aprendizado de máquina?
Existem muitas definições de IA.
Muito do trabalho do Google se concentra em redes neurais, o que leva a como o aprendizado de máquina funciona. Ele usa um conjunto de dados que representa o conjunto de dados ideal, marcado para enfatizar certas características sobre ele, que é usado para treinar classificadores. Estes são então liberados em outros conjuntos de dados para analisar e classificar as novas informações com base no que eles aprenderam com o conjunto de amostras. Isso é aprendizado de máquina.
Áreas cobertas pela IA
– Linguagem natural
A IA pode abranger diferentes áreas, como entender melhor a linguagem natural. Existem várias técnicas envolvidas, e muitas das coisas que vêm do Google ilustram o que está envolvido na análise de linguagem natural.
– Respondendo perguntas
Uma patente recente (link) tenta preencher os espaços em branco nos esquemas de resposta a perguntas.
Ele explica como o Google pode usar um gráfico de conhecimento para entender qual pode ser a resposta a uma pergunta. Por exemplo, se houver informações ausentes ou dados incorretos para entidades, o Google poderá tentar estimar a resposta com base nas informações associadas aos fatos relacionados.
O que é interessante sobre esta patente não é que o Google esteja usando estimativas para responder a perguntas, mas que eles estão fornecendo as explicações para suas estimativas.
– Imitando o pensamento humano (redes neurais)
O aprendizado de máquina é baseado em IA, imitando a maneira como o pensamento humano pode funcionar. As redes de aprendizado de máquina são chamadas de redes neurais porque são construídas para tentar replicar a maneira como os neurônios funcionam no cérebro.
Rankbrain
– Relação com o Beija-flor e o contexto da palavra
Tanto o Rankbrain quanto o Hummingbird são abordagens de reescrita de consultas. O Hummingbird tentou entender melhor o contexto de uma consulta examinando todas as palavras em uma consulta. Anteriormente, o Google só olhava palavras próximas umas das outras para entender o contexto; Beija-flor olha além das palavras imediatamente próximas umas das outras. Pode até levar em consideração frases completas em consultas de conversação. O Hummingbird tentou usar todas as palavras da consulta juntas para entender o contexto.
– Reescrita de consultas no Rankbrain usando a abordagem de incorporação de palavras
Ao contrário do Hummingbird, o Rankbrain usa uma abordagem de incorporação de palavras. Ele examina uma pequena passagem textual e é capaz de determinar se há palavras que estão faltando. Ele faz isso treinando em grandes conjuntos de dados (200 bilhões de palavras).
– Encontrar palavras ausentes na consulta
Por exemplo, a consulta “Quebra-cabeça do New York Times” pode ser interpretada corretamente como faltando a palavra “palavras cruzadas”. O Rankbrain adiciona a palavra que falta à consulta e retorna os resultados das palavras cruzadas do New York Times para o pesquisador, já que provavelmente é isso que eles querem.
– Você pode otimizar para Rankbrain?
É importante notar que você não pode otimizar páginas para Rankbrain. Alguns SEOs escreveram artigos dizendo que você pode. No entanto, de tudo que Bill viu sobre o algoritmo, sugere que este é um processo de reescrita de consulta, não algo que afeta a avaliação de uma página.
Algoritmos adicionais do Google usando aprendizado de máquina
O Google não possui um único “algoritmo” que conduza o mecanismo de busca. Tem muitos algoritmos diferentes que contribuem para o seu funcionamento. Rankbrain é um dos muitos.
– Usando índices de qualidade dentro das categorias
Isso pode significar, por exemplo, que quando o Google determina que há muitos resultados de tipo informativo para uma determinada consulta, em vez de classificar as páginas com base na pontuação de recuperação de informações ou classificações de autoridade como PageRank, eles podem considerar categorias. A partir daí, eles podem fornecer Índices de qualidade nas categorias do site. Isso fornecerá um conjunto mais diversificado de resultados e garantirá que resultados de maior qualidade possam passar mais rapidamente para o topo dos resultados.
– Popularidade da página para resultados de navegação
Esse tipo de algoritmo de classificação também favorece as páginas mais populares (páginas que as pessoas tendem a acessar), principalmente para resultados do tipo de navegação. Quando os pesquisadores já sabem que a página é algo que desejam ver, a página tenderá a ter uma classificação alta nos paradigmas do Índice de qualidade da categoria.
– Influência do SERP CTR
Os Índices de qualidade de categoria também sugerem que as páginas que são frequentemente selecionadas nos resultados de pesquisa também são páginas de alta qualidade e também teriam uma classificação alta nessa abordagem de qualidade de categoria.
No entanto, embora uma abordagem de pontuação de qualidade de categoria seja definitivamente o aprendizado de máquina, não é o Rankbrain.
Rankbrain para atender às necessidades situacionais dos pesquisadores
Rankbrain está tentando entender o que pode estar faltando em uma consulta. O aspecto mais importante do Rankbrain é que ele tenta atender às necessidades da situação dos pesquisadores: o que essa pessoa realmente quis dizer quando digitou a consulta na caixa?
Consultas de palavras-chave anteriores versus consultas faladas e de conversação atuais
Se estivermos avançando para consultas faladas e do tipo conversação, haverá mais palavras envolvidas do que a abordagem de palavra-chave usada no passado.
Como pesquisador, você está tentando adivinhar quais palavras precisa usar para encontrar as informações de que precisa. E você não deveria precisar fazer esse tipo de suposição. Se você pedir o que deseja, o Google poderá analisá-lo e determinar o que você provavelmente quis dizer. Este é o papel do Rankbrain.
Abordagens de processamento de linguagem natural
Uma das coisas que estamos vendo é o Google prestando muito mais atenção ao processamento de linguagem natural. Estamos vendo as abordagens de processamento de linguagem natural aparecerem.
- Correspondência Neural
Danny Sullivan twittou um pouco sobre algo que chamou de correspondência neural.
Nos últimos meses, o Google vem usando a correspondência neural, método –AI para conectar melhor as palavras aos conceitos. Super sinônimos, de certa forma, e impactando 30% das consultas. Não sabe o que é “efeito novela” para procurá-lo? Podemos entender melhor. pic.twitter.com/Qrwp5hKFNz
— Danny Sullivan (@dannysullivan) 24 de setembro de 2018
Ele disse que este é um meio de entender melhor as palavras nas páginas e o significado dessas palavras no contexto. Ele forneceu alguns exemplos de como uma palavra pode significar três ou quatro coisas diferentes, dependendo de como está posicionada dentro de uma frase.
– Incorporação de palavras
O Google vem liberando patentes sobre o uso de uma abordagem de tipo de incorporação de palavras (como eles usaram no Rankbrain para entender essas consultas textuais curtas) para grandes quantidades de texto, como páginas da web.
– Quadros Semânticos
Um quadro semântico é quando você usa a linguagem ideal para uma determinada situação. Em cada situação, há uma certa linguagem que é usada. Por exemplo, pontos no contexto de hipoteca ou compra de imóveis não têm o mesmo significado que pontos em jogos de dados ou de tabuleiro.
Se você entender a estrutura, poderá entender melhor o contexto das palavras em uma página.
Isso também pode ajudar a diferenciar as palavras em que o significado em si difere de situação para situação. “Cavalo”, por exemplo, não significa a mesma coisa para um equestre e para um carpinteiro. Outras patentes também exploraram métodos adicionais de compreensão de diferenças contextuais de significado.
Usando aprendizado de máquina para identificar autores com base em estilos de escrita
É muito fácil para uma máquina identificar o estilo de escrita de um indivíduo. Há um paralelo entre isso e classificações temáticas de conteúdo devido a estilos padronizados em setores como imobiliário, esportivo etc.
Como estudante de inglês, Bill analisou a literatura e observou as diferentes maneiras pelas quais os autores se expressavam e por quê.
– Autor pontua patente usando frequência de citação
O Google tem uma patente sobre as pontuações do autor. Para pontuar os autores, um dos fatores levados em consideração é a frequência com que são citados por outros autores.
– Visualizador N-Gram do Google Livros
O Google trabalha muito com modelos de linguagem. Eles digitalizaram um grande número de livros. O visualizador N-Gram permite que você veja como a popularidade de uma frase evolui ao longo dos anos.
– Patente do Índice de qualidade por N. Panda usando modelos de linguagem
A patente do Índice de qualidade da N. Panda fala sobre o uso de N-grams e a construção de modelos de linguagem para entender a qualidade das páginas da web com base em como elas se comparam a outros modelos de linguagem.
Este é um ótimo exemplo de aprendizado de máquina na tecnologia de mecanismos de pesquisa. Temos um conjunto de dados de páginas pontuadas anteriormente e estamos comparando novas páginas com aquelas baseadas nos dados do conjunto de amostra original. Como isso é usado para determinar a qualidade, as páginas que contêm características de páginas bem escritas do conjunto original receberão uma pontuação mais alta.
Esse tipo de modelo de linguagem também pode ser usado para entender o estilo de escrita de diferentes autores.
Aprendizado de máquina do futuro com dados estruturados
O aprendizado de máquina também é evidente na forma como o Google gerencia entidades, na tradução e na aparência do que Cindy Krum chamou de Fraggles.
– Responder passagens e reforçar o conteúdo textual
Há outra patente que fala sobre passagens de resposta, na qual o Google propõe um mecanismo para usar passagens textuais encontradas em páginas da web para fornecer respostas a perguntas. Isso foi atualizado recentemente para examinar não apenas passagens textuais, mas também dados estruturados que reforçam o texto.
– Verificação de fatos e consistência
O uso do Schema fornece redundância nas informações. Isso dá ao Google um meio de verificar a consistência dos fatos informativos em uma página da Web, comparando as informações textuais com as informações fornecidas na marcação estruturada.
Esta é a mesma coisa que acontece nos mapas do Google, onde o Google olha para o nome, endereço e número de telefone.
A consistência fornece um nível de confiança de que a resposta pode ter maior probabilidade de estar correta.
– Páginas de perguntas frequentes e páginas de instruções
À medida que o Google apresenta a página de perguntas frequentes e o suporte ao esquema de instruções, vemos que eles estão se movendo em direção a meios de fazer com que os proprietários de sites construam no esquema que reflita o que eles podem colocar no texto em uma página da web.
Estratégias para entender o contexto na página da web
O Google tomou outras medidas para tentar entender melhor o conteúdo das páginas da web. Aqui estão alguns:
– Uso de bases de conhecimento e termos de contexto
As patentes do Google indicaram que podem examinar as bases de conhecimento e coletar definições de termos de contexto dessas bases de conhecimento. Eles podem então procurar a presença desses termos de contexto em uma página da Web para ajudar a determinar qual significado dependente do contexto de uma palavra é mais provável.
Assim, uma página sobre um cavalo (um animal) pode conter palavras como “sela”, enquanto páginas sobre outros tipos de cavalos podem conter palavras como “carpintaria”.
– Indexação baseada em frases
Outra abordagem à aprendizagem semântica para a compreensão de tópicos em páginas data de 2004 ou mais. A indexação baseada em frases não é apenas antiga, mas também objeto de pelo menos 20 patentes e foi atualizada e alterada várias vezes. Tudo isso indica a Bill que a indexação baseada em frases é algo que tem muita importância nos algoritmos do Google.
– Construindo índice invertido de frases preditivas de tópicos
Uma das patentes associadas à indexação baseada em frases descreve a construção de um índice invertido de frases que aparecem nas páginas e que são preditivas de tópicos. Um exemplo seriam frases como “Presidente dos Estados Unidos”, “Secretário de Estado” ou “entrevista no Jardim de Rosas” que são preditivas de um tópico semântico da “Casa Branca”.
Conhecimento do assunto do webmaster no Schema
O Google está desenvolvendo o uso de coisas como o Schema, mas a definição do tipo de coisas que são descritas pelo Schema é fornecida pelos webmasters. Desta forma, os webmasters podem contribuir para a construção dos gráficos de conhecimento junto com os motores de busca.
Por exemplo, o Google adicionou “saber sobre” como um aspecto do Schema. No entanto, os webmasters são os que indicam que os advogados podem saber sobre o direito do almirantado ou direito de patentes, que por sua vez ajudam a preencher o gráfico de conhecimento.
A representação do conhecimento baseada em máquina é um esforço colaborativo.
[Estudo de caso] Gerenciando o rastreamento de bot do Google
Pesquisa em evolução e práticas de SEO desatualizadas
- Palavras repetidas em texto alternativo
Dizer ao Google que uma fotografia de uma pessoa precisa ser nomeada duas vezes não ajuda o Google a entendê-la duas vezes. É até possível que isso diminua a estimativa do valor da página pelo mecanismo de pesquisa.
– LSI destinado a pequenos bancos de dados estáticos
Os fabricantes de ferramentas continuam sugerindo que os SEOs usem técnicas antigas. Um exemplo é a indexação semântica latente (LSI), que foi desenvolvida em 1989. Ela foi projetada para bancos de dados estáticos pequenos que não são do tamanho da web e não crescem na mesma velocidade que a web.
Toda vez que você quiser usar o LSI, precisará ter a versão mais recente do banco de dados. Se você continuar adicionando informações ao corpus, ele precisa ser executado novamente. Isso significa que não é muito útil para a web.
– TF-IDF funciona apenas com acesso ao corpus completo
TF-IDF (frequência de documento de índice de frequência de termo) é outro exemplo. Isso funciona melhor se você tiver acesso ao corpus completo das informações que estão sendo indexadas, neste caso, a rede mundial de computadores. Você usa o TF-IDF quando deseja saber quais são as palavras mais comuns e quais são as palavras raras em todo o corpus. Mas se você usar apenas o corpus das dez principais páginas de classificação para determinados termos, em vez de toda a web, não poderá estabelecer a frequência real dos termos.
Isso pode afetar seriamente a precisão de sua análise.
Expectativa do webmaster e recursos do Google: necessidade de comunicação do Google
Apesar dos anúncios recentes, na verdade não sabemos se a marcação de paginação não é útil para os mecanismos de pesquisa.
Embora a marcação de paginação não seja mais usada para gerenciar conteúdo duplicado em páginas paginadas, temos certas expectativas em relação ao Google. Eles devem ser capazes de entender quando as páginas estão em uma série. Anúncios como esse revelam a dificuldade de saber se o Google é bom ou ruim no que faz.
Usando palavras que ocorrem frequentemente
O truque técnico favorito de Bill é olhar para palavras coocorrentes com frequência que têm uma classificação alta para determinados termos e garantir que ele as use no conteúdo, tanto no corpo quanto no texto âncora apontando de sua página para páginas relacionadas. Isso tira proveito dos “hits de âncora”, que são supostamente tratados pelos mecanismos de busca como “links de especialistas”.
Essa estratégia é extraída da indexação baseada em frases.
– Probabilidade estatística de coocorrência de frase
A patente de indexação baseada em frases foi atualizada há cerca de dois anos. Essa abordagem agora usa quantos termos relacionados aparecem nas páginas para classificar as páginas.
No entanto, se mais do que um número estatisticamente provável de termos relacionados aparecerem em uma página, ela poderá ser marcada como spam. Por exemplo, se você raspou muitas páginas de um tópico e as colocou todas em uma página, você teria muitos termos relacionados para que isso acontecesse naturalmente.
Isso se encaixa bem com a maneira como Bill faz a pesquisa de palavras-chave. Ele examina páginas semelhantes e cria uma lista de frases ou palavras semelhantes que ocorrem com frequência. Ele pode tentar usar alguns deles em sua própria página, mesmo que não esteja tentando classificar para eles. Isso cria conteúdo relevante para as palavras-chave para as quais ele deseja classificar.
LSI versus uso de sinônimos ou conteúdo semanticamente relacionado
O hype em torno do LSI é um dos tópicos menos favoritos de Bill, em parte porque o termo é enganoso. O que muitas pessoas estão sugerindo quando a conversa sobre LSI não tem nada a ver com indexação semântica latente. Em vez disso, eles estão apenas sugerindo adicionar sinônimos ou conteúdo semanticamente relacionado às páginas.
O índice invertido da indexação baseada em frases e as bases de conhecimento que podem fornecer termos de contexto indicam que há termos e fontes que você pode acessar para encontrar palavras que possam ser úteis se você estiver procurando estritamente por termos co-ocorrentes em alto escalão páginas para sua palavra-chave.
Palavras que parecem sinônimos às vezes não são, na estimativa do Google.
Indexação rápida com a ferramenta de envio de URL
A Ferramenta de envio de URL na nova versão do Google Search Console é uma maneira muito rápida de indexar as páginas. Bill viu atualizações propagadas para os SERPs em um minuto ou dois.
A esperança de Bill para marcação futura: mais informações para patentes
Pergunta do público-alvo: Qual marcação de esquema você gostaria de ver adicionada no futuro?
Como ele escreve muito sobre patentes, Bill gostaria de ver uma maneira melhor de capturar os recursos exclusivos das patentes. Alguns desses recursos incluem:
- Classes (o que a patente pretende abordar)
- Nome da patente, embora "entidade principal da página" possa abranger esse recurso
Como o Google já permite pesquisar com base nos recursos do Schema, a finalidade seria melhorar a pesquisa de patentes, para que as pessoas pudessem pedir para ver patentes que abrangem determinadas categorias.
O Answer Engine Optimization é o futuro da pesquisa?
Pergunta do público: você acha que o SEO se tornará AEO no futuro?
Bill acredita que, de certa forma, SEO sempre foi AEO.
– Indicações mais antigas do Google como mecanismo de resposta
Não estamos necessariamente passando por uma evolução. Há indícios de 15 anos de que o Google estava indo nessa direção, por exemplo:
- 2004: Recurso de dicionário que permite aos usuários pesquisar o significado das palavras
- 2005: postagem no blog “Apenas os fatos” mostrando o primeiro snippet em destaque ou resposta direta que não ficou satisfeito ao fornecer dez links azuis, mas preferiu fornecer uma resposta textual.
– Sergey Brin: patente para algoritmo para entender fatos e relações entre fatos
Outra indicação de que o Google como mecanismo de resposta não é novidade é uma patente de Sergey Brin em um algoritmo para entender fatos e relações entre fatos. Essa patente incluía cinco livros, seus títulos, seus editores, seus autores e assim por diante.
A teoria é que um bot rastrearia a web procurando por esses livros e…
[Interrupção por OK Google]
- Marcas d'água de áudio
Há também o conceito de marcas d'água de áudio que aproveitam a frequência ultra-alta. Eles estariam fora do alcance da audição humana, mas cães e computadores seriam capazes de identificá-los. Isso pode permitir que diferentes fornecedores rastreiem o fato de que você ouviu um comercial com marca d'água e pode estar interessado no produto.
Isso existe há pelo menos cinco anos e não é algo que tenha sido discutido em SEO.
Melhor dica
“Há muita desinformação sobre tópicos como RankBrain, Correspondência Neural e Aprendizado de Máquina na Web. Alguns deles incluem fatos cuidadosamente pesquisados misturados com desinformação, então tenha cuidado com o que você confia.”
SEO em órbita foi para o espaço
Se você perdeu nossa viagem ao espaço no dia 27 de junho, assista aqui e descubra todas as dicas que enviamos ao espaço.