O que é indexação semântica latente e como funciona?

Publicados: 2020-04-02

A indexação semântica latente (LSI) tem sido motivo de debate entre os profissionais de marketing de busca. Pesquise no Google o termo 'indexação semântica latente' e você encontrará defensores e céticos em igual medida. Não há um consenso claro sobre os benefícios de considerar o LSI no contexto do marketing de mecanismos de busca. Se você não estiver familiarizado com o conceito, este artigo resumirá o debate sobre LSI, para que você possa entender o que isso significa para sua estratégia de SEO.

O que é Indexação Semântica Latente?

LSI é um processo encontrado no Processamento de Linguagem Natural (NLP). A PNL é um subconjunto da linguística e da engenharia da informação, com foco em como as máquinas interpretam a linguagem humana. Uma parte fundamental deste estudo é a semântica distributiva. Esse modelo nos ajuda a entender e classificar palavras com significados contextuais semelhantes em grandes conjuntos de dados.

Desenvolvido na década de 1980, o LSI utiliza um método matemático que torna a recuperação de informações mais precisa. Esse método funciona identificando as relações contextuais ocultas entre as palavras. Isso pode ajudá-lo a decompô-lo assim:

Latente → Oculto
Semântica → Relações entre palavras
Indexação → Recuperação de Informações

Como funciona a indexação semântica latente?

O LSI funciona usando a aplicação parcial da Decomposição de Valor Singular (SVD). SVD é uma operação matemática que reduz uma matriz às suas partes constituintes para cálculos simples e eficientes.

Ao analisar uma sequência de palavras, o LSI remove conjunções, pronomes e verbos comuns, também conhecidos como palavras de parada. Isso isola as palavras que compõem o 'conteúdo' principal de uma frase. Aqui está um exemplo rápido de como isso pode parecer:

Essas palavras são então colocadas em uma Matriz de Documentos de Termo (TDM). Um TDM é uma grade 2D que lista a frequência com que cada palavra (ou termo) específica ocorre nos documentos dentro de um conjunto de dados.

As funções de pesagem são então aplicadas ao TDM. Um exemplo simples é classificar todos os documentos que contêm a palavra com valor 1 e todos os que não contêm com valor 0. Quando as palavras ocorrem com a mesma frequência geral nesses documentos, é chamado de co-ocorrência . Abaixo, você encontrará um exemplo básico de um TDM e como ele avalia a co-ocorrência em várias frases:

O uso do SVD nos permite aproximar os padrões de uso de palavras em todos os documentos. Os vetores SVD produzidos pelo LSI preveem o significado com mais precisão do que analisando termos individuais. Em última análise, o LSI pode usar as relações entre as palavras para entender melhor seu sentido, ou significado, em um contexto específico.

[Estudo de caso] Impulsionando o crescimento em novos mercados com SEO na página

Quando a Springly começou a se expandir para o mercado norte-americano, o SEO on-page foi identificado como uma das chaves para um início bem-sucedido em um novo mercado. Descubra como ir de 0 ao sucesso com SEO técnico para sua estratégia de conteúdo.

Leia o estudo de caso

Como a indexação semântica latente se envolveu com SEO?

Em seus anos de formação, o Google descobriu que os mecanismos de busca classificavam os sites com base na frequência de uma determinada palavra-chave. Isso, no entanto, não garante o resultado de pesquisa mais relevante. Em vez disso, o Google começou a classificar sites que eles consideravam árbitros confiáveis de informações.

Com o tempo, os algoritmos do Google filtrariam sites irrelevantes e de baixa qualidade com maior precisão. Portanto, os profissionais de marketing devem entender o significado por trás de uma pesquisa, em vez de confiar nas palavras exatas que estão sendo usadas. É por isso que Roger Montti descreveu o LSI como “rodas de treinamento para mecanismos de pesquisa” em um artigo sobre crenças desatualizadas de SEO, acrescentando que o LSI tem “pouca a zero relevância para como os mecanismos de pesquisa classificam os sites hoje”.

O significado de uma consulta de pesquisa está intimamente ligado à intenção por trás dela. O Google mantém um documento chamado Diretrizes do avaliador de qualidade de pesquisa. Nestas diretrizes, eles apresentam quatro categorias úteis para a intenção do usuário:

Know Query – Isso representa a busca de informações sobre um tópico. Uma variante disso é a consulta 'Know Simple', que é quando os usuários estão pesquisando com uma resposta específica em mente.
Do Query – Isso reflete o desejo de se envolver em uma atividade específica, como uma compra ou download online. Todas essas consultas podem ser definidas por uma sensação de 'interação'.
Consulta ao site – é quando os usuários estão procurando por um site ou página específica. Essas pesquisas indicam um conhecimento prévio de um determinado site ou marca.
Consulta de visita presencial – O usuário está procurando um local físico, como uma loja física ou um restaurante.

A teoria por trás do LSI – definir o significado contextual de uma palavra em uma frase – deu ao Google uma vantagem competitiva. No entanto, começou a se espalhar a ideia de que 'palavras-chave LSI' eram de repente um bilhete de ouro para o sucesso do SEO.

As 'Palavras-chave LSI' realmente existem?

Muitas publicações notáveis permanecem defensoras firmes das palavras-chave LSI. No entanto, várias fontes, como o analista de tendências para webmasters do Google, John Mueller, afirmam que são um mito. Essas fontes começaram a levantar os seguintes pontos:

O LSI foi desenvolvido antes da World Wide Web e não se destinava a ser aplicado a um conjunto de dados tão grande e dinâmico.
A patente americana de indexação semântica latente, concedida a uma organização chamada Bell Communications Research Inc. em 1989, teria expirado em 2008. Portanto, de acordo com Bill Slawski, o uso de LSI pelo Google seria semelhante a 'usar um dispositivo de telégrafo inteligente para conectar-se a a web móvel.'
O Google usa o RankBrain, um método de aprendizado de máquina que transforma volumes de texto em 'vetores' – entidades matemáticas que ajudam os computadores a entender a linguagem escrita. O RankBrain acomoda a web como um conjunto de dados em constante expansão, tornando-o utilizável pelo Google, ao contrário do LSI.

Em última análise, a LSI revela uma verdade a que os profissionais de marketing devem aderir: explorar o contexto único de uma palavra nos ajuda a entender melhor a intenção do usuário do que palavras-chave inseridas no conteúdo. No entanto, isso não confirma necessariamente que o Google classifica com base no LSI. Portanto, seria seguro dizer que o LSI funciona em SEO como uma filosofia, e não como uma ciência exata?

Vamos voltar à citação de Roger Montti sobre o LSI como “rodas de treinamento para mecanismos de busca”. Depois de aprender a andar de bicicleta, você tende a tirar as rodinhas. Podemos assumir que em 2020, o Google não usa mais rodinhas?

Podemos considerar a recente atualização do algoritmo do Google. Em outubro de 2019, Pandu Nayak, vice-presidente de pesquisa, anunciou que o Google havia começado a usar um sistema de IA chamado BERT (Bidirectional Encoder Representations from Transformers). Afetando mais de 10% de todas as consultas de pesquisa, esta é uma das maiores atualizações do Google nos últimos anos.

Ao analisar uma consulta de pesquisa, o BERT considera uma única palavra em relação a todas as palavras dessa frase específica. Essa análise é bidirecional, pois considera todas as palavras antes ou depois de uma palavra específica. A remoção de uma única palavra pode impactar drasticamente como o BERT entende o contexto único de uma frase.

Isso marca um contraste do LSI, que omite quaisquer palavras de parada de sua análise. O exemplo abaixo mostra como a remoção de palavras de parada pode alterar a forma como entendemos uma frase:

Apesar de ser uma palavra de parada, 'encontrar' é o cerne da pesquisa, que definiríamos como uma consulta de 'visita presencial'.

Então, o que os profissionais de marketing devem fazer?

Inicialmente, o LSI foi pensado para ajudar o Google a combinar o conteúdo com as consultas relevantes. No entanto, parece que o debate em marketing em torno do uso de LSI ainda não chegou a uma única conclusão. Apesar disso, os profissionais de marketing ainda podem tomar muitas medidas para garantir que seu trabalho permaneça estrategicamente relevante.

Em primeiro lugar, os artigos, a cópia da web e as campanhas pagas devem ser otimizados para incluir sinônimos e variantes. Isso explica as maneiras pelas quais as pessoas com intenções semelhantes usam a linguagem de maneira diferente.

Os profissionais de marketing devem continuar a escrever com autoridade e clareza. Isso é uma necessidade absoluta se eles quiserem que seu conteúdo resolva um problema específico. Esse problema pode ser a falta de informação ou a necessidade de um determinado produto ou serviço. Uma vez que os profissionais de marketing fazem isso, isso mostra que eles realmente entendem a intenção do usuário.

Finalmente, eles também devem fazer uso frequente de dados estruturados. Seja um site, uma receita ou um FAQ, os dados estruturados fornecem o contexto para o Google entender o que está rastreando.