O que é indexação semântica latente e como funciona?
Publicados: 2020-04-02A indexação semântica latente (LSI) tem sido motivo de debate entre os profissionais de marketing de busca. Pesquise no Google o termo 'indexação semântica latente' e você encontrará defensores e céticos em igual medida. Não há um consenso claro sobre os benefícios de considerar o LSI no contexto do marketing de mecanismos de busca. Se você não estiver familiarizado com o conceito, este artigo resumirá o debate sobre LSI, para que você possa entender o que isso significa para sua estratégia de SEO.
O que é Indexação Semântica Latente?
LSI é um processo encontrado no Processamento de Linguagem Natural (NLP). A PNL é um subconjunto da linguística e da engenharia da informação, com foco em como as máquinas interpretam a linguagem humana. Uma parte fundamental deste estudo é a semântica distributiva. Esse modelo nos ajuda a entender e classificar palavras com significados contextuais semelhantes em grandes conjuntos de dados.
Desenvolvido na década de 1980, o LSI utiliza um método matemático que torna a recuperação de informações mais precisa. Esse método funciona identificando as relações contextuais ocultas entre as palavras. Isso pode ajudá-lo a decompô-lo assim:
- Latente → Oculto
- Semântica → Relações entre palavras
- Indexação → Recuperação de Informações
Como funciona a indexação semântica latente?
O LSI funciona usando a aplicação parcial da Decomposição de Valor Singular (SVD). SVD é uma operação matemática que reduz uma matriz às suas partes constituintes para cálculos simples e eficientes.
Ao analisar uma sequência de palavras, o LSI remove conjunções, pronomes e verbos comuns, também conhecidos como palavras de parada. Isso isola as palavras que compõem o 'conteúdo' principal de uma frase. Aqui está um exemplo rápido de como isso pode parecer:
Essas palavras são então colocadas em uma Matriz de Documentos de Termo (TDM). Um TDM é uma grade 2D que lista a frequência com que cada palavra (ou termo) específica ocorre nos documentos dentro de um conjunto de dados.
As funções de pesagem são então aplicadas ao TDM. Um exemplo simples é classificar todos os documentos que contêm a palavra com valor 1 e todos os que não contêm com valor 0. Quando as palavras ocorrem com a mesma frequência geral nesses documentos, é chamado de co-ocorrência . Abaixo, você encontrará um exemplo básico de um TDM e como ele avalia a co-ocorrência em várias frases:
O uso do SVD nos permite aproximar os padrões de uso de palavras em todos os documentos. Os vetores SVD produzidos pelo LSI preveem o significado com mais precisão do que analisando termos individuais. Em última análise, o LSI pode usar as relações entre as palavras para entender melhor seu sentido, ou significado, em um contexto específico.
[Estudo de caso] Impulsionando o crescimento em novos mercados com SEO na página
Como a indexação semântica latente se envolveu com SEO?
Em seus anos de formação, o Google descobriu que os mecanismos de busca classificavam os sites com base na frequência de uma determinada palavra-chave. Isso, no entanto, não garante o resultado de pesquisa mais relevante. Em vez disso, o Google começou a classificar sites que eles consideravam árbitros confiáveis de informações.
Com o tempo, os algoritmos do Google filtrariam sites irrelevantes e de baixa qualidade com maior precisão. Portanto, os profissionais de marketing devem entender o significado por trás de uma pesquisa, em vez de confiar nas palavras exatas que estão sendo usadas. É por isso que Roger Montti descreveu o LSI como “rodas de treinamento para mecanismos de pesquisa” em um artigo sobre crenças desatualizadas de SEO, acrescentando que o LSI tem “pouca a zero relevância para como os mecanismos de pesquisa classificam os sites hoje”.
O significado de uma consulta de pesquisa está intimamente ligado à intenção por trás dela. O Google mantém um documento chamado Diretrizes do avaliador de qualidade de pesquisa. Nestas diretrizes, eles apresentam quatro categorias úteis para a intenção do usuário:
- Know Query – Isso representa a busca de informações sobre um tópico. Uma variante disso é a consulta 'Know Simple', que é quando os usuários estão pesquisando com uma resposta específica em mente.
- Do Query – Isso reflete o desejo de se envolver em uma atividade específica, como uma compra ou download online. Todas essas consultas podem ser definidas por uma sensação de 'interação'.
- Consulta ao site – é quando os usuários estão procurando por um site ou página específica. Essas pesquisas indicam um conhecimento prévio de um determinado site ou marca.
- Consulta de visita presencial – O usuário está procurando um local físico, como uma loja física ou um restaurante.
A teoria por trás do LSI – definir o significado contextual de uma palavra em uma frase – deu ao Google uma vantagem competitiva. No entanto, começou a se espalhar a ideia de que 'palavras-chave LSI' eram de repente um bilhete de ouro para o sucesso do SEO.
As 'Palavras-chave LSI' realmente existem?
Muitas publicações notáveis permanecem defensoras firmes das palavras-chave LSI. No entanto, várias fontes, como o analista de tendências para webmasters do Google, John Mueller, afirmam que são um mito. Essas fontes começaram a levantar os seguintes pontos:
- O LSI foi desenvolvido antes da World Wide Web e não se destinava a ser aplicado a um conjunto de dados tão grande e dinâmico.
- A patente americana de indexação semântica latente, concedida a uma organização chamada Bell Communications Research Inc. em 1989, teria expirado em 2008. Portanto, de acordo com Bill Slawski, o uso de LSI pelo Google seria semelhante a 'usar um dispositivo de telégrafo inteligente para conectar-se a a web móvel.'
- O Google usa o RankBrain, um método de aprendizado de máquina que transforma volumes de texto em 'vetores' – entidades matemáticas que ajudam os computadores a entender a linguagem escrita. O RankBrain acomoda a web como um conjunto de dados em constante expansão, tornando-o utilizável pelo Google, ao contrário do LSI.
Em última análise, a LSI revela uma verdade a que os profissionais de marketing devem aderir: explorar o contexto único de uma palavra nos ajuda a entender melhor a intenção do usuário do que palavras-chave inseridas no conteúdo. No entanto, isso não confirma necessariamente que o Google classifica com base no LSI. Portanto, seria seguro dizer que o LSI funciona em SEO como uma filosofia, e não como uma ciência exata?
Vamos voltar à citação de Roger Montti sobre o LSI como “rodas de treinamento para mecanismos de busca”. Depois de aprender a andar de bicicleta, você tende a tirar as rodinhas. Podemos assumir que em 2020, o Google não usa mais rodinhas?
Podemos considerar a recente atualização do algoritmo do Google. Em outubro de 2019, Pandu Nayak, vice-presidente de pesquisa, anunciou que o Google havia começado a usar um sistema de IA chamado BERT (Bidirectional Encoder Representations from Transformers). Afetando mais de 10% de todas as consultas de pesquisa, esta é uma das maiores atualizações do Google nos últimos anos.
Ao analisar uma consulta de pesquisa, o BERT considera uma única palavra em relação a todas as palavras dessa frase específica. Essa análise é bidirecional, pois considera todas as palavras antes ou depois de uma palavra específica. A remoção de uma única palavra pode impactar drasticamente como o BERT entende o contexto único de uma frase.
Isso marca um contraste do LSI, que omite quaisquer palavras de parada de sua análise. O exemplo abaixo mostra como a remoção de palavras de parada pode alterar a forma como entendemos uma frase:
Apesar de ser uma palavra de parada, 'encontrar' é o cerne da pesquisa, que definiríamos como uma consulta de 'visita presencial'.
Então, o que os profissionais de marketing devem fazer?
Inicialmente, o LSI foi pensado para ajudar o Google a combinar o conteúdo com as consultas relevantes. No entanto, parece que o debate em marketing em torno do uso de LSI ainda não chegou a uma única conclusão. Apesar disso, os profissionais de marketing ainda podem tomar muitas medidas para garantir que seu trabalho permaneça estrategicamente relevante.
Em primeiro lugar, os artigos, a cópia da web e as campanhas pagas devem ser otimizados para incluir sinônimos e variantes. Isso explica as maneiras pelas quais as pessoas com intenções semelhantes usam a linguagem de maneira diferente.
Os profissionais de marketing devem continuar a escrever com autoridade e clareza. Isso é uma necessidade absoluta se eles quiserem que seu conteúdo resolva um problema específico. Esse problema pode ser a falta de informação ou a necessidade de um determinado produto ou serviço. Uma vez que os profissionais de marketing fazem isso, isso mostra que eles realmente entendem a intenção do usuário.
Finalmente, eles também devem fazer uso frequente de dados estruturados. Seja um site, uma receita ou um FAQ, os dados estruturados fornecem o contexto para o Google entender o que está rastreando.