Breadcrumb SEO, Python 3 e Oncrawl: a caminho da automação!

Publicados: 2021-04-14

Vamos aprender como criar automaticamente uma segmentação baseada em breadcrumb com OnCrawl e Python 3.

O que é segmentação no Oncrawl?

O Oncrawl usa segmentações para dividir um conjunto de páginas em grupos. Isso facilita muito a análise de dados de relatórios de rastreamento, análise de log e outros relatórios de análise cruzada que combinam dados de rastreamento com Google Analytics, Google Search Console, AT Internet, Adobe Analytics ou Majestic para backlinks.

Por que é importante criar segmentações?

Quando o rastreamento estiver concluído, a criação de uma segmentação personalizada é a coisa mais importante a fazer. Isso permite que você leia as análises da perspectiva que melhor se adapta ao seu site e sua estrutura.

Existem muitas maneiras de segmentar as páginas do seu site, e não existe uma maneira certa ou errada de fazer isso. Por exemplo, é possível acompanhar a estrutura do seu site com base na estrutura de URL.

Por exemplo, este tipo de URL “ https://www.mydomain.com/news/canada/politics “, poderia facilmente ser segmentado assim:

  • Um grupo para isolar a página inicial
  • Um grupo para todas as novidades
  • Um subgrupo para o diretório do Canadá
  • Um sub-subgrupo para o diretório Política

Como você pode ver, é possível criar até 3 níveis de profundidade para suas segmentações. Isso permite que você se concentre em determinados grupos ou subgrupos em sua análise de SEO, sem precisar alternar as segmentações.

Como crio uma segmentação básica?

Você deve saber que o Oncrawl se encarrega de criar a primeira segmentação, sozinho. Isso se baseia no “Primeiro caminho” ou no primeiro diretório encontrado nas URLs.
Isso permite que você tenha uma análise disponível assim que o rastreamento for concluído.
Pode ser que essa segmentação não reflita a estrutura do seu site ou que você queira analisar as coisas de um ângulo diferente.
Então você vai criar uma nova segmentação usando o que chamamos de OQL, que significa Oncrawl Query Language. É como o SQL, só que muito mais simples e intuitivo:

Também é possível usar operadores de condição AND/OR para ser o mais preciso possível:

Segmentar minhas páginas usando métodos diferentes

Usando outros KPIs

As segmentações baseadas em URLs são boas, mas seria perfeito se também pudéssemos combinar outros KPIs, como agrupar URLs começando com /car-rental/ e cujo H1 tenha a expressão “ Agências de aluguel de carros ” e outro grupo onde o H1 seria “ Agências de aluguel de utilitários ”, isso é possível?

Sim é possivel! Durante a criação de suas segmentações, você tem à sua disposição todos os KPIs que utilizamos, e não apenas os do crawler, mas também os dos conectores. Isso torna a criação de segmentações muito poderosa e permite que você tenha ângulos de análise totalmente diferentes!

Por exemplo, adoro criar uma segmentação usando a posição média dos URLs graças ao conector do Google Search Console.

Dessa forma, posso identificar facilmente URLs profundos em minha estrutura que ainda estão funcionando ou URLs próximos à minha página inicial que estão na página 2 do Google.

Posso ver se essas páginas têm conteúdo duplicado, uma title tag vazia, se recebem links suficientes… Também posso ver como o Googlebot se comporta nessas páginas. A frequência de rastreamento é boa ou ruim? Resumindo, isso me ajuda a priorizar e tomar decisões que terão um impacto real no meu SEO e no meu ROI.

Dados de rastreamento³

Expanda sua análise com conexões perfeitas para conjuntos de dados adicionais. Analise sua estratégia de SEO com base em dados de backlinks, tráfego de SEO, classificações e conjuntos de dados personalizados de seu CRM, solução de monitoramento ou qualquer outra fonte.
Saber mais

Como usar a ingestão de dados

Se você não conhece nosso recurso Data Ingest, convido você a ler primeiro este artigo sobre o assunto. Esta é outra ferramenta muito poderosa que permite adicionar fontes de dados externas ao Oncrawl.
Por exemplo, você pode adicionar dados da SEMrush, Ahrefs, Babbar.tech… A vantagem é que você pode agrupar suas páginas de acordo com as métricas tiradas dessas ferramentas e realizar sua análise com base nos dados que lhe interessam, mesmo que não sejam nativamente no Oncrawl.

Recentemente, trabalhei com um grupo hoteleiro global. Eles usam um método de pontuação interna para saber se os registros do hotel estão preenchidos corretamente, se têm imagens, vídeos, conteúdo, etc.

O resultado nos permite saber se o Googlebot gasta mais tempo em páginas que são preenchidas corretamente, saber se algumas páginas com pontuação superior a 90% são muito profundas, não recebem links suficientes… pontuação, quanto mais visitas as páginas recebem, mais elas são exploradas pelo Google e melhor sua posição na SERP do Google. Um argumento imparável para incentivar os hoteleiros a preencherem a sua lista de hotéis!

Crie uma segmentação com base na trilha de navegação de SEO

Este é o assunto deste artigo, então vamos ao cerne da questão. Às vezes é difícil segmentar as páginas do seu site, se a estrutura das URLs não anexar páginas a um determinado diretório. Este é frequentemente o caso de sites de comércio eletrônico, onde as páginas do produto estão todas na raiz. Portanto, é impossível saber pela URL a qual grupo uma página pertence.
Para agrupar as páginas, temos que encontrar uma maneira de identificar o grupo ao qual elas pertencem. Assim, tivemos a ideia de recuperar a trilha de seo do breadcrumb de cada URL e categorizá-los com base nos valores do seo do breadcrumb, usando a função Scraper oferecida pelo Oncrawl.

Raspagem de migalhas de SEO com Oncrawl

Como vimos acima, vamos configurar uma regra de raspagem para recuperar a trilha do breadcrumb. Na maioria das vezes é bem simples porque podemos ir e recuperar as informações em um div , então os campos de cada nível estão em
listas ul e li :

Às vezes também podemos recuperar facilmente as informações graças ao tipo de dados estruturados Breadcrumb. Assim será fácil recuperar o valor do campo “nome” para cada posição.

Aqui está um exemplo de uma regra de raspagem que eu uso:

Ou esta regra: //li[contains(@class, "current-menu-ancestor") or contains(@class, "current-menu-parent") or contains(@class, "current-menu-item")]/a/text()

Então eu pego todo o span itemprop=”title” com o Xpath, então uso uma expressão regular para extrair tudo depois de “> that not a > character. Se você quiser saber mais sobre Regex, sugiro que leia este artigo sobre o assunto e nossa folha de dicas sobre Regex.

Eu recebo vários valores como este como saída:

Para a URL testada, terei um campo “Breadcrumb” com 3 valores:

  • Cara
  • camisa polo
  • Polo manga curta
 importar json
importar aleatório
solicitações de importação

# Autenticação
# Duas maneiras, com x-oncrawl-token do que você pode obter nos cabeçalhos de solicitação do navegador
# ou com api token aqui: https://app.oncrawl.com/account/tokens
API_ACCESS_TOKEN = ' '
# Defina o ID de rastreamento onde há um campo personalizado de trilha de navegação
ENGATINHAR_
# Atualize os itens de breadcrumb proibidos que você não deseja obter na segmentação
FORBIDDEN_BREADCRUMB_ITEMS = ('Acumulação',)
FORBIDDEN_BREADCRUMB_ITEMS_LIST = [
                                 v.strip() 
                                 para v em FORBIDDEN_BREADCRUMB_ITEMS.split(',')
                                 ]



def random_color():
    random_number = random.randint(0, 16777215)
    hex_number = str(hex(random_number))
    hex_number = hex_number[2:].ljust(6, '0')
    return f'#{hex_number}'


def valor_para_grupo(valor):
    Retorna {
        'cor': random_color(),
        'nome': valor,
        'oql': {'or': [{'field': ['custom_Breadcrumb', 'equals', value]}]}
    }


def walk_dict(dicionário, nível=0):
    ret = {
        "ícone": "painel",
        "transponível": Falso,
        "name": "Migalha de pão"
    }

Agora que a regra está definida, posso iniciar meu rastreamento e o Oncrawl recuperará automaticamente os valores do breadcrumb e os associará a cada URL rastreado.

Automatize a criação da segmentação multinível com Python

Agora que tenho todos os valores de breadcrumb de SEO para cada URL, usaremos um script python de automação de SEO em um Google Colab para criar automaticamente uma segmentação compatível com Oncrawl.

Para o script em si, usamos 3 bibliotecas que são:

  • json (Para gerar nossa segmentação escrita em Json)
  • csv
  • random (Para gerar códigos de cores hexadecimais para cada grupo)

Uma vez que o script é lançado, ele automaticamente se encarrega de criar a segmentação em seu projeto!

Visualização de dados nas análises

Agora que nossa segmentação está criada, é possível ter acesso às diferentes análises com uma visão segmentada com base na minha trilha de navegação.

Distribuição de páginas por grupo e por profundidade


Desempenho de classificação (GSC)


Frequência de rastreamento do Googlebot


Visitas de SEO e proporção de páginas ativas


Códigos de status encontrados por usuários x sessões de SEO


Monitoramento de códigos de status encontrados pelo Googlebot


Distribuição do Inrank

E aqui estamos, acabamos de criar uma segmentação automaticamente graças a um script usando Python e OnCrawl. Todas as páginas agora estão agrupadas de acordo com a trilha de navegação e isso em 3 níveis de profundidade:

A vantagem é que agora podemos monitorar os diferentes KPIs (Rastreamento, profundidade, links internos, orçamento de rastreamento, sessões de SEO, visitas de SEO, desempenho de classificação, tempo de carregamento) para cada grupo e subgrupo de páginas.

O futuro do SEO com Oncrawl

Você provavelmente está pensando que é ótimo ter esse recurso “fora da caixa”, mas você não tem necessariamente tempo para fazer tudo. A boa notícia é que estamos trabalhando para ter esse recurso integrado diretamente em um futuro próximo.

Isso significa que em breve você poderá criar automaticamente uma segmentação em qualquer campo sucateado ou campo do Data Ingest com um simples clique. E isso economizará muito tempo, permitindo que você realize uma incrível análise de SEO transversal.

Imagine ser capaz de extrair quaisquer dados do código-fonte de suas páginas ou integrar qualquer KPI para cada URL. O único limite é a sua imaginação!

Por exemplo, você pode recuperar o preço de venda dos produtos e ver a profundidade, o Inrank, os backlinks, o orçamento de rastreamento de acordo com o preço.

Mas também podemos recuperar os nomes dos autores de seus artigos de mídia e ver quem tem melhor desempenho e aplicar os métodos de redação que funcionam melhor.

Podemos recuperar as avaliações e avaliações de seus produtos e ver se os melhores produtos estão acessíveis em um mínimo de cliques, recebem links suficientes, têm backlinks, são bem rastreados pelo Googlebot, etc…

Podemos integrar os dados da sua empresa, como faturamento, margem, taxa de conversão, suas despesas do Google Ads.

Agora cabe a você imaginar como você pode cruzar os dados para expandir sua análise e tomar as decisões corretas de SEO.

Você quer testar a segmentação automática na trilha de navegação? Entre em contato conosco via chatbox diretamente do Oncrawl.

Aproveite o seu rastreamento!

Inicie o seu teste gratuito