Por que o OnCrawl é muito mais do que um rastreador de desktop: um mergulho profundo em nossa plataforma de SEO baseada em nuvem

Publicados: 2018-12-06

O OnCrawl foi construído em torno das necessidades de SEO do player de comércio eletrônico nº 1 francês em 2015. Isso significou que tivemos que dimensionar nossa análise e lidar com um site com mais de 50 milhões de URLs em um curto período de tempo. Difícil, você diria, para um novo jogador? Na verdade, a nossa infraestrutura, na qual despendemos 1,5M€ apenas em I&D e que anteriormente apoiava diferentes projetos de dados, facilitou. Como a distinção entre rastreadores de desktop e baseados em nuvem às vezes ainda não é clara, achamos que seria útil explicar por que o OnCrawl tem muito mais a oferecer do que um simples rastreador de desktop – de recursos de alta escala a integrações de terceiros e velocidade de análise.

Escalando para o infinito e além

Os rastreadores de área de trabalho são limitados na capacidade de rastreamento devido aos recursos e à memória do computador em que estão sendo executados. É mais provável que eles se limitem a rastrear apenas alguns milhares de URLs por rastreamento. Embora isso possa ser bom para sites pequenos, ainda pode levar mais tempo para rastrear esses URLs em comparação com um rastreador SaaS (Software as a Service). Os rastreadores baseados em nuvem são distribuídos em muitos servidores para que você não fique limitado pela velocidade e pelo tamanho de sua máquina.

Isso significa que não há rastreamento com o qual não possamos lidar. Temos trabalhado para sites pequenos, bem como para sites muito grandes, incluindo algumas das empresas da Fortune 500. Como dito na introdução, desenvolvemos nosso rastreador de SEO depois que o Cdiscount, o maior site de comércio eletrônico da França, nos pediu para criar uma solução personalizada para lidar com mais de 50 milhões de URLs e necessidades de SEO em um único rastreamento. Além disso, nossos recursos de dimensionamento nos tornaram por dois anos consecutivos a Melhor Ferramenta de SEO no European Search Awards, a cerimônia líder no setor de pesquisa. Atualmente, coletamos até 25 milhões de URLs por dia e por site, ou aproximadamente 1 bilhão de páginas da web e 150 bilhões de links por mês. Você pode saber mais sobre nossa tecnologia e como lidamos com as políticas de GDPR aqui.

Velocidade personalizada, recursos abrangentes

Como nosso aplicativo é baseado em nuvem, você não precisa pensar nos recursos e capacidades de velocidade de sua máquina. Isso também significa que não há restrição quanto ao tempo ou ao número de rastreamentos que podem ser iniciados. Você pode iniciar quantos rastreamentos sua assinatura permitir e fazer outras coisas enquanto estiver rastreando. Usar uma solução baseada em nuvem também significa que você pode fechar a janela do seu aplicativo e esperar que o rastreamento seja feito – ele está funcionando por conta própria e não precisa de sua vigilância. O OnCrawl permite agendar rastreamentos com base em suas necessidades de SEO, seja para rastrear seu site uma vez por semana ou todo mês. Você também pode decidir acelerar sua análise se precisar delas mais rapidamente.
Como o aplicativo OnCrawl pode ser usado para rastrear qualquer site, nosso bot seguirá a diretiva Crawl-Delay expressa no arquivo robots.txt encontrado no site de destino, se houver.
Caso contrário, limitamos a taxa de rastreamento na velocidade de 1 página por segundo, para que nosso bot não seja muito agressivo contra o site de destino.
Quando um site tem uma diretiva de atraso de rastreamento maior que 1, nosso aplicativo emite um aviso para informar que o rastreamento será mais lento que a velocidade solicitada.
Se o atraso de rastreamento for maior que 30, exibiremos um erro. Simplesmente não permitiremos que você configure um rastreamento com um atraso de rastreamento tão alto.
A única maneira de configurar um rastreamento nessas circunstâncias é usar um arquivo virtual robots.txt.
Para isso, você deve primeiro validar o projeto com sua conta do Google Analytics, para que possamos garantir que você tenha algum tipo de propriedade no domínio que deseja rastrear.

Temos alguns parâmetros diferentes que permitem que você controle seu rastreamento:

  • Acelere seu rastreamento
  • Pausar, parar, reiniciar ou abortar um rastreamento
  • Agende um rastreamento para evitar horários de pico de tráfego e aliviar o estresse em seu servidor quando nossos bots chegarem ao seu site
  • Veja em tempo real as páginas que foram buscadas, o número de URLs que recuperamos até agora e veja se há algum problema que reduz a velocidade do rastreamento.

screenshot_progression do rastreador

captura de tela da progressão do crawler_fetch

Análise de arquivos de log facilitada

O OnCrawl é muito mais do que um simples rastreador de SEO. Nos últimos anos, também lançamos um poderoso analisador de arquivos de log que aborda problemas que nenhuma outra solução de SEO encontrou.

Arquivos de log completos são um reflexo perfeito da vida do seu site. Sejam visitantes ou bots, páginas exibidas ou chamadas para recursos, qualquer atividade em seu site é escrita nele.

Com informações como endereço IP, código de status, agente do usuário, referenciador e outros dados técnicos, cada linha de logs (dados do lado do servidor) pode ajudá-lo a concluir a análise do seu site, que geralmente é baseada em análises (mais dados do lado do cliente orientado).

Nosso analisador de arquivos de log suporta qualquer tipo de formato de log, desde os padrões como IIS, Apache no Ngnix até formatos mais personalizados. Não há análise que não possamos fazer. Também permitimos que nossos usuários recuperem diretamente seus dados de logs de soluções de terceiros como Splunk, ELK / Elastic Stack, Amazon S3, OVH (ES) ou Cloudflare.

Isso significa que você não ficará mais preso a um gerenciador de arquivos de log adicional de terceiros, como acontece com alguns de nossos concorrentes.

Nossa interface facilita o upload automático de seus arquivos de log por meio de um FTP seguro e privado. São necessárias apenas algumas etapas para concluir a análise dos arquivos de log.

rastejante

Você também pode monitorar seus arquivos sendo processados ​​em tempo real e ver se há algum erro bloqueando seu upload.

ferramentas do gerenciador crawler_log

Integrações ilimitadas de terceiros

A OnCrawl trabalhou no desenvolvimento de conectores integrados com as principais soluções de marketing de pesquisa sem as quais os SEOs não podem viver: Google Search Console, Google Analytics, Adobe Analytics ou Majestic, apenas para citar alguns. A integração dessas soluções em seu processo de auditoria não é redundante: ela fornece uma visão mais abrangente do desempenho e da integridade do seu site nos mecanismos de pesquisa e esclarece como os bots e visitantes realmente se comportam em seu site. Você também está economizando tempo e esforço, pois não precisa processar manualmente esses dados posteriormente em planilhas do Excel.

Relatório de backlinks

Construímos um relacionamento confiável com o Majestic, a solução líder em inteligência de links. Nossa análise de dados cruzados permite combinar seus dados de rastreamento e dados de log com seus dados de backlinks para entender a influência dos backlinks no tráfego de SEO e na frequência de rastreamento. Depois de configurar uma segmentação em todo o site de grupos personalizados de páginas com base em seus KPIs mais importantes. Você também pode visualizar o número de backlinks em relação ao nível de profundidade do clique da página ou examinar se o número de backlinks tem influência no comportamento do Google.
As análises que fornecemos, nas quais os dados de backlinks são correlacionados e combinados em nível de URL e acessos de bots, são atualmente as únicas no mercado.

rastejante

Relatório de classificação

Também desenvolvemos um conector exclusivo para o Google Search Console para entender como seu site é encontrado e indexado e como suas otimizações na página afetam seu tráfego e indexação. Fornecemos informações padrão, porém exaustivas, sobre a distribuição de palavras-chave, impressões, cliques e taxa de cliques ao longo do tempo, seja em computadores ou dispositivos móveis, para palavras-chave com ou sem marca ou em relação a seus grupos de páginas. Mais importante, também oferecemos análises exclusivas que nenhum de nossos concorrentes conseguiu.
OnCrawl usa suas segmentações e dados de seus arquivos de log para interpretar seus dados de classificação. Assim, você pode identificar as características comuns das páginas que ranqueiam e aquelas que não ranqueiam em relação à profundidade, popularidade interna, contagem de palavras, inlinks, tempo de carregamento e avaliação do título. Não apenas isso, mas você também pode examinar o impacto do comprimento da descrição e dos dados estruturados na taxa de cliques.
Por fim, o OnCrawl Rankings permite combinar seu rastreamento, arquivos de log e dados do Search Console em escala para destacar páginas classificadas e entender se o orçamento de rastreamento está influenciando suas posições. Nenhum outro rastreamento, seja desktop ou baseado em nuvem, oferece suporte a esses recursos.

Relatório de análise

Permitimos que você conecte seu Google Analytics ou Adobe Analytics (ex-Omniture) para entender como o SEO on-page e técnico afeta o desempenho do tráfego orgânico dos mecanismos de pesquisa. Ajudamos você a monitorar o desempenho do tráfego de SEO e o comportamento do usuário em relação a cada seção do seu site.

Ingestão de CSV

Embora estejamos trabalhando constantemente em novas integrações de soluções de terceiros, não queremos deixá-lo sem um tipo específico de dados que você pode precisar para executar suas auditorias técnicas de SEO. É por isso que permitimos que você faça upload de arquivos CSV em escala (você pode fazer upload de milhões de linhas) para adicionar uma nova camada de dados em um nível de URL. Você pode criar suas próprias segmentações e filtros com base nesses dados específicos (classificações, CRM, negócios, dados do Google Ads etc.) para ver se suas páginas mais estratégicas atendem aos seus objetivos.

API aberta, análise personalizada

OnCrawl é baseado em uma plataforma construída em torno de uma API. A API REST OnCrawl é usada para acessar seus dados de rastreamento, bem como gerenciar seus projetos e seus rastreamentos. Para usar esta API você precisa ter uma conta OnCrawl, uma assinatura ativa e um token de acesso.
Você pode criar seu próprio aplicativo para solicitar essa API com muita facilidade. Isso pode ser feito usando um token de API gerado pela conta do usuário ou usando um aplicativo OAuth para se conectar ao OnCrawl usando a conta do usuário.

Usando nossa API, você pode escrever aplicativos que aproveitam ao máximo os vários recursos do OnCrawl, implantados em seu próprio ambiente, usando a linguagem de programação e as plataformas de sua preferência. Isso significa que você pode criar painéis personalizados, integrar nossos dados em outras plataformas e acionar automaticamente um rastreamento sempre que um site for atualizado.

Além disso, para facilitar a integração para você, todos os nossos gráficos incluem as chamadas da API e o formato de resposta no ícone de informações.

rastejante

rastejante

Tendências e otimizações ao longo do tempo

OnCrawl organiza seus rastreamentos por data em seus projetos. Armazenamos seus dados de rastreamento enquanto sua assinatura está ativa, o que significa que você pode acompanhar meses ou até anos de análises. Observe que, se você usar nosso recurso de monitoramento de log, o aplicativo OnCrawl lida com dados pessoais na forma de endereços IP dos visitantes do seu site. Essas informações são necessárias para distinguir de forma confiável entre Googlebots e outros visitantes. Os endereços IP não são armazenados no aplicativo OnCrawl. Esses dados só existem no arquivo original que você carrega em seu FTP privado e seguro.

Também oferecemos recursos abrangentes que permitem comparar dois rastreamentos, com base na mesma configuração de rastreamento, para identificar tendências e alterações ao longo do tempo. Essa é uma ótima maneira de comparar uma versão de teste e uma versão ao vivo e verificar se tudo ocorreu sem problemas durante a migração.
Você também pode compartilhar seus projetos com colegas de equipe ou clientes, o que é uma ótima maneira de provar o valor de suas otimizações e compartilhar resultados.

comparação de conteúdo duplicado

Mostrando a evolução do conteúdo duplicado entre dois rastreamentos

movimentos de profundidade

Mostrando a evolução dos movimentos de profundidade entre dois crawls

Semântica em todos os lugares

A inovação está em nosso DNA central e trabalhamos na evangelização do SEO técnico há anos. Com mais de 15 anos trabalhando em questões de processamento de linguagem natural, Tanguy Moal, CTO da OnCrawl, nos ajudou a mesclar tecnologias semânticas e Big Data para dar sentido ao enorme volume de dados disponíveis na web. Alcançamos o primeiro detector de conteúdo quase duplicado usando o algoritmo Simhash.

páginas com duplicação de conteúdo

Cluster de páginas semelhantes com avaliação canônica – os clusters podem ser filtrados por número de páginas ou porcentagem de similaridade de conteúdo

Recentemente, também trabalhamos em um detector de conteúdo de mapa de calor que ajuda nossos usuários a identificar blocos de conteúdo exclusivo e a porcentagem de duplicação em páginas da Web e em um site inteiro. A semântica faz parte do nosso rastreador de SEO: a análise de n-grams está disponível desde o início para ajudá-lo a entender como as sequências de palavras são distribuídas em um site. Somos o único rastreador baseado em nuvem com esses recursos semânticos. Em uma área em que as consultas de pesquisa de conversação estão aumentando, o SEO semântico ajuda a melhorar o tráfego para um site por meio de metadados significativos e conteúdo semanticamente relevante que pode fornecer uma resposta inequívoca para uma intenção de pesquisa específica.
O OnCrawl é muito mais do que um rastreador de desktop e oferece análise de SEO incomparável e baseada em nuvem em escala. O OnCrawl permite que você aja para realmente entender como os mecanismos de busca se comportam em seu site e criar uma estratégia de SEO com confiança.

Não acredite em nossa palavra. Experimente você mesmo e comece sua avaliação gratuita hoje.

Inicie o seu teste gratuito