Por qué OnCrawl es mucho más que un rastreador de escritorio: una inmersión profunda en nuestra plataforma de SEO basada en la nube

Publicado: 2018-12-06

OnCrawl se creó en torno a las necesidades de SEO del jugador de comercio electrónico francés n° 1 en 2015. Esto significaba que teníamos que escalar nuestro análisis y tratar con un sitio web con más de 50 millones de URL en un corto período de tiempo. Difícil, dirías, para un jugador nuevo. De hecho, nuestra infraestructura, en la que gastamos 1,5M€ solo en I+D y que anteriormente había soportado diferentes proyectos de datos, lo ha facilitado. Dado que la distinción entre los rastreadores de escritorio y los basados ​​en la nube aún no está clara, pensamos que podría ser útil explicar por qué OnCrawl tiene mucho más que ofrecer que un simple rastreador de escritorio, desde capacidades de alto escalamiento hasta integraciones de terceros y velocidad de análisis.

Escalando hasta el infinito y más allá

Los rastreadores de escritorio tienen una capacidad de rastreo limitada debido a los recursos y la memoria de la computadora en la que se ejecutan. Lo más probable es que se limiten a rastrear solo unos pocos miles de URL por rastreo. Si bien esto puede estar bien para sitios web pequeños, aún puede llevar más tiempo rastrear estas URL en comparación con un rastreador SaaS (Software as a Service). Los rastreadores basados ​​en la nube se distribuyen en muchos servidores, por lo que no está limitado por la velocidad y el tamaño de su máquina.

Esto significa que no hay rastreo que no podamos manejar. Hemos estado trabajando tanto para sitios web pequeños como para sitios web muy grandes, incluidas algunas de las empresas Fortune 500. Como se dijo en la introducción, desarrollamos nuestro rastreador de SEO después de que Cdiscount, el sitio web de comercio electrónico más grande de Francia, nos pidiera que construyéramos una solución personalizada para manejar sus más de 50 millones de URL y necesidades de SEO en un solo rastreo. Además, nuestras capacidades de escalado nos han convertido dos años seguidos en la Mejor herramienta de SEO en los European Search Awards, la ceremonia líder en la industria de búsqueda. Actualmente, recopilamos hasta 25 millones de URL por día y por sitio web, o aproximadamente mil millones de páginas web y 150 mil millones de enlaces por mes. Puede obtener más información sobre nuestra tecnología y cómo manejamos las políticas de GDPR aquí.

Velocidad personalizada, capacidades amplias

Dado que nuestra aplicación está basada en la nube, no necesita pensar en los recursos y las capacidades de velocidad de su máquina. También significa que no hay restricciones con respecto al tiempo o la cantidad de rastreos que se pueden iniciar. Puede iniciar tantos rastreos como le permita su suscripción y hacer otras cosas mientras rastrea. El uso de una solución basada en la nube también significa que puede cerrar la ventana de su aplicación y esperar a que se realice el rastreo: funciona por sí solo y no necesita su vigilancia. OnCrawl le permite programar rastreos en función de sus necesidades de SEO, ya sea que necesite rastrear su sitio una vez a la semana o todos los meses. También puede decidir acelerar su análisis si los necesita más rápido.
Dado que la aplicación OnCrawl se puede usar para rastrear cualquier sitio web, nuestro bot seguirá la directiva Crawl-Delay expresada en el archivo robots.txt que se encuentra en el sitio web de destino, si corresponde.
De lo contrario, limitamos la velocidad de rastreo a la velocidad de 1 página por segundo, por lo que nuestro bot no es demasiado agresivo contra el sitio web objetivo.
Cuando un sitio web tiene una directiva Crawl-Delay superior a 1, nuestra aplicación emite una advertencia para indicarle que el rastreo será más lento que la velocidad solicitada.
Si Crawl-Delay es superior a 30, mostramos un error. Simplemente no le permitiremos configurar un rastreo con un retraso de rastreo tan alto.
La única forma de configurar un rastreo en esas circunstancias es usar un archivo virtual robots.txt.
Para hacerlo, primero debe validar el proyecto con su cuenta de Google Analytics, para que podamos asegurarnos de que tiene algún tipo de propiedad sobre el dominio que desea rastrear.

Tenemos algunos parámetros diferentes que le permiten tomar el control de su rastreo:

  • Acelera tu rastreo
  • Pausar, detener, reiniciar o cancelar un rastreo
  • Programe un rastreo para evitar las horas pico de tráfico y aliviar el estrés en su servidor cuando nuestros bots lleguen a su sitio
  • Vea en tiempo real las páginas que se han obtenido, la cantidad de URL que recuperamos hasta el momento y vea si hay algún problema que reduzca la velocidad de su rastreo.

rastreador captura de pantalla_progresión

Captura de pantalla de progresión de crawler_fetch

Análisis de archivos de registro simplificado

OnCrawl es mucho más que un simple rastreador de SEO. En los últimos años, también lanzamos un potente analizador de archivos de registro que aborda problemas que ninguna otra solución de SEO ha encontrado.

Los archivos de registro completos son un reflejo perfecto de la vida de su sitio. Ya sean visitantes o bots, páginas mostradas o llamadas a recursos, cualquier actividad en su sitio está escrita en él.

Con información como la dirección IP, el código de estado, el agente de usuario, la referencia y otros datos técnicos, cada línea de registros (datos del lado del servidor) puede ayudarlo a completar el análisis de su sitio, que generalmente se basa en análisis (más datos del lado del cliente). orientado).

Nuestro analizador de archivos de registro admite cualquier tipo de formato de registro, desde formatos estándar como IIS, Apache en Ngnix hasta formatos más personalizados. No hay análisis que no podamos hacer. También permitimos que nuestros usuarios recuperen directamente sus datos de registros de soluciones de terceros como Splunk, ELK/Elastic Stack, Amazon S3, OVH (ES) o Cloudflare.

Esto significa que ya no tendrá que lidiar con un administrador de archivos de registro de terceros adicional, como ocurre con algunos de nuestros competidores.

Nuestra interfaz facilita la carga automática de sus archivos de registro a través de un FTP seguro y privado. Solo se necesitan unos pocos pasos para completar el análisis de sus archivos de registro.

tractor

También puede monitorear el procesamiento de sus archivos en tiempo real y ver si hay algún error que bloquee su carga.

herramientas del administrador crawler_log

Integraciones ilimitadas de terceros

OnCrawl ha trabajado en el desarrollo de conectores integrados con las principales soluciones de marketing de búsqueda sin las que los SEO no pueden vivir: Google Search Console, Google Analytics, Adobe Analytics o Majestic, solo por nombrar algunas. La integración de estas soluciones en su proceso de auditoría no es redundante: proporciona una visión más completa del rendimiento y el estado de su sitio web en los motores de búsqueda y aclara cómo se comportan realmente los bots y los visitantes en su sitio web. También está ahorrando tiempo y esfuerzo, ya que no necesita procesar manualmente estos datos más adelante en hojas de cálculo de Excel.

Informe de vínculo de retroceso

Hemos construido una relación de confianza con Majestic, la solución líder de inteligencia de enlaces. Nuestro análisis de datos cruzados le permite combinar sus datos de rastreo y registros con sus datos de backlinks para comprender la influencia de los backlinks en su tráfico SEO y frecuencia de rastreo. Una vez que haya configurado una segmentación en todo el sitio de grupos personalizados de páginas en función de sus KPI más importantes. También puede visualizar la cantidad de vínculos de retroceso en relación con el nivel de profundidad de clics en la página o examinar si la cantidad de vínculos de retroceso influye en el comportamiento de Google.
Los análisis que proporcionamos, en los que los datos de backlinks se correlacionan y combinan a nivel de URL y visitas de bots, son actualmente los únicos en el mercado.

tractor

Informe de clasificación

También hemos desarrollado un conector único para Google Search Console para comprender cómo se encuentra e indexa su sitio, y cómo las optimizaciones en la página tienen un impacto en su tráfico e indexación. Brindamos información estándar pero exhaustiva sobre la distribución de sus palabras clave, las impresiones, los clics y la tasa de clics a lo largo del tiempo, ya sea en computadoras de escritorio o dispositivos móviles, para palabras clave de marca o sin marca o en relación con sus grupos de páginas. Más importante aún, también ofrecemos un análisis único que ninguno de nuestros competidores ha logrado.
OnCrawl utiliza sus segmentaciones y datos de sus archivos de registro para interpretar sus datos de clasificación. De este modo, puede identificar las características comunes de las páginas que se clasifican y las que no en cuanto a profundidad, popularidad interna, recuento de palabras, enlaces internos, tiempo de carga y evaluación del título. No solo eso, sino que también puede examinar el impacto de la longitud de la descripción y los datos estructurados en la tasa de clics.
Finalmente, OnCrawl Rankings le permite combinar su rastreo, archivos de registro y datos de Search Console a escala para resaltar páginas clasificadas y comprender si el presupuesto de rastreo está influyendo en sus posiciones. Ningún otro rastreo, ya sea de escritorio o basado en la nube, admite estas características.

Informe de análisis

Le permitimos conectar su Google Analytics o Adobe Analytics (ex-Omniture) para comprender cómo el SEO técnico y en la página afecta el rendimiento del tráfico orgánico de los motores de búsqueda. Lo ayudamos a monitorear el rendimiento del tráfico SEO y el comportamiento del usuario con respecto a cada sección de su sitio web.

Ingesta de CSV

Si bien trabajamos constantemente en nuevas integraciones de soluciones de terceros, no queríamos dejarlo sin un tipo particular de datos que podría necesitar para ejecutar sus auditorías técnicas de SEO. Es por eso que le permitimos cargar archivos CSV a escala (puede cargar millones de filas) para agregar una nueva capa de datos a nivel de URL. Puede crear sus propias segmentaciones y filtros en función de estos datos particulares (rankings, CRM, negocios, datos de Google Ads, etc.) para ver si sus páginas más estratégicas cumplen con sus objetivos.

API abierta, análisis personalizado

OnCrawl se basa en una plataforma construida alrededor de una API. La API REST de OnCrawl se utiliza para acceder a sus datos de rastreo, así como para administrar sus proyectos y sus rastreos. Para usar esta API, debe tener una cuenta de OnCrawl, una suscripción activa y un token de acceso.
Puedes crear tu propia aplicación para solicitar esta API muy fácilmente. Esto se puede hacer usando un token API generado por la cuenta del usuario o usando una aplicación OAuth para conectarse a OnCrawl usando la cuenta del usuario.

Con nuestra API, puede escribir aplicaciones que aprovechen al máximo las numerosas funciones de OnCrawl, implementadas en su propio entorno, utilizando el lenguaje de programación y las plataformas que prefiera. Esto significa que puede crear paneles personalizados, integrar nuestros datos en otras plataformas y activar automáticamente un rastreo cada vez que se actualiza un sitio.

Además, para facilitarte la integración, todas nuestras gráficas incluyen las llamadas a la API y el formato de respuesta en el ícono de información.

tractor

tractor

Tendencias y optimizaciones a lo largo del tiempo

OnCrawl organiza sus rastreos por fecha dentro de sus proyectos. Almacenamos sus datos de rastreo mientras su suscripción está activa, lo que significa que puede realizar un seguimiento de meses o incluso años de análisis. Tenga en cuenta que si utiliza nuestra función de Monitoreo de registros, la aplicación OnCrawl maneja datos personales en forma de direcciones IP de los visitantes de su sitio web. Esta información es necesaria para distinguir de forma fiable entre Googlebots y otros visitantes. Las direcciones IP no se almacenan en la aplicación OnCrawl. Estos datos solo existen en el archivo original que subes a tu FTP privado y seguro.

También ofrecemos amplias funciones que le permiten comparar dos rastreos, basados ​​en la misma configuración de rastreo, para detectar tendencias y cambios a lo largo del tiempo. Esta es una excelente manera de comparar una versión provisional y una versión en vivo y comprobar si todo ha ido bien durante la migración.
También puede compartir sus proyectos con compañeros de equipo o clientes, lo cual es una excelente manera de demostrar el valor de sus optimizaciones y compartir resultados.

comparación de contenido duplicado

Mostrando la evolución del contenido duplicado entre dos rastreos

movimientos de profundidad

Mostrando la evolución de los movimientos de profundidad entre dos rastreos

Semántica en todas partes

La innovación está en nuestro ADN central y hemos estado trabajando en evangelizar el SEO técnico durante años. Con más de 15 años trabajando en problemas de procesamiento del lenguaje natural, Tanguy Moal, CTO de OnCrawl, nos ha ayudado a fusionar tecnologías semánticas y de Big Data para dar sentido al tremendo volumen de datos disponibles en la web. Hemos logrado el primer detector de contenido casi duplicado utilizando el algoritmo Simhash.

páginas con duplicación de contenido

Grupo de páginas similares con evaluación canónica: los grupos se pueden filtrar por número de páginas o porcentaje de similitud de contenido

También hemos estado trabajando recientemente en un detector de contenido de mapa de calor que ayuda a nuestros usuarios a identificar bloques de contenido único y el porcentaje de duplicación en páginas web y un sitio web completo. La semántica es parte de nuestro rastreador SEO: el análisis de n-gramas ha estado disponible desde el principio para ayudarlo a comprender cómo se distribuyen las secuencias de palabras dentro de un sitio web. Somos el único rastreador basado en la nube con tales capacidades semánticas. En un área donde las consultas de búsqueda conversacionales están aumentando, el SEO semántico lo ayuda a mejorar el tráfico a un sitio web a través de metadatos significativos y contenido semánticamente relevante que puede proporcionar una respuesta inequívoca para una intención de búsqueda específica.
OnCrawl es mucho más que un rastreador de escritorio y ofrece un análisis de SEO sin igual y basado en la nube a escala. OnCrawl le permite actuar para comprender realmente cómo se comportan los motores de búsqueda en su sitio web y crear una estrategia de SEO con confianza.

No confíe en nuestra palabra. Pruébelo usted mismo y comience su prueba gratuita hoy.

Comienza tu prueba gratuita