Cómo optimizar tu presupuesto de rastreo

Publicado: 2017-07-05

En mayo, realizamos un seminario web en francés sobre el presupuesto de rastreo de Google. Para su segundo seminario web con OnCrawl, Erle Alberton, exjefe de SEO de Orange & Sosh (un proveedor de Internet francés) y ahora Gerente de Éxito del Cliente para OnCrawl, presenta el concepto de presupuesto de rastreo, las mejores prácticas para optimizarlo, qué evitar, etc. ejemplos ilustrarán este concepto que fue confirmado recientemente por el equipo de Google.

Lo que dice Google sobre el presupuesto de rastreo

A mediados de enero, Google publicó un artículo en su blog que decía: “no tenemos un solo término que describa todo lo que significa “presupuesto de rastreo” externamente. En otras palabras, lo que nosotros, los SEO, consideramos como el presupuesto de rastreo.

El gigante web también indica que si sus nuevas páginas generalmente se rastrean el mismo día de su publicación, entonces realmente no tiene que preocuparse por el presupuesto de rastreo. También establece que si un sitio tiene menos de unos pocos miles de URL, se rastreará correctamente, ya que el presupuesto de rastreo generalmente se reserva para sitios de gran volumen... Esto es correcto e incorrecto porque todos los sitios en Google Search Console tienen un presupuesto de rastreo. Podemos ver esto fácilmente en las métricas de Google.

También descubrimos en este artículo que Google está tratando de lograr un "límite de tasa de rastreo" que limita la tasa máxima de búsqueda para un sitio determinado. Podemos ver que, por ejemplo, cuando un tiempo de carga es demasiado largo, Google reduce su presupuesto casi en 2. Dicho esto, hay factores que pueden afectar el presupuesto de rastreo, como una mala arquitectura (sistema, códigos de estado, estructura interna ), contenido deficiente y/o duplicado, trampas de araña, etc.

¿Cómo funciona el presupuesto de rastreo de Google?

El rastreo de Google es un conjunto de pasos simples que opera recursivamente para cada sitio. Aquí hay un gráfico de Google donde vemos que el rastreo comienza con un golpe en un robot de txt y luego se separa en un conjunto de URL que se compilan en una lista. Posteriormente, Google intenta obtenerlos mientras los compara con las URL que ya conoce además de las que ya tiene en la copia de seguridad.

Su objetivo es completar de forma exhaustiva y precisa su índice. Vemos que incluso si el sitio está en JavaScript, Google enviará rastreadores de tercer nivel. Aún debe tener cuidado con los sitios de JavaScript, ya que consumen una gran cantidad de recursos de bots y se envían en promedio solo una vez por trimestre. Necesitamos repensar nuestro método para que Google tenga acceso a páginas fuera de una navegación de JavaScript.

Luego, Google verificará el estado de actualización de la página (comparación con el contenido indexado anteriormente) para evaluar si la página es importante o menos importante. De hecho, Google necesita optimizar sus recursos de rastreo porque no puede rastrear todas las páginas de todos los sitios web. Se llama importancia de la página… ¡es una puntuación muy importante a seguir y que veremos en detalle a continuación!

Dato: si Google optimiza, es porque hay una razón

El presupuesto de rastreo depende de:

  • la capacidad del sitio para responder rápidamente;
  • Sanidad del sitio: 4xx, 5xx, 3xx (cuando un sitio comienza a tener 404 o 500, el presupuesto de rastreo se verá afectado, porque siempre verificará dos veces si se han realizado correcciones);
  • Calidad del contenido – semántica y exhaustividad;
  • Anchor's diversity (una página se considera importante cuando recibe muchos enlaces. Con el InRank de OnCrawl puedes analizar todo);
  • Popularidad de la página: externa e interna;
  • Factores optimizables: simplifique el rastreo (reduzca el tamaño de la imagen, capacidad para tener css, js, gif, fuentes, etc.)

[Estudio de caso] Aumentar el presupuesto de rastreo en páginas estratégicas

La mayor parte del tráfico de Manageo proviene de la búsqueda orgánica. Este tráfico se basa principalmente en búsquedas de cola larga, lo que crea la necesidad de optimizar millones de palabras clave al mismo tiempo. El presupuesto de rastreo se convirtió rápidamente en un problema.
Lea el estudio de caso

Componentes clave de Google Page Importance

La definición de importancia de la página no es lo mismo que el Page Rank:

  • Ubicación de la página en el sitio web: profundidad en la tasa de rastreo;
  • Clasificación de la página: TF/CF de la página: majestuosa;
  • Page Rank interno: InRank de OnCrawl;
  • Tipo de documento: PDF, HTML, TXT (el PDF suele ser un documento cualitativo final, por lo que se rastrea mucho);
  • Inclusión en sitemap.xml;
  • Número de enlaces internos:
  • Calidad/importancia del ancla;
  • Contenido cualitativo: cantidad de palabras, pocos casi duplicados (Google penalizará el contenido similar si las páginas tienen un contenido demasiado similar);
  • Importancia de la página de “inicio”.

Cómo planificar URL importantes para rastrear

Programación de URL: ¿Qué páginas quiere visitar Google y con qué frecuencia?

En el ejemplo anterior (observación de una frecuencia de rastreo de un mismo sitio), Google no rastrea con la misma frecuencia en los diferentes grupos. Vemos que cuando Google rastrea parte del sitio, el impacto del ranking se ve rápidamente.

Más información sobre el presupuesto de rastreo de Google

  • El 100% de los sitios web de Google Search Console tienen datos de rastreo;
  • Podemos seguir su comportamiento de rastreo gracias a un análisis de registro que te ayuda a detectar rápidamente una anomalía en el comportamiento del bot;
  • Una mala estructura interna (paginación, páginas huérfanas, trampas de araña) puede impedir que Google rastree las páginas correctas;
  • El presupuesto de rastreo está directamente relacionado con la clasificación.

Velocidad de página primero

El factor más importante es el tiempo de carga de una página, ya que juega un papel decisivo en el presupuesto de rastreo. De hecho, hoy estamos en un mundo móvil. Por lo tanto, su mejor activo es el tiempo de carga de la página para optimizar su presupuesto de rastreo y su SEO. Con la revolución móvil, el tiempo de carga es un factor esencial para evaluar la calidad de un sitio. Su capacidad para responder rápidamente, especialmente para dispositivos móviles e indexar dispositivos móviles primero.

Para optimizarlo podemos utilizar soluciones CDN (Content Delivery Network) como Cloudflare. Estas soluciones permiten que los robots de Google estén lo más cerca posible de los recursos y carguen las páginas lo más rápido posible.

Google prueba constantemente la capacidad de un sitio para responder rápidamente. La arquitectura y la calidad de la codificación tienen un fuerte impacto en la notación de Google.

Tiempo de carga

¡Es el primer factor de asignación del presupuesto de rastreo!

En cuanto al servidor , debe:

  • Evite las redirecciones;
  • Autorizar compresión;
  • Mejora el tiempo de respuesta.

Arriba, un ejemplo con el sitio de Manageo que tenía un presupuesto de rastreo lineal y donde podemos ver un aumento lineal. En mayo, hay una caída en la cantidad de páginas rastreadas por día y, en consecuencia, un cambio en la velocidad del sitio. Google ve que el sitio responde con menos rapidez, por lo que reduce a la mitad su presupuesto de rastreo. Para corregir todo esto, debe optimizar sus códigos en el lado del servidor, reducir las redirecciones, usar compresión, etc.

Delantero , necesitas:

  • Operar el almacenamiento en caché del navegador
  • Reducir el tamaño de los recursos (optimización de imágenes, uso de CDN/carga diferida/eliminación de JS que bloquean la visualización;
  • Utilice scripts asincrónicos.

Caída de calidad = no más amor = no más presupuesto

Es necesario verificar los códigos de estado enviados a los robots de Google para asegurarse de que el IS esté limpio. Esta es la única forma en que Google valida que la calidad de su código y su arquitectura estén limpios.

El seguimiento de su evolución a lo largo del tiempo garantiza que las actualizaciones de código sean compatibles con SEO. Google gasta mucho en recursos (css, img, js), así que asegúrese de que sean impecables.

Contenido único y rico

Cuanto más importante es una página, más rico es su texto. Como se muestra arriba, la cantidad de páginas rastreadas y no rastreadas por Google está relacionada con la cantidad de palabras que hay en la página. Por lo tanto, sus páginas deben mejorarse y actualizarse con la mayor regularidad posible.

Cuidado con los canónicos y el contenido duplicado

Google gastará el doble de presupuesto cuando dos páginas similares no apunten a la misma URL canónica. Por lo tanto, la gestión canónica puede volverse crítica para sitios con facetas o enlaces externos con queryString.

La gestión de contenido casi duplicado y canónico se convierte en un aspecto importante de la optimización del presupuesto de rastreo.

Estructura interna y distribución InRank

Las páginas que generan visitas SEO se consideran activas. Estos son los que están en la parte superior de la arquitectura del sitio. Por otro lado, vemos aquí que en la página 15 hay un grupo de páginas emergentes. Tal vez estas páginas son mucho más buscadas por sus usuarios de lo que pensaba y necesitarían actualizarse en la arquitectura para mejorar su clasificación.

Como sabemos, cuanto más profundas sean las páginas, ¡Google menos las visitará!

¿Están bien ubicadas mis páginas de dinero?

Consejo: si desea optimizar la profundidad de ciertos grupos de páginas, no dude en crear planes de sitio html, es decir, páginas que son cruciales para administrar su profundidad.

Google comparará las páginas de su estructura vs rastreadas vs activas. Dicho esto, le convendría resolver el problema de las páginas huérfanas en las que Google gasta un presupuesto innecesario y arreglar la arquitectura del sitio para devolver enlaces a páginas activas pero fuera de estructura.

A veces las páginas ya no reciben enlaces, se llaman páginas huérfanas. Por otro lado, Google no se ha olvidado de ellos. Seguirá visitándolos. Ya no reciben enlaces por lo que pierden importancia, pero en el gráfico de la derecha algunas páginas huérfanas siguen recibiendo visitas SEO. Lo que necesita saber es cómo identificarlos rápidamente y solucionar los problemas de enlace que hay en la arquitectura. Esta es una excelente manera de optimizar su presupuesto de rastreo.

Errores de los que debes alejarte

  • Robots.txt en 404;
  • Sitemap.xml y sitemap.html desactualizados;
  • errores 50x/40x/soft 404;
  • Tener redirecciones de cadena;
  • errores canónicos;
  • Contenido duplicado (pie de página)/casi duplicado/HTTP frente a HTTPS;
  • Tiempo de respuesta demasiado largo;
  • Pesadez de página demasiado importante;
  • AMP/errores. Este protocolo es ampliamente utilizado por Google, especialmente para sitios de comercio electrónico (no solo sitios de medios);
  • Mala vinculación interna + Rel=nofollow;
  • Usar JS sin ninguna otra alternativa.

Conclusiones

Para optimizar su presupuesto de rastreo, necesita:

  • Conoce tus páginas de dinero y conoce las reacciones de Google;
  • Mejorar el tiempo de carga;
  • Optimice su enlace interno: coloque todas sus páginas de dinero en la parte superior de la estructura;
  • Repara tus páginas huérfanas;
  • Agregue texto a sus páginas de dinero;
  • Actualice al máximo sus páginas de dinero: frescura;
  • Reduzca su contenido pobre y duplicados;
  • Optimice sus canónicos, imágenes, peso de recursos;
  • Evite las redirecciones de cadena;
  • Supervise sus registros y reaccione cuando haya anomalías (consulte este caso de uso de Manageo durante SEOcamp Lyon sobre el tema).

Para optimizar su presupuesto de rastreo, necesita monitorear con precisión el rastreador de Google

Algunos momentos de la ruta de Google en tu sitio son más importantes que otros, por lo que debes saber cómo optimizarlos.

Para optimizar su presupuesto de rastreo, es necesario administrar correctamente su migración HTTPS (HTTP2)

Tienes que ser capaz de seguirlo y monitorearlo. Desafíe a sus equipos de TI a migrar a HTTP2 con HTTPS.
OnCrawl lo ayuda a realizar un seguimiento del presupuesto de rastreo de Google día a día y apunta rápidamente a las correcciones y los cambios estructurales para mejorar su rendimiento de SEO.

Comience su prueba gratuita de 14 días

¡Descubre por ti mismo por qué Oncrawl es la plataforma técnica y de SEO de datos más reconocida del mercado! No se requiere tarjeta de crédito ni condiciones: solo 14 días de prueba con todas las funciones.
Comience su prueba