¿Cómo definir el presupuesto de rastreo?

Publicado: 2016-09-14

Todos hablamos de ello como SEO, pero ¿cómo funciona realmente el presupuesto de rastreo? Sabemos que la cantidad de páginas que los motores de búsqueda rastrean e indexan cuando visitan los sitios web de nuestros clientes se correlaciona con su éxito en la búsqueda orgánica, pero ¿siempre es mejor tener un mayor presupuesto de rastreo?

Como todo con Google, no creo que la relación entre el presupuesto de rastreo de su sitio web y el rendimiento de clasificación/SERP sea 100 % sencilla, depende de una serie de factores.

¿Por qué es importante el presupuesto de rastreo? Debido a la actualización de cafeína de 2010. Con esta actualización, Google reconstruyó la forma en que indexaba el contenido, con indexación incremental. Al presentar el sistema 'percolador', eliminaron el 'cuello de botella' de las páginas que se indexan.

¿Cómo determina Google el presupuesto de rastreo?

Se trata de su PageRank, Citation Flow y Trust Flow.

¿Por qué no he mencionado la autoridad de dominio? Honestamente, en mi opinión, es una de las métricas más mal utilizadas e incomprendidas disponibles para los SEO y los especialistas en marketing de contenido que tiene su lugar, pero demasiadas agencias y SEO le dan demasiado valor, especialmente cuando crean enlaces.

PageRank ahora, por supuesto, está desactualizado, especialmente porque eliminaron la barra de herramientas, por lo que se trata de la tasa de confianza de un sitio (tasa de confianza = flujo de confianza/flujo de citas). Esencialmente, los dominios más poderosos tienen presupuestos de rastreo más grandes, entonces, ¿cómo identifica la actividad del bot de Google en su sitio web y, lo que es más importante, identifica cualquier problema de rastreo del bot? Archivos de registro del servidor.

Ahora todos sabemos que para indicar las páginas al bot de Google que indexamos (y clasificamos), usamos una estructura de enlace interna y las mantenemos cerca del dominio raíz, no de 5 subcarpetas a lo largo de la URL. Pero, ¿qué pasa con las cuestiones más técnicas? Como desperdicio de presupuesto de rastreo, trampas de bots o si Google está tratando de completar formularios en el sitio (sucede).

Identificación de la actividad del rastreador

Para hacer esto, necesita tener en sus manos algunos archivos de registro del servidor. Es posible que deba solicitarlos a su cliente, o puede descargarlos directamente de la empresa de alojamiento.

La idea detrás de esto es que desea intentar encontrar un registro del bot de Google que golpea su sitio, pero debido a que este no es un evento programado, es posible que necesite obtener datos de algunos días. Hay varias piezas de software disponibles para analizar estos archivos.

A continuación se muestra un ejemplo de acceso a un servidor Apache:

50.56.92.47 – – [31/May/2012:12:21:17 +0100] “GET” – “/wp-content/themes/wp-theme/help.php” – “404” “-” “Mozilla/ 5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)” – www.hit-example.com

Desde aquí, puede usar herramientas (como OnCrawl) para analizar los archivos de registro e identificar problemas como el rastreo de páginas PPC por parte de Google o solicitudes GET infinitas a secuencias de comandos JSON, las cuales se pueden solucionar en el archivo Robots.txt.

¿Cuándo es un problema el presupuesto de rastreo?

El presupuesto de rastreo no siempre es un problema, si su sitio tiene muchas URL y tiene una asignación proporcional de 'rastreos', está bien. Pero, ¿qué sucede si su sitio web tiene 200 000 URL y Google solo rastrea 2000 páginas en su sitio cada día? Google podría tardar hasta 100 días en darse cuenta de las URL nuevas o actualizadas; eso sí que es un problema.

Una prueba rápida para ver si su presupuesto de rastreo es un problema es usar Google Search Console y la cantidad de URL en su sitio para calcular su 'número de rastreo'.

  • Primero necesita determinar cuántas páginas hay en su sitio, puede hacer esto haciendo un sitio: busque, por ejemplo, oncrawl.com tiene aproximadamente 512 páginas en el índice:

  • En segundo lugar, debe ir a su cuenta de Google Search Console e ir a Rastrear, y luego a Rastrear estadísticas. Si su cuenta de GSC no se configuró correctamente, es posible que no tenga estos datos.
  • El tercer paso es tomar el número promedio de "Páginas rastreadas por día" (el del medio) y el número total de URL en su sitio web y dividirlos:

Total de páginas en el sitio / Promedio de páginas rastreadas por día = X

Si X es mayor que 10, debe buscar optimizar su presupuesto de rastreo. Si es menos de 5, bravo. No necesita seguir leyendo.

Optimización de la capacidad de su "presupuesto de rastreo"

Puede tener el mayor presupuesto de rastreo en Internet, pero si no sabe cómo usarlo, no vale nada.

Sí, es un cliché, pero es verdad. Si Google rastrea todas las páginas de su sitio y descubre que la mayoría de ellas están duplicadas, en blanco o se cargan tan lentamente que causan errores de tiempo de espera, su presupuesto puede ser cero.

Para aprovechar al máximo su presupuesto de rastreo (incluso sin acceso a los archivos de registro del servidor), debe asegurarse de hacer lo siguiente:

Eliminar páginas duplicadas

A menudo, en los sitios de comercio electrónico, las herramientas como OpenCart pueden crear varias URL para el mismo producto. He visto instancias del mismo producto en 4 URL con diferentes subcarpetas entre el destino y la raíz.

No desea que Google indexe más de una versión de cada página, así que asegúrese de tener etiquetas canónicas que apunten a Google a la versión correcta.

Resolver enlaces rotos

Use Google Search Console, o software de rastreo, y encuentre todos los enlaces internos y externos rotos en su sitio y arréglelos. Usar 301 es excelente, pero si son enlaces de navegación o enlaces de pie de página que están rotos, simplemente cambie la URL a la que apuntan sin depender de un 301.

No escriba páginas delgadas

Evite tener muchas páginas en su sitio que ofrezcan poco o ningún valor a los usuarios o motores de búsqueda. Sin contexto, a Google le resulta difícil clasificar las páginas, lo que significa que no contribuyen en nada a la relevancia general del sitio y son solo pasajeros que utilizan el presupuesto de rastreo.

Eliminar cadenas de redirección 301

Las redirecciones en cadena son innecesarias, desordenadas e incomprendidas. Las cadenas de redireccionamiento pueden dañar su presupuesto de rastreo de varias maneras. Cuando Google llega a una URL y ve un 301, no siempre la sigue inmediatamente, sino que agrega la nueva URL a una lista y luego la sigue.

También debe asegurarse de que su mapa del sitio XML (y el mapa del sitio HTML) sea preciso, y si su sitio web es multilingüe, asegúrese de tener mapas del sitio para cada idioma del sitio web. También debe implementar una arquitectura de sitio inteligente, una arquitectura de URL y acelerar sus páginas. Poner su sitio detrás de un CDN como CloudFlare también sería beneficioso.

TL;RD:

El presupuesto de rastreo como cualquier presupuesto es una oportunidad, en teoría está utilizando su presupuesto para ganar tiempo que Googlebot, Bingbot y Slurp dedican a su sitio, es importante que aproveche al máximo este tiempo.

La optimización del presupuesto de rastreo no es fácil, y ciertamente no es una 'ganancia rápida'. Si tiene un sitio pequeño o un sitio de tamaño mediano que está bien mantenido, probablemente esté bien. Si tiene un sitio gigante con decenas de miles de URL y los archivos de registro del servidor se le pasan por la cabeza, puede que sea el momento de llamar a los expertos.

Comienza tu prueba gratuita