¿Cómo me deshago de páginas adicionales en el índice de Google?

Publicado: 2023-12-06

Páginas web flotando en el paisaje del ciberespacio.

Supongamos que tiene un sitio web de comercio electrónico con miles de productos, cada uno con variaciones en tamaños y colores. Utilice el informe de cobertura del índice de Google Search Console para ver una lista de páginas indexadas en los resultados de búsqueda de Google para su sitio web.

Para su sorpresa, ve muchas más páginas de las que debería tener el sitio web. ¿Por qué sucede eso y cómo deshacerse de ellos?

Respondo esta pregunta en nuestra serie “Pregúntanos cualquier cosa” en YouTube. Aquí está el vídeo y luego podrás leer más sobre este problema común y su solución a continuación.

¿Por qué aparecen estas páginas web "adicionales" en el índice de Google?
¿Cómo me deshago de las páginas web "extra" en el índice de Google?
Resumen
Preguntas frecuentes: ¿Cómo puedo eliminar páginas adicionales del índice de Google de mi sitio web?

¿Por qué aparecen estas páginas web "adicionales" en el índice de Google?

Este problema es común en los sitios web de comercio electrónico. Las páginas web "adicionales" pueden aparecer en el índice de Google porque se generan URL adicionales en su sitio web de comercio electrónico.

Así es como se hace: cuando las personas usan parámetros de búsqueda en un sitio web para especificar ciertos tamaños o colores de un producto, es típico que se genere automáticamente una nueva URL para esa elección de tamaño o color.

Eso provoca una página web separada. Aunque no es un producto "separado", esa página web puede indexarse como la página principal del producto, si Google la descubre a través de un enlace.

Cuando esto sucede, y tienes muchas combinaciones de tamaños y colores, puedes terminar con muchas páginas web diferentes para un producto. Ahora, si Google descubre las URL de esas páginas web, es posible que termine teniendo varias páginas web en el índice de Google para un producto.

¿Cómo me deshago de las páginas web "extra" del índice de Google?

Con la etiqueta canónica, puede hacer que todas esas URL de variación de productos apunten a la misma página del producto original. Ésta es la forma correcta de manejar contenido casi duplicado, como cambios de color.

Esto es lo que Google tiene que decir sobre el uso de la etiqueta canónica para resolver este problema:

Una URL canónica es la URL de la página que Google considera más representativa de un conjunto de páginas duplicadas de su sitio. Por ejemplo, si tiene URL para la misma página (example.com?dress=1234 y example.com/dresses/1234), Google elige una como canónica. No es necesario que las páginas sean absolutamente idénticas; Los cambios menores en la clasificación o filtrado de las páginas de la lista no hacen que la página sea única (por ejemplo, ordenar por precio o filtrar por color de artículo) .

Google continúa diciendo que:

Si tiene una sola página a la que se puede acceder mediante varias URL, o diferentes páginas con contenido similar... Google las ve como versiones duplicadas de la misma página. Google elegirá una URL como versión canónica y la rastreará, y todas las demás URL se considerarán URL duplicadas y se rastrearán con menos frecuencia.
Si no le dice explícitamente a Google qué URL es canónica, Google tomará la decisión por usted o podría considerar ambas del mismo peso, lo que podría conducir a un comportamiento no deseado...

Pero, ¿qué pasa si no desea que se indexen esas páginas “adicionales”? En mi opinión, la solución canónica es el camino a seguir en esta situación.

Pero hay otras dos soluciones que la gente ha utilizado en el pasado para sacar las páginas del índice:

Bloquear páginas con robots.txt (no recomendado y explicaré por qué en un momento)
Utilice una metaetiqueta de robots para bloquear páginas individuales

Opción Robots.txt

El problema con el uso de robots.txt para bloquear páginas web es que usarlo no significa que Google eliminará páginas web del índice.

Según el Centro de búsqueda de Google:

Un archivo robots.txt indica a los rastreadores de motores de búsqueda a qué URL puede acceder el rastreador en su sitio. Esto se utiliza principalmente para evitar sobrecargar su sitio con solicitudes; no es un mecanismo para mantener una página web fuera de Google.

Además, una directiva de no permitir en robots.txt no garantiza que el bot no rastree la página. Esto se debe a que robots.txt es un sistema voluntario. Sin embargo, sería raro que los principales robots de los motores de búsqueda no siguieran sus directivas.

De cualquier manera, ésta no es una primera opción óptima. Y Google lo desaconseja.

Opción de metaetiqueta de robots

Esto es lo que dice Google sobre la metaetiqueta robots:

La metaetiqueta robots le permite utilizar un enfoque granular y específico de la página para controlar cómo se debe indexar y mostrar una página individual a los usuarios en los resultados de la Búsqueda de Google.

Coloque la metaetiqueta robots en la sección <head> de cualquier página web determinada. Luego, anime a los robots a rastrear esa página mediante el envío de un mapa del sitio XML o de forma natural (lo que podría tardar hasta 90 días).

Cuando los robots vuelvan a rastrear la página, encontrarán la metaetiqueta robots y comprenderán la directiva de no mostrar la página en los resultados de búsqueda.

Resumen

Entonces, para resumir:

El uso de la etiqueta canónica es la mejor y más común solución al problema de la indexación de páginas "adicionales" en Google, un problema común en los sitios web de comercio electrónico.
Si no desea que las páginas se indexen en absoluto, considere usar la metaetiqueta robots para indicar a los robots del motor de búsqueda cómo desea que se manejen esas páginas.

¿Aún estás confundido o quieres que alguien se encargue de este problema por ti? Podemos ayudarle con sus páginas adicionales y eliminarlas del índice de Google por usted. Programe una consulta gratuita aquí.

Preguntas frecuentes: ¿Cómo puedo eliminar páginas adicionales del índice de Google de mi sitio web?

El problema de las páginas adicionales en el índice de Google de su sitio web puede ser un obstáculo importante. Estas páginas excedentes a menudo surgen de la generación de contenido dinámico, como variaciones de productos en sitios de comercio electrónico, lo que crea un índice desordenado que afecta el rendimiento de su sitio.

Comprender la causa raíz es crucial. Los sitios web de comercio electrónico, en particular, enfrentan desafíos cuando varios atributos de productos desencadenan la generación de múltiples URL para un solo producto. Esto puede generar muchas páginas indexadas, lo que afecta el SEO de su sitio y la experiencia del usuario.

Emplear la etiqueta canónica es la solución más confiable para abordar este problema. La etiqueta canónica indica a Google cuál es la versión preferida de una página, consolidando el poder de indexación en una URL única y representativa. El propio Google recomienda este método, enfatizando su eficacia en el manejo de contenido casi duplicado.

Si bien algunos pueden considerar usar robots.txt para bloquear páginas web, no es lo óptimo. Google interpreta el archivo robots.txt como una directiva para controlar el acceso de los rastreadores, no como una herramienta para eliminarlo del índice. Por el contrario, la metaetiqueta robots ofrece un enfoque más específico, permitiendo un control preciso sobre la indexación de páginas individuales.

La etiqueta canónica sigue siendo la solución a seguir. Sin embargo, si existe una fuerte preferencia por la eliminación total del índice, la metaetiqueta robot puede ser un aliado estratégico. Equilibrar el deseo de un índice optimizado con las mejores prácticas de SEO es la clave para optimizar su presencia en línea de manera efectiva.

Dominar la eliminación de páginas adicionales del índice de Google de su sitio web implica una combinación estratégica de comprensión del problema, implementación de mejores prácticas como la etiqueta canónica y consideración de alternativas para escenarios específicos. Al adoptar estas estrategias, los webmasters pueden mejorar el SEO de su sitio, mejorar la experiencia del usuario y mantener una presencia en línea limpia y eficiente.

Procedimiento paso a paso:

Identifique páginas adicionales : realice una auditoría exhaustiva para identificar todas las páginas sobrantes en el índice de Google de su sitio web.
Determine la causa raíz : comprenda por qué se generan estas páginas, centrándose en elementos de contenido dinámico.
Priorice la etiqueta canónica : enfatice el uso de la etiqueta canónica como solución principal para contenido casi duplicado.
Implementar etiquetas canónicas : aplique etiquetas canónicas a todas las páginas relevantes, especificando la versión preferida para la consolidación.
Consulta las recomendaciones de Google : Alinear las estrategias con las directrices de Google, garantizando la compatibilidad y el cumplimiento.
Evalúe la opción Robots.txt : comprenda las limitaciones y los posibles inconvenientes antes de considerar robots.txt.
Implementar metaetiquetas de robots : utilice metaetiquetas de robots estratégicamente para controlar la indexación en páginas específicas si es necesario.
Equilibre el impacto del SEO : considere el impacto de cada solución en el SEO y la experiencia del usuario para tomar decisiones informadas.
Monitoreo regular : Establezca una rutina para monitorear los cambios del índice y evaluar la efectividad de las estrategias implementadas.
Optimización iterativa : refine y optimice continuamente las estrategias basadas en la dinámica cambiante del sitio y los algoritmos de Google.

Continúe perfeccionando y adaptando estos pasos en función de las características únicas de su sitio web y los cambiantes panoramas de SEO.