[Resumen del seminario web] SEO en órbita: descubriendo los secretos de la indexación

Publicado: 2019-11-06

El seminario web Desbloqueando los secretos de la indexación es parte de la serie SEO en órbita y se emitió el 12 de junio de 2019. En este episodio, Kevin Indig comparte sus pensamientos sobre la indexación de páginas, cómo las páginas indexadas para un sitio influyen en todo el sitio. clasificaciones y qué páginas no deben indexarse. ¿Cuál es el enfoque correcto hacia este paso intermedio entre hacer que se descubran las páginas y hacer que aparezcan en los SERP?

SEO in Orbit es la primera serie de seminarios web que envía SEO al espacio. A lo largo de la serie, discutimos el presente y el futuro del SEO técnico con algunos de los mejores especialistas en SEO y enviamos sus mejores consejos al espacio el 27 de junio de 2019.

Mira la repetición aquí:

Presentando a Kevin Indig

Kevin Indig ha ayudado a nuevas empresas a adquirir más de 100 millones de usuarios en los últimos 10 años. Es vicepresidente de SEO y CONTENIDO en G2, mentor de Growth en GermanAccelerator y anteriormente dirigió SEO en Atlassian y Dailymotion. Su especialidad es la adquisición de usuarios, la creación de marca y la retención de usuarios. Las empresas con las que Kevin trabajó incluyen eBay, Eventbrite, Bosch, Samsung, Pinterest, Columbia, UBS y muchas otras. También dirige el boletín de marketing técnico curado, Tech Bound.

Este episodio fue presentado por Rebecca Berbel, Gerente de contenido de OnCrawl. Fascinada por la PNL y los modelos automáticos del lenguaje en particular, y por los sistemas y cómo funcionan en general, Rebecca nunca pierde los temas técnicos de SEO con los que emocionarse. Ella cree en evangelizar la tecnología y usar datos para comprender el rendimiento del sitio web en los motores de búsqueda.

Definiciones

Una de las razones por las que es importante hablar sobre la indexación es que es un tema complejo. Muchos SEO luchan con la indexación y cómo influir en ella.

Es hora de otro cuestionario de SEO.
Creas una nueva página. ¿Cuál de los siguientes lo mantendrá fuera del índice de Google?
A. Metarobots noindex
B. Bloque Robots.txt
C. Dar meta noindex a la página *y* bloquearla en robots.txt
— Will Critchlow (@willcritchlow) 9 de junio de 2019

– Gateando

El rastreo en términos simples es el proceso de descubrimiento técnico de los motores de búsqueda que comprenden una página web y todos sus componentes.

Esto ayuda a Google a encontrar todas las URL que luego puede volver atrás y representar, y luego indexar y eventualmente clasificar.

– Proceso de 3 pasos de Google

El rastreo es parte del proceso de 3 pasos de Google que conduce a la creación de resultados de búsqueda:

gateando
Representación
Indexación

Estos son procesos técnicamente diferentes, manejados por diferentes programas o partes del motor de búsqueda.

La clasificación es potencialmente un cuarto paso en este proceso.

– Indexación

La indexación es el proceso por el cual Google agrega URL a su larga "lista" de posibles resultados. Si Kevin tiene que evitar la palabra "índice" en una definición de indexación, preferiría hablar de una "lista" metafórica: Google tiene una "lista" de URL que puede usar para clasificar y mostrar los mejores resultados a los usuarios. .

- Archivos de registro

Los servidores web mantienen un historial cada vez que alguien o algo solicita una página o un recurso en el servidor.

A Kevin le apasionan mucho los archivos de registro como fuente de verdad cuando se trata de comprender cómo Google rastrea y representa su sitio.

En los registros, podemos encontrar información del servidor sobre la frecuencia con la que Google visita su sitio y lo que hace allí, en términos muy claros y simples. Los archivos de registro contienen registros individuales de cada visita al sitio.

Puede obtener una tonelada de información de los archivos de registro:

Errores de código de estado específicos
Problemas para gatear
Problemas con el renderizado
Cuánto tiempo pasa el robot de Google en tu sitio
Qué robots de Google llegan a tu sitio. Por ejemplo, con el índice Mobile First, recientemente se actualizó el Googlebot principal utilizado para la indexación.
Si la estructura técnica de su sitio es algo que Google sigue, o si tiene algo allí que se puede optimizar.

Formas de comprobar la indexación

– No recomendado: consultas “sitio:”

Cuando Kevin comenzó en SEO hace unos 10 años, veía qué páginas de su sitio estaban indexadas ejecutando búsquedas de "sitio:" en Google. Si bien todavía usa esto a veces, ya no es una forma confiable de averiguar si una URL está indexada.

Más recientemente, le preguntó a John Mueller sobre esta estrategia; Verificó que esta ya no es una forma recomendada de comprobar lo que Google ha indexado o no.

– Recomendado: inspección de URL de la consola de búsqueda

En cambio, John Mueller recomienda usar la herramienta de inspección de URL en la consola de búsqueda para verificar qué se ha indexado.

La página en caché no siempre es representativa de lo que está indexado y, por lo general, solo se obtuvo el HTML estático (si hay JavaScript en él, por lo general no se ejecuta dentro del alojamiento en caché). Me centraría más en la herramienta de inspección de URL.

— ???? John ???? (@JohnMu) 8 de mayo de 2019

– Recomendado: Sitemaps XML y el Reporte de Cobertura

Enviar un mapa del sitio XML en Search Console es una forma de verificar un lote de sus URL y luego verificar el mapa del sitio en el Informe de cobertura en la consola de búsqueda.

Importancia de distinguir entre rastreo-renderización-índice

Como se mencionó, hay un proceso de 3 pasos en el que Google rastrea, procesa e indexa una página. Es muy importante distinguir entre cada uno de estos pasos. A medida que la web se vuelve más sofisticada, Google ha tenido que adaptarse, separando y mejorando estos procesos individualmente.

Diferentes robots de Google

Google utiliza varios Googlebots para rastrear y representar sitios web. Tienes diferentes tipos de recursos: imágenes, vídeos, noticias, texto… Google utiliza diferentes Googlebots para entender cada tipo de contenido.

Google anunció hace aproximadamente un mes que actualizó su motor de renderizado para ejecutarse en Googlebot siempre verde y el motor Chromium más reciente.

Esto es importante, ya que el rastreo y la representación son pasos necesarios que conducen a la indexación.

Cambio de prioridades en el proceso de Google

Con fines de indexación, Google solía rastrear con el Googlebot de escritorio. Eso ha sido cambiado; ahora usan el teléfono inteligente Googlebot con fines de indexación.

La indexación Mobile-First se impondrá a partir de julio de 2019 para todos los sitios nuevos y se implementará para todos los sitios existentes conocidos si aún no se han cambiado.

Rastreo: formas en que Google encuentra URL para indexar

Para poder indexar una página, Google tiene que rastrearla.

Como primer paso en el proceso que conduce a la indexación, para asegurarse de que sus páginas se indexen correcta y rápidamente, debe asegurarse de que su rastreo sea "seguro y sólido".

Básicamente, hay tres formas en que Google encuentra las URL:

Enlaces: en esto se basó toda la patente de PageRank: encontrar nuevos sitios a través de hipervínculos
Mapas de sitio XML
Rastreos pasados

– Cómo prioriza Google las URL (presupuesto de rastreo)

Google prioriza qué sitios rastrea y con qué frecuencia. Esto a menudo se denomina "presupuesto de rastreo".

Había un artículo en el blog para webmasters de Google sobre el presupuesto de rastreo que brindaba algunas ideas sobre cómo Google prioriza qué sitios rastrear.

– Popularidad: backlinks y PageRank

Uno de los puntos establecidos por este artículo es que PageRank es un factor principal detrás de la velocidad y el volumen de indexación de un sitio web.

Los vínculos de retroceso, por supuesto, son un componente importante del PageRank y, por lo tanto, influyen en la tasa de rastreo y la indexación.

– Códigos de estado

Los códigos de estado también se tienen en cuenta. Por ejemplo, si tiene muchas páginas 404 en su sitio, es probable que Google reduzca la frecuencia de los rastreos.

Otro ejemplo son las cadenas y bucles de redirección.

– Higiene del sitio

Si su sitio está organizado de una manera que desperdicia una gran cantidad de presupuesto de rastreo, Google podría reducir la cantidad de tiempo que pasa en su sitio.

– Velocidad de página y tiempo de respuesta del servidor

El presupuesto de rastreo también se vio afectado por la velocidad de la página y el tiempo de respuesta del servidor. Google no quiere DDoS su sitio; si ve que su servidor tiene dificultades para proporcionar páginas y recursos al ritmo que los solicita, se ajustará a lo que su servidor puede manejar en términos de rastreo.

Representación: actualización de cafeína

La actualización de Caffeine que salió hace unos años fue básicamente una actualización de la estructura de renderizado de Google.

Indexación: diferentes grupos para tipos de contenido

Hay diferentes archivos de índices que Google utiliza para devolver diferentes resultados. Es razonable imaginar que hay diferentes grupos en el índice para resultados de noticias, y otro para resultados de imágenes, etc.

Clasificación: Algoritmos separados

Finalmente, las URL indexadas se clasifican, pero este es un algoritmo totalmente diferente.

Mejora de la velocidad de indexación

Tanto obtener páginas indexadas más rápido como obtener más páginas indexadas están fuertemente influenciados por el PageRank y, por lo tanto, por los vínculos de retroceso. Pero las estrategias para mejorar cada uno son diferentes.

Si desea que las páginas se indexen más rápido, desea optimizar los dos primeros pasos (rastreo y procesamiento). Esto incluirá componentes como:

Enlace interno
Mapas del sitio
Velocidad del servidor
Velocidad de página

Mejorar el número de páginas indexadas

Si desea indexar más páginas, ahí es donde el aspecto de rastreo es más importante. Querrá que sea más fácil para Google encontrar todas sus páginas. Esto es simple en un sitio web pequeño con mil URL, pero es mucho más difícil en un sitio más grande con millones de URL.

Por ejemplo, G2 tiene un montón de páginas de diferentes tipos de páginas. El equipo de SEO de Kevin quiere asegurarse de que Google pueda encontrar todas las páginas, sin importar la profundidad de rastreo y sin importar cuántas páginas de ese tipo existan; Este es un desafío importante que debe abordarse desde diferentes ángulos.

Variación de las tasas de rastreo según el perfil de la página

Según el tipo de página, Kevin a menudo encuentra diferentes tasas de rastreo de Google. Esto a menudo depende del perfil de backlinks de la URL y de los enlaces internos. Aquí es donde encuentra el mayor uso de los archivos de registro.

Segmenta su sitio por tipo de página para comprender dónde el sitio carece de eficiencia de rastreo o dónde la eficiencia de rastreo es demasiado alta.

Relación entre la tasa de rastreo, la velocidad de indexación y el rango

Kevin ha observado correlaciones absolutamente definidas entre la tasa de rastreo, la velocidad de indexación y la clasificación para cada tipo de página. Esto ha sido cierto no solo en los sitios con los que ha trabajado, sino también en la correspondencia con otros SEO en la industria.

Sin postular una causalidad entre el rastreo, la indexación y la clasificación, los elementos similares que impulsan la indexación también parecen tenerse en cuenta cuando se trata de clasificar una página. Por ejemplo, si tiene una tonelada de vínculos de retroceso a una determinada plantilla de página para un tipo de página determinado (por ejemplo, páginas de destino), lo que encontrará en sus archivos de registro es que si Google tiene una tasa de rastreo más alta en estas páginas en su sitio, Google también indexa estas páginas más rápido y generalmente clasifica estas páginas más arriba que otras páginas.

Es difícil hacer declaraciones universales que sean válidas para todos los sitios, pero Kevin anima a todos a revisar sus archivos de registro para ver si esto también es cierto en su propio sitio. OnCrawl también descubrió que este es el caso en muchos sitios diferentes que han analizado.

Esto es parte de lo que trató de perfilar con el modelo TIPR de vinculación interna que ideó.

Medición de la tasa de rastreo

Para medir la tasa de rastreo, desea responder a la pregunta: ¿con qué frecuencia visita un determinado robot de Google una determinada URL?

Cómo "cortar y trocear" esta otra pregunta. A Kevin le gusta ver la cantidad de visitas de Googlebot semanalmente. También puede consultarlo diariamente o mensualmente.

– Centrarse en el antes/después

Más importante que el período que usa es observar los cambios en la frecuencia de rastreo. Debe consultar la tasa antes de realizar cambios y después de implementarlos.

– Centrarse en las diferencias entre los tipos de página

Otra clave para medir la tasa de rastreo es ver dónde están las brechas en tu sitio. A nivel de tipo de página, ¿dónde están las diferencias entre las tasas de rastreo? ¿Qué tipo de páginas se rastrean mucho? ¿Qué tipos de páginas apenas se rastrean?

– Observaciones comunes en el comportamiento de rastreo

Algunas observaciones interesantes que Kevin ha hecho en el pasado incluyen:

URL más rastreada: robots.txt
La mayor parte del tiempo dedicado a una URL/grupo de URL: mapas de sitio XML, especialmente cuando se vuelven un poco más grandes

Explorar los archivos de registro para encontrar diferencias en el comportamiento de rastreo entre los tipos de página es muy revelador. Busque qué URL se rastrean diariamente y qué URL se rastrean mensualmente. Esto puede decirle mucho sobre cuán eficiente es la estructura de su sitio para rastrear (e indexar, aunque hay un paso intermedio).

Distribución del presupuesto de rastreo basado en el modelo de negocio

Para mejorar la eficiencia del rastreo, la estrategia suele ser reducir la atención que Google presta a algunos tipos de páginas y redirigirla a páginas que son más importantes que el sitio web.

La forma en que desee manejar esto dependerá de cómo se manejen las conversiones en el sitio. Kevin distingue dos modelos de sitio básicos: modelos comerciales centralizados y descentralizados:

Los modelos descentralizados pueden convertir usuarios en cualquier página. Un buen ejemplo es Trello: puedes registrarte en cualquier página. Todos sus tipos de página son relativamente similares. Debido a que ninguna página es más valiosa que otra para los registros, el objetivo podría ser tener una tasa de rastreo uniforme en todo el sitio: quiere que todos los tipos de páginas se rastreen aproximadamente a la misma tasa.
Los modelos centralizados podrían ser algo como Jira. Jira no tiene un solo tipo de página que podamos replicar un millón de veces: solo hay unas pocas páginas de destino donde las personas pueden registrarse. Desea asegurarse de que su presupuesto de rastreo en un sitio como este se concentre en sus puntos de conversión (sus páginas de destino).

La forma en que desea que se distribuya su presupuesto de rastreo vuelve a la cuestión de cómo gana dinero su sitio y qué tipos de páginas juegan el papel más importante en eso.

Abordar el desperdicio de rastreo

Para evitar que los robots de Google gasten el presupuesto de rastreo en páginas que son menos importantes para las conversiones, existen varios métodos.

La mejor manera de omitir el rastreo es robots.txt:

En el 99,99999% de los casos, Google respeta las directivas de robots.txt.
Robots.txt puede ayudar a bloquear el rastreo en grandes secciones de su sitio con contenido reducido o duplicado (Ejemplos clásicos: perfiles de usuario en un foro; URL de parámetros...)

Hay casos legítimos en los que es posible que desee que una página no se indexe, pero que aún así ayude con el rastreo. Kevin consideraría que algunas páginas centrales entran en esta categoría. Aquí es donde usaría un meta noindex.

Reconoce que John Mueller ha dicho que las etiquetas meta noindex finalmente se tratan como nofollow, pero hasta ahora Kevin nunca ha visto que esto suceda en el terreno. Admite que esto podría deberse a que lleva mucho tiempo (más de un año o más). En cambio, tiende a encontrar que los robots de Google son "codiciosos" y buscan y siguen tantos enlaces como pueden.

El consejo de Kevin es usar robots.txt y usarlo en toda su extensión. Puede usar comodines y algunas técnicas muy sofisticadas para evitar que ciertas cosas sean rastreadas.

La regla general a seguir es que cuanto más delgado sea el contenido, más probable es que sea un candidato para excluir del rastreo.

Google aún puede indexar las páginas excluidas del rastreo a través de robots.txt si tienen enlaces internos o backlinks que apuntan a ellas. Si esto sucede, el texto de descripción en los resultados de búsqueda mostrará que Google no pudo rastrear la página debido a una restricción en robots.txt. Sin embargo, en general, estas páginas no obtienen una clasificación alta a menos que hayan sido excluidas recientemente en robots.txt.

Problemas de indexación debido a páginas similares

– Errores canónicos

Programáticamente, las declaraciones canónicas son extremadamente fáciles de equivocar. Kevin ha visto el caso varias veces en el que el canónico ha tenido un punto y coma (;) en lugar de dos puntos (:) y luego te encuentras con muchos problemas.

Los canónicos son muy sensibles en algunos casos y pueden hacer que Google desconfíe de todos sus canónicos, lo que puede convertirse en un gran problema.

Sin embargo, uno de los problemas más comunes con las canónicas son las canónicas olvidadas.

– Migraciones de sitio

Las migraciones de sitios suelen ser una fuente de problemas con las canónicas; Kevin ha visto problemas en los que el sitio simplemente se olvidó de agregar el nuevo dominio a los canónicos.

Esto es extremadamente fácil de olvidar, especialmente cuando su CSM necesita un ajuste manual (en lugar de mediante programación) para realizar el cambio durante una migración.

La configuración predeterminada es que el canónico de una página debe apuntar a sí mismo, a menos que haya una razón específica para apuntar a otra URL.

– HTTP a HTTPS

Este es otro error canónico común que impide que se indexe la URL correcta. El protocolo incorrecto a veces se usa en el canónico.

– Encontrar fuente de error cuando Google ignora el canónico declarado

Google a veces elige su propia canónica. Cuando desconfían de tu canónica declarada, generalmente hay una causa raíz.

Kevin sugiere evitar situaciones en las que podría estar enviando dos señales contradictorias a Google:

Mire sus mapas de sitio XML
Rastrea tu propio sitio y busca canónicas defectuosas
Mire la configuración de parámetros en su consola de búsqueda para encontrar configuraciones en conflicto
No uses noindex y canonicals al mismo tiempo

Tipos de páginas que contribuyen a la hinchazón del índice

En SEO hace diez años, querías enviar tantas páginas como fuera posible para indexarlas: cuantas más páginas indexadas, mejor.

Hoy en día, ese ya no es el caso. Solo quieres cosas de la más alta calidad en tu tienda. No desea ningún contenido deficiente en el índice.

"Índice hinchado" generalmente se usa para describir un tipo de página que no proporciona ningún valor. Esto a menudo vuelve a cualquier tipo de contenido delgado, particularmente en los casos en los que multiplica o amplía la cantidad de páginas existentes sin proporcionar un valor sustancial en cada página nueva.

Los casos clásicos en los que es posible que desee ver cuántos de un tipo específico de página están indexados y si proporcionan un valor adicional incluyen:

Parámetros
Paginación
Foros
Páginas relacionadas con el directorio o páginas de entrada
Extensas páginas locales (ciudad) que no diferencian entre servicios o contenido
Navegaciones facetadas

Cómo afecta la indexación a un sitio en su conjunto

No desea tener páginas insatisfactorias indexadas hoy porque afectan la forma en que Google ve y califica su sitio en su conjunto.

Gran parte de esto se debe al presupuesto de rastreo. Si bien Gary Illyes y John Mueller han dicho a menudo que la mayoría de los sitios no necesitan preocuparse por el presupuesto de rastreo, la audiencia para el tipo de discusión que estamos teniendo hoy son sitios más grandes donde hace una gran diferencia.

Desea asegurarse de que Google solo encuentre contenido de alta calidad.

Al igual que la relación que Kevin observa entre la tasa de rastreo, la indexación y la clasificación, también observa que prestar atención a la calidad de las páginas indexadas parece dar buenos resultados para todo el sitio. Si bien es difícil hacer declaraciones universales, parece que Google tiene algún tipo de métrica de calidad del sitio que depende de las páginas indexadas para ese sitio. En otras palabras, si tiene mucho contenido de baja calidad indexado, parece dañar su sitio.

Aquí es donde la hinchazón del índice es perjudicial: es una forma de diluir o reducir la "puntuación" de calidad general de su sitio y desperdicia su presupuesto de rastreo.

Sitemaps XML para una indexación rápida

La opinión de Kevin es que a medida que Google se ha vuelto más inteligente, la cantidad de "pirateos" se ha reducido con el tiempo.

Sin embargo, sobre el tema de la indexación, descubrió que una forma de indexar algo rápidamente es usar un mapa del sitio XML.

Recientemente, G2 migró a un nuevo dominio. Tienen un tipo de página que tarda mucho tiempo en volver a rastrearse, por lo que en el índice de Google todavía ve el dominio antiguo en los fragmentos de páginas de este tipo. Cuando Kevin vio que las redirecciones 301 no se tenían en cuenta porque aún no se habían rastreado, colocó todas las páginas de este tipo en un mapa del sitio XML y proporcionó el mapa del sitio a Google en la consola de búsqueda.

Esta estrategia también se puede usar si hay un gran cambio técnico en el sitio que Kevin quiere que Google entienda lo más rápido posible.

Protagonismo creciente del SEO técnico

El SEO técnico ha ganado protagonismo en los últimos tres años. Muchas veces, las preguntas técnicas de SEO resaltan áreas que están realmente subestimadas.

A menudo escuchas que el contenido y los backlinks son las únicas cosas que debes cuidar. Si bien Kevin cree que estos son campos de SEO muy impactantes, cree que pueden tener un impacto aún mayor si ha hecho bien su SEO técnico.

[Ebook] Rastreabilidad

Asegúrese de que sus sitios web cumplan con los requisitos de los motores de búsqueda para la capacidad de rastreo para aumentar el rendimiento de SEO.

Leer el libro electrónico

Preguntas y respuestas

– Bing e indexación 10.000 URLs/día

Bing ofrece a los webmasters la posibilidad de enviar directamente hasta 10 000 URL por día a través de sus herramientas para webmasters para una indexación más rápida.

Kevin cree que esta es una dirección en la que también se puede dirigir Google. Incluso Google, como una de las empresas más valiosas del mundo, tiene que salvaguardar sus recursos. Esta es una de las razones por las que, si desperdicia sus recursos de rastreo, se ajustarán en consecuencia.

Si este tipo de función vale la pena o no para los webmasters también dependerá del tamaño de su sitio. La cantidad de sitios que se beneficiarían de poder enviar tantas URL por día es limitada, probablemente en miles o decenas de miles. Kevin supone que para estos sitios, Google ya dedica recursos significativos. Parece que para los sitios más grandes en la web, Google hace un trabajo decente al indexarlos, con las excepciones habituales, por supuesto.

Es probable que sea mucho más fácil para Bing implementar algo a esta escala: por un lado, su cuota de mercado es mucho menor, por lo que la demanda de esta función es menor. El tamaño de su índice también es probablemente mucho más pequeño, por lo que probablemente se beneficiarán más.

– Cuando Google ignora robots.txt

Google rara vez ignora robots.txt.

A veces, lo que nos lleva a suponer que Google está ignorando robots.txt es que, como mencionamos antes, Google a veces puede indexar páginas que están bloqueadas por robots.txt, que aún se pueden encontrar de muchas otras maneras.

También puede hacer que Google ignore las directivas en su archivo robots.txt si su sintaxis en el archivo robots.txt es incorrecta:

Caracteres erróneos
Uso de etiquetas que no funcionan o no deberían funcionar, como directivas noindex

[Nota: Kevin cita un estudio de caso que descubrió que Google respetaba las directivas noindex presentadas en el archivo robots.txt. Sin embargo, poco después de la emisión de este seminario web, Google anunció el fin del soporte tácito para esta directiva en los archivos robots.txt, a partir del 1 de septiembre de 2019.]

Sin embargo, Google es una de las empresas que mantiene sus bots en un alto nivel y no ignora robots.txt.

Consejo superior

“PageRank es el principal impulsor detrás de la velocidad y el volumen de indexación”.

SEO en órbita fue al espacio

Si te perdiste nuestro viaje al espacio el 27 de junio, míralo aquí y descubre todos los consejos que enviamos al espacio.