Técnicas de encubrimiento SEO a evitar en 2011

Publicado: 2011-01-27

El jefe de Google Web Spam, Matt Cutts, se alejó de Ozzie y Emmy (The Matt Cutts "Catts") a fines de 2010 para publicar un pequeño dato para webmasters y SEO a través de Twitter, que estoy seguro se sumó a las resacas. para algunos Black Hats durante la temporada navideña.

Google [mirará] más el encubrimiento en el primer trimestre de 2011. No solo importa el contenido de la página; evite diferentes encabezados/redireccionamientos a Googlebot en lugar de usuarios.

El encubrimiento es la técnica utilizada para presentar contenido, diseño, funcionalidad o encabezados diferentes (una página completamente diferente o componentes parciales de la página, conocidos como encubrimiento de mosaico) a una araña de motor de búsqueda que al navegador web de un usuario.

El encubrimiento ético no es un “sombrero negro”, sin embargo, en el pasado los spammers han utilizado métodos para manipular las técnicas de encubrimiento, para mayor claridad, nos referiremos a él como encubrimiento-spam, para jugar con el algoritmo (de Google). Esto no es un nuevo fenómeno. Al principio, los spammers abusaron de la metaetiqueta de palabras clave y, como resultado, ahora ya no es un factor de clasificación y la etiqueta <noscript> también puede ser tratada con cierta sospecha, ya que también se ha abusado de ella en el pasado (quizás deberíamos abrir un refugio para elementos HTML abusados….)

En primer lugar, permítanme decir que, si es posible, EVITE ENCUBRIR. El encubrimiento es un ejercicio de alto riesgo que, si debe implementarse, debe hacerse de la manera ética adecuada, siguiendo las Directrices para webmasters de Google, para garantizar que su sitio web no sea penalizado o eliminado del índice.

Desafortunadamente, es posible que algunos webmasters no entiendan las repercusiones y, sin darse cuenta, oculten contenido, enlaces o sitios web completos sin siquiera darse cuenta. Este artículo describe algunas de las funciones comunes en el sitio que pueden interpretarse (mal) como spam de encubrimiento.

Tenga en cuenta que Google está investigando activamente instancias de encubrimiento de spam y prohibiendo sitios web de su índice. También están haciendo un seguimiento de la detección de encubrimiento y enlaces no naturales con notificaciones a los webmasters a través de Webmaster Tools. Google ahora está mejorando cada vez más en la detección algorítmica de spam encubierto, incluso la entrega de IP no es infalible y, por supuesto, Google siempre alienta a su competencia a usar el informe de spam si detectan algo sospechoso en su página.

La identificación algorítmica del spam de encubrimiento requiere que un motor de búsqueda compare una sola página web obtenida a través de dos o más mecanismos (por ejemplo, dos o más rangos de IP, identificadores de agente de usuario o diferentes niveles de funcionalidad HTML/JavaScript). Microsoft tiene una patente presentada a fines de 2006 que reclama un sistema que facilita la detección de una página web encubierta.

Naturalmente, esto lleva a la pregunta, ¿cómo podría un motor de búsqueda recopilar y analizar los dos ejemplos de una página web para compararlos? Algunos métodos pueden incluir:

  • Diferenciación parcial del contenido mediante análisis de temas de contenido, segmentación de páginas, análisis semántico latente (LSA), uso de palabras clave, enlaces en la página y otros factores en la página
  • Direcciones IP diferentes/ rangos de IP separados o proxies para analizar el spam web
  • Diferentes agentes de usuario (por ejemplo, use un agente de usuario del navegador para verificar el contenido encubierto)
  • Informes de spam de la comunidad de webmasters
  • Pruebas de usuario
  • Análisis de más de 5 redirecciones encadenadas para verificar si hay encubrimiento (quizás limitando la indexación y el flujo de PageRank, autoridad, confianza, etc., a través de 5 redirecciones encadenadas)
  • Interpretación mejorada del código JavaScript (evaluando específicamente funciones JavaScript complejas y/o codificadas que contienen enlaces o redireccionamientos)
  • Mecanismo para aceptar cookies (potencialmente junto con JavaScript y el análisis de redirección anterior)

Por supuesto, la recopilación de datos podría subcontratarse a una empresa separada para evitar el problema de la entrega de IP.

Hay casos en los que una empresa puede desear proporcionar información diferente o adicional a sus usuarios. Por ejemplo:

  • Geo localización
  • Usuarios registrados (experiencia de página de inicio personalizada, etc.)
  • Seguimiento de referencias: por ejemplo, proporcione comentarios al usuario en función de su consulta en el motor de búsqueda, como resaltar las palabras en una página que coincidan con la consulta.
  • Encubrimiento de dispositivos para teléfonos móviles y dispositivos táctiles
  • Optimización para navegadores específicos o para compatibilidad con versiones anteriores
  • Optimización de visualización (aunque esto generalmente se puede controlar a través de CSS)
  • Primer clic gratis – O primeros cinco clics gratis
  • Pruebas A/B o multivariantes
  • URL mnemónicas (encubrimiento de enlaces)
  • Mostrar verificación de edad (www.bacardi.com utiliza una combinación de detección de agente de usuario y cookies para mostrar una página de bienvenida de verificación de edad a los usuarios, pero permite que los motores de búsqueda accedan al sitio web. Aunque Google solo tiene 14 años)
  • Balanceo de carga
  • Reemplazo de fuentes (a través de tecnología como sIFR o Cufon) – Nota: Puede, pero no es óptimo para Google Preview (a partir de diciembre de 2010)
  • Objeto SWFO

Asegúrese de tener en cuenta las implicaciones de SEO al utilizar cualquiera de los métodos o funciones mencionados anteriormente, ya que una configuración incorrecta puede resultar en encubrimiento de spam o puede no ser óptimo para SEO.

Bien, este no es un tutorial sobre cómo encubrir; es una "lista de no-no-spam de encubrimiento de 2011" o, al menos, un aviso de técnicas para evitar o problemas para solucionar a principios de 2011.

Algunas formas de encubrimiento son deliberadas (como la entrega de IP o el encubrimiento del agente de usuario); sin embargo, muchas formas de encubrimiento-spam pueden ser accidentales. Los tipos accidentales de encubrimiento-spam que inadvertidamente lo expulsan de Google son motivo de gran preocupación, ya que es posible que el webmaster no esté al tanto del problema. Incluso las grandes empresas se equivocan a veces.

A continuación, investigaremos algunas de las técnicas de encubrimiento de spam más comunes para educar y garantizar que los webmasters y los SEO puedan asegurarse de que no los tengan en su sitio web.

Por lo general, hay tres formas en que los webmasters ocultan el contenido de los usuarios o de los motores de búsqueda:

  1. IP-entrega
  2. Análisis de agente de usuario (puede verificar el encubrimiento de agente de usuario utilizando el verificador de encubrimiento SEO gratuito de Bruce Clay.
  3. Explotar comportamientos de motores de búsqueda conocidos, como la ejecución de JavaScript o redireccionamientos, y la indexación o la capacidad de araña de varios elementos HTML.

Entregar diferentes contenidos en función de la dirección IP del navegador web solicitante o la araña del motor de búsqueda. [La entrega de IP se cubre con más detalle aquí.]

DNS inverso y DNS reenviado

Las búsquedas de DNS inverso y DNS directo no son una forma de encubrimiento, pero se pueden usar para consultar los registros DNS de una dirección IP solicitante. Google proporciona detalles sobre cómo verificar que Googlebot es quien dice ser.

Entregar contenido diferente basado en el agente de usuario del navegador web solicitante o la araña del motor de búsqueda. Por ejemplo, Googlebot/2.1 (+http://www.google.com/bot.html) o Mozilla/5.0 (Windows; U; MSIE 7.0; Windows NT 6.0; en-US)

Google puede indexar una página que contiene JavaScript, pero puede que no siga la redirección de JavaScript; sin embargo, estamos viendo mejoras significativas en la interpretación de Google del código JavaScript (por ejemplo, el >generador de vista previa de Google representa JavaScript, AJAX, CSS3, marcos e iframes).

Los webmasters a veces usan redireccionamientos de JavaScript cuando no pueden implementar un redireccionamiento del lado del servidor, dejando inadvertidamente a Googlebot en la primera página y enviando el navegador web (que sigue el redireccionamiento de JavaScript) a una segunda página que contiene contenido diferente y, por lo tanto, se marca como spam de encubrimiento.

Busque el siguiente código:

<script type="text/javascript"> ventana.ubicación="http://www.yoursite.com/segunda-página.html" </script>

Una etiqueta agregada a la sección principal en la página HTML para redirigir a los usuarios a otra página después de un período determinado. La metaetiqueta de actualización no se considera encubrimiento cuando se usa sola; sin embargo, puede combinarse con JavaScript, marcos u otras técnicas para enviar a un usuario a una página diferente a las arañas del motor de búsqueda.

Busque el siguiente código:

<meta http-equiv="refresh" content="0;url=http://www.yoursite.com/segunda-pagina.html">

Meta actualizaciones dobles o múltiples o encubrimiento de referentes

Se pueden usar múltiples meta actualizaciones para ocultar la referencia de los sitios web afiliados. Evite encadenar múltiples redireccionamientos de cualquier tipo, ya que puede tener un impacto negativo en el SEO e incluso puede ir en contra de los términos de servicio (TOS) de sus socios afiliados.

Meta actualización en JavaScript o la etiqueta <noscript>

OK, ahora estamos entrando en los reinos del "sombrero negro". Es poco probable que un webmaster combine una actualización meta con JavaScript a menos que no tengan buenas intenciones.

Esto es fácil de detectar para un motor de búsqueda. no lo hagas

Es posible que los motores de búsqueda no sigan varios redireccionamientos encadenados (según las pautas de la especificación HTML, el número recomendado se estableció en 5 redireccionamientos). Google puede seguir alrededor de 5 redireccionamientos encadenados. Los navegadores web pueden seguir más.

Múltiples redireccionamientos consecutivos (especialmente la combinación de diferentes tipos de redireccionamientos 301, 302, meta actualización, JavaScript, etc.) afectan los tiempos de carga de la página, pueden afectar el flujo de PageRank (incluso los redireccionamientos 301 pueden ver una disminución de PageRank) y podrían considerarse encubrimiento. correo no deseado.

No pude encontrar ningún dato sobre cuántos redireccionamientos seguirá un navegador web, así que creé un script de redireccionamiento encadenado rápido para probar algunos de los navegadores instalados en mi máquina y proporcionar algunas estadísticas sobre el número aproximado de redireccionamientos seguidos (por tipo de redireccionamiento) . Limité el script a un máximo de 5000 redirecciones encadenadas.

Navegador web Versión Número aproximado de redireccionamientos 301 Número aproximado de redireccionamientos 302 Número aproximado de redireccionamientos de Meta Refresh Número aproximado de redirecciones de JavaScript
Google Chrome 8.0.552.224 21 21 21 Mayor que 5000
(límite desconocido)
explorador de Internet 8.0.6001.18702IC 11 11 Mayor que 5000
(límite desconocido)
Mayor que 5000
(límite desconocido)
Mozilla Firefox 3.5.16 20 20 20 Mayor que 3000
(límite desconocido, ya que el navegador se detuvo después de 3000 redireccionamientos JS)
Safari 3.1.2 (525.21) dieciséis dieciséis Mayor que 5000
(límite desconocido)
Mayor que 5000
(límite desconocido)

Mientras se escribía el script, pensamos en ejecutar una prueba adicional y enviar la URL de redirección a Google. También enlazamos al guión de Twitter. Los resultados están en la siguiente tabla.

Buscador IP del host del agente de usuario Número aproximado de 301 redireccionamientos seguidos
Microsoft *Supuesto basado en el rango de IP
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)
65.52.17.79 25
Google
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
66.249.68.249 5
yahoo
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
67.195.111.225 4
Gorjeo
Twitterbot/0.1
128.242.241.94 3
LinkedIn
LinkedInBot/1.0 (compatible; Mozilla/5.0; Jakarta Commons-HttpClient/3.1 +http://www.linkedin.com)
216.52.242.14 1
PostRank
PostRank/2.0 (postrank.com)
204.236.206.79 0

Aunque Googlebot solo rastreó 5 de los redireccionamientos permanentes en este caso, puede ser justo suponer que Google puede implementar una verificación basada en el rastreo para probar los redireccionamientos más allá del límite de 5 bots de redireccionamiento en una línea similar a la de Microsoft, que sigue aproximadamente 25 redireccionamientos encadenados. Nota: asumimos que esta es una IP propiedad de Microsoft basada en la información IP Whois de Domain Tools.

Los marcos permiten a un webmaster incrustar otro documento dentro de una página HTML. Tradicionalmente, los motores de búsqueda no han sido buenos para atribuir el contenido enmarcado a la página principal, lo que permite que un webmaster evite que los motores de búsqueda vean parte o la totalidad del contenido de una página.

Los marcos y los iFrames son elementos HTML legítimos (aunque a menudo no son las mejores prácticas desde el punto de vista de SEO), sin embargo, también se pueden combinar con otras técnicas para engañar a los usuarios.

Marcos con una redirección de JavaScript

Incrustar un marco con una redirección de JavaScript puede dejar las arañas de los motores de búsqueda en la primera página y redirigir furtivamente a los usuarios con JavaScript habilitado a la segunda página "oculta".

No puedo pensar en una razón legítima de "sombrero blanco" por la que elegirías usar esto. Puede resultar en una penalización o una prohibición. Verifique el código fuente de sus documentos enmarcados, elimine este código o implemente una redirección compatible con SEO adecuada.

La etiqueta <noscript> se diseñó para proporcionar un equivalente sin JavaScript para el contenido de JavaScript, de modo que los navegadores y motores de búsqueda de solo texto pudieran interpretar formas de contenido más avanzadas. La etiqueta <noscript> puede ser tratada con cierta sospecha ya que los spammers la han abusado en el pasado.

Cree la funcionalidad de JavaScript/AJAX teniendo en cuenta la mejora progresiva para que el contenido sea adecuado para todos los usuarios y no requiera el uso de la etiqueta <noscript>. Si su sitio web usa la etiqueta <noscript> y no puede actualizar el código, asegúrese de que cualquier texto, enlace e imagen dentro de la etiqueta <noscript> describa con precisión el contenido de JavaScript, AJAX o Flash que representa de manera precisa, clara y concisa. manera.

Si la página o el sitio web infractores tienen problemas de indexación, considere revisar el código <noscript> como parte de una auditoría exhaustiva de SEO del sitio web.

Las redes de distribución de contenido (CDN) permiten a las empresas distribuir su contenido estático en varias ubicaciones geográficas para mejorar el rendimiento para los usuarios finales. Dependiendo de la configuración de CDN, hay varias formas de enrutar la solicitud del cliente a la mejor fuente disponible para servir el contenido. Los CDN son un área compleja, generalmente implementada por empresas globales que necesitan brindar contenido a los usuarios en el menor tiempo posible.

Si está utilizando una CDN, asegúrese de que permita que un motor de búsqueda acceda al mismo contenido e información que ven los usuarios y asegúrese de que no haya nada que un motor de búsqueda pueda malinterpretar como engañoso.

Los piratas informáticos han utilizado exploits en CMS comunes para dirigir el tráfico a sitios web de terceros menos éticos. Un ejemplo es WordPress Pharma Hack, que usó el encubrimiento para presentar contenido relacionado con productos farmacéuticos a los motores de búsqueda, pero ocultó ese contenido al webmaster.

Asegúrese de que su CMS, servidor web y software del sistema operativo estén ejecutando las últimas versiones y que estén protegidos. Algunas de las vulnerabilidades más comunes son contraseñas deficientes, software o scripts no seguros, empleados descontentos y trucos de ingeniería social.

Los encabezados HTTP envían información adicional sobre la página solicitada a la araña del motor de búsqueda o al navegador web. Por ejemplo, el estado de la página, información de caducidad/caducidad, información de redirección, etc.

Enviar diferentes encabezados a un motor de búsqueda para engañar puede resultar en una penalización. Por ejemplo, no funcionará reemplazar el buen contenido en una página de alto rango con un formulario de registro y alterar los encabezados de caducidad y/o control de caché en un intento de engañar a los motores de búsqueda para que mantengan la versión de alto rango con el buen contenido.

Googlebot puede descargar periódicamente el contenido independientemente de los encabezados de control de caducidad y caché para verificar que el contenido no haya cambiado.

Puede verificar el estado de los encabezados de respuesta de su servidor utilizando una de nuestras herramientas gratuitas de SEO.

Para citar a Google:

“Las páginas de entrada suelen ser grandes conjuntos de páginas de baja calidad donde cada página está optimizada para una palabra clave o frase específica. En muchos casos, las páginas de entrada se escriben para clasificar una frase en particular y luego canalizar a los usuarios a un solo destino”.

Fuente: http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=66355

Matt Cutts tiene una diatriba sobre las páginas de Doorway aquí.

Las herramientas de prueba de múltiples variables, como el Optimizador de sitios web de Google, le permiten mejorar la eficacia de su sitio web al probar los cambios en el contenido y el diseño de su sitio web para mejorar las tasas de conversión (u otras métricas importantes medidas).

Sin embargo, las pruebas de múltiples variables son un uso ético del encubrimiento, según Google:

“Si encontramos un sitio que ejecuta una sola combinación no original al 100% durante varios meses, o si la página original de un sitio está cargada con palabras clave que no se relacionan con las combinaciones que se muestran a los visitantes, podemos eliminar ese sitio. de nuestro índice”.

No necesariamente encubrimiento-spam per se, sino una técnica de cebo y cambio, que redirige 301 dominios no relacionados (por lo general, dominios que están a la venta o han expirado pero aún tienen PageRank o enlaces externos significativos) a un dominio malicioso o no relacionado sobre un tema completamente diferente. .https://www.youtube.com/watch?v=70LR8H8pn1Mhttps://searchengineland.com/do-links-from-expired-domains-count-with-google-17811

Esto es engañoso para los usuarios, ya que pueden estar esperando un sitio web diferente y pueden pasar un texto de anclaje no relacionado a su dominio.

Además, no espere crédito por registrar dominios vencidos con enlaces externos con la esperanza de una promoción de relaciones públicas o enlaces.

Históricamente, los motores de búsqueda se han esforzado por interpretar e indexar el contenido Flash de manera efectiva, pero están mejorando todo el tiempo.

Los webmasters tenían que considerar a los usuarios y motores de búsqueda que no tenían navegadores habilitados para Flash y crearon un sitio web HTML estándar "detrás de escena" para los motores de búsqueda, usaron una etiqueta <noscript>, JavaScript o un método similar para indexar su contenido textual. Desafortunadamente, esto puede ser identificado inadvertidamente como encubrimiento por los motores de búsqueda si el contenido indexado del contenido Flash no coincide con el contenido textual.

Construir un sitio web completo en Flash todavía no es una buena idea desde una perspectiva de SEO; sin embargo, si tiene algún contenido Flash, considere implementar SWFObject o una técnica similar para garantizar que Flash se degrade correctamente tanto para los usuarios como para los motores de búsqueda.

Popover divs y anuncios por sí solos no son encubrimiento. Cuando los anuncios intersticiales o los divs emergentes no se pueden cerrar (por ejemplo, a menos que el usuario se registre), es posible que esté presentando contenido a los motores de búsqueda y un formulario de registro para sus usuarios.

Asegúrese de que los usuarios puedan cerrar u omitir anuncios intersticiales, ventanas emergentes, ventanas emergentes, div superpuestos, cajas de luz, etc. y ver el contenido disponible.

AJAX (JavaScript asíncrono y XML) es una forma de JavaScript que permite que una página web recupere contenido dinámico de un servidor sin recargar una página. Se ha vuelto muy popular en los últimos años y, a menudo, se usa (en exceso) en muchas aplicaciones Web 2.0.

AJAX se puede usar de manera engañosa para presentar contenido diferente a un usuario y un motor de búsqueda. No lo haga.

Además, la otra cara de la moneda, en un enfoque de "encubrimiento negativo", el usuario puede ver el contenido, pero un motor de búsqueda no lo hará, ya que no puede ejecutar las llamadas de JavaScript que recuperan el contenido dinámico del servidor. Algo para comprobar.

Muchas de las técnicas descritas en este artículo pueden combinarse, cortarse o manipularse en un intento inútil de engañar a los motores de búsqueda.

Un ejemplo de ello es la combinación de JavaScript y cookies para encubrir el contenido. Si la función de JavaScript no puede escribir o leer una cookie (como la araña de un motor de búsqueda), muestre un contenido diferente al de un usuario estándar con las cookies habilitadas. También hay algunos ejemplos de secuencias de comandos JQuery que permitirán que una persona sin escrúpulos haga esto.

El encubrimiento de enlaces se refiere a enviar a un usuario a una URL diferente a la que hizo clic mediante una redirección de algún tipo. Las redirecciones se pueden usar para bien y para mal, como hemos visto anteriormente. El encubrimiento de enlaces se usa a menudo con fines analíticos o de mantenimiento. Hay una serie de razones prácticas para hacer esto, por ejemplo:

  • Para mantener un enlace a un afiliado dentro de una aplicación o PDF sindicado. Usar una URL mnemónica similar y redirigir arriba para garantizar que, si el afiliado actualiza su estructura de URL, usted puede actualizar la redirección en la URL mnemónica y, por lo tanto, asegurarse de que los enlaces en el libro electrónico y el contenido sindicado sigan funcionando.
  • URL mnemónicas utilizadas en material publicitario y de marketing que son más fáciles de recordar que la versión estándar de la URL

Por supuesto, esto puede usarse para inducir a error y engañar, como disfrazar un enlace de afiliado (p. ej., reemplazar el enlace con http://mysite.com/vanity-url y redirigirlo a http://affiliate.com/offer.html ?=mi-código-de-afiliado).

Modificar el texto de anclaje o los atributos del enlace con JavaScript o un mecanismo similar para engañar o engañar a los usuarios. Esta es una forma de encubrimiento que solo modifica un pequeño componente de la página para engañar a un usuario.

  • Secuestro del evento onClick para enviar a un usuario a una URL diferente a los motores de búsqueda
  • Agregar un atributo rel=”nofollow” a los enlaces que se muestran en los motores de búsqueda y eliminarlo del código que se muestra a los usuarios
  • Modificar el texto de anclaje de los enlaces para incluir palabras clave en el texto de anclaje enviado a los motores de búsqueda y mostrar algo diferente a los usuarios.

Evite el secuestro de enlaces para engañar a los usuarios, ya que puede resultar en sanciones del motor de búsqueda o prohibir su sitio web.

Existen formas éticas de esta técnica para garantizar que tanto los usuarios como los motores de búsqueda puedan ver su contenido AJAX usando HiJAX como se recomienda en el blog de Google.

Ocultar texto va en contra de los TOS de Google y las Directrices para webmasters. Es una forma de encubrimiento ya que un motor de búsqueda puede ver el contenido textual pero un usuario no. Evite los siguientes tipos de texto oculto:

  • Texto imperceptible en el fondo (por ejemplo, gris oscuro sobre negro)
  • Establecer el tamaño de fuente en 0
  • Diseñar el texto de anclaje rico en palabras clave como el texto del cuerpo estándar para que los usuarios no se den cuenta de que es un enlace
  • Visualización de hojas de estilo en cascada (CSS): ninguna
  • Texto detrás de las imágenes. Siempre es un tema complicado y, a menudo, abierto a debate entre los SEO. Si el texto detrás de la imagen es una representación precisa y justa de una imagen (por ejemplo, un encabezado con una fuente personalizada), "debería estar bien" para citar a Matt Cutts. La solución final dependerá de sus circunstancias particulares; sin embargo, consulte estos recursos para obtener orientación: W3C: uso de CSS para reemplazar texto con imágenes, Farner Image Replacement (FIR), Scalable Inman Flash Replacement (sIFR) (tenga en cuenta que el texto reemplazado por sIFR puede no aparecen en Google Preview a partir de diciembre de 2010).

Si el tráfico de los motores de búsqueda es importante para usted, asegúrese de considerar lo siguiente con respecto al encubrimiento:

  • Asegúrese de estar familiarizado con las formas obvias y no tan obvias de encubrimiento anteriores y sepa cómo se utilizan en su sitio para evitar posibles sanciones.
  • Si está implementando alguna forma de encubrimiento, asegúrese de revisarlo correctamente desde una perspectiva de SEO para evitar posibles sanciones.