Origen del contenido duplicado

Según el análisis de muchos SEO’s, uno de los motivos por los cuales muchos sitios web han sido penalizados por Google últimamente (ver cambios en Google), es el ajuste de los filtros de contenido duplicado o DC (por sus siglas en inglés: duplicate content).

En los últimos meses Google ha estado trabajando intensamente en luchar contra el spam en el motor de búsqueda y ha estado aplicando diferentes filtros, como el de antigüedad, el SandBox, de catálogos, y el de contenido duplicado.

Una posibilidad de comprobar si una pagina tiene contenido duplicado es usando la herramienta copyscape . También se pueden buscar pasajes de texto de la pagina a controlar directamente en Google, colcandolos entre comillas.

Los motivos para que se genere un contenido doble son diversos y pueden ser involuntarios, motivados o por plagio.

Las principales fuentes de origen del contenido duplicado son:

1. Páginas canónicas
Este es generalmente un error del servidor Web. La página puede ser visible tanto desde la url http://www.mi-dominio.com como http://mi-dominio.com. Si es que los robots de google indexan al sitio con las dos diferentes direcciones, tarde o temprano Google penalizará a una de ellas.

Una posibilidad de evitar este tipo de contenido duplicado es redireccionar http://mi-dominio.com a la dirección estándar. Esto se puede hacer en el archivo .htaccess de la siguiente forma:
RewriteEngine On
RewriteCond %{HTTP_HOST} !^www\.mi-dominio\.com$
RewriteRule ^(.*)$ http://www. mi-dominio.com/$1 [L,R=301]

2. Shops
Los sitios que contienen shops tienen siempre una estructura similar y son muy parecidos a los catálogos web ya que son simplemente una colección de links. Por otra parte estos shops generalmente sacan la descripción de los productos directamente del fabricante o de la base de datos de los afiliados. De esta manera aparecen cientos de paginas con el mismo contenido ofreciendo el mismo producto.

Otra fuente de contenido duplicado es la presentación de diferentes modelos de un producto. En este caso las páginas varían muy poco, posiblemente solo por el número del producto.

Una forma de evitar el contenido duplicado seria usar solamente descripciones propias y colocar en cada página información adicional para evitar la similitud con otras páginas.

3. Cambios en la estructura del sitio
Muchas veces uno desea cambiar la estructura de las páginas del sitio, por ejemplo cambiando las url con variables a nombres estáticos con la ayuda de mod_rewrite. En este caso Google tiene las páginas antiguas y los robots las leen con los nuevos nombres. De esta manera se puede generar contenido duplicado.

Por este motivo, antes de hacer algún cambio de este tipo se debe estudiar a detalle las posibles consecuencias y tratar de evitar la generación de contenido duplicado. Una posibilidad seria redireccionar (301) las páginas con variables a las url’s estáticas o devolver simplemente un error 404 (page not found).

4. Plagio
Muchas veces la competencia copia pasajes o páginas enteras con el único fin de poder posicionarse mejor en los buscadores.

En este caso se debe contactar primeramente al webmaster de la página que ha plagiado el contenido y conminarlo a que la quite de su web. En otros casos también se podría recurrir al camino de los abogados.

Otra posibilidad seria refrescar el contenido plagiado y así mejorar nuevamente el propio sitio. El riesgo que se corre aquí, es que después de algún tiempo este nuevo contenido aparezca nuevamente en otras webs.

4 Respuestas a Origen del contenido duplicado

  1. pepe ramos 30/3/2007 a 05:19 #

    En nuestra página nosotros fabricamos contenido con personal de la empresa.¿Qué sucede cuando se trata de un contenido dignamente comprado por un tercero, también perjudicará Google a ése tercero, lo hará a nosotros o a los dos?
    En cualquier caso, quisiera saber cómo Google es capaz de distinguir el contenido original del contenido copiado. Perdón mi desconocimiento pero no lo sé.
    Me parece muy importante que los editores web, webmasters y demás conozca las penalizaciones, no vaya a ser que alguien con buena voluntad sea penalizado.
    Existe mucha confusión, incluso entre los profesionales del sector, ya sean SEO, programadores..

  2. Max Glaser 30/3/2007 a 10:47 #

    Pepe:
    Google no puede reconocer si el contenido es comprado legalmente.

    Por eso, posiblemente Google valorará mejor la primera página que fue indexada con ese contenido.

    Otro factor también es la popularidad de la web. El contenido en webs populares para Google, se posicionan mejor que otras. Y esto a pesar de que este contenido no sea el original.

    El tema del contenido duplicado es muy complejo y a pesar de que Google tiene algoritmos muy sofisticados para detectarlo, siempre aparecen casos en los cuales no funcionan bien.

    Por eso cuando se usa contenidos de otras webs, es aconsejable adicionar otros textos más para que el porcentaje de igualdad con otras web baje notoriamente.

  3. El Directorio 13/6/2008 a 10:11 #

    Está realmente buena la herramienta del copyscape, no la conocía.

    La duda que yo siempre he tenido sobre los contenidos duplicados son los sitios estos que ofrecen artículos gratis. Son muchísimos sitios y muchos de ellos tienen los mismos artículos, sin embargo, algunos de estos sitios están muy bien posicionados y pareciera que no les afecta tener información duplicada.

Trackbacks/Pingbacks

  1. Blog de Max Glaser » Blog Archive » Sobre la URL canónica - 9/11/2005

    […] Ahora bien, como Google últimamente ha cambiado sus algoritmos para detectar contenido duplicado, entonces Google al tener dos copias de cada página de la web, tiene que decidirse por una de las ellas. La primera mantiene su ranking y la otra es castigada y relegada a las ultimas posiciones. […]

Powered by WordPress. Diseñado por Woo Themes