Archivo de la categoría: Artículos

Sección de Artículos

La verdad de la barrita verde vs. el verdadero PageRank

Después del articulo Cuan fiables son las herramientas para predecir el PR? y la información que me dieron en este hilo, comencé a investigar:

Esta página describe el protocolo de los resultados de Google que usan sus partners (Google Business Solutions).

Según esta información, los partners de Google pueden obtener los resultados de búsquedas en XML. Uno de los parámetros que se obtiene se llama RK (Google’s rating of how good a single search result is, An integer in the range 0-10, inclusive).

El PageRank (PR) que muestra el Google Toolbar se actualiza mas o menos periódicamente, mientras que el valor que devuelve el interfaz XML parece ser el PR actual de la página.

También encontré en un hilo un tanto antiguo de Digital Point una herramienta que también usa este interfaz para calcular el verdadero PR. Adicionalmente, en esta página se muestra el código fuente en PHP para obtener tanto el PR de la barrita como el verdadero PR.

Con esto puedo concluir que las herramientas que muestran el futuro PR de una página, no hacen mas que consultar el aparentenemente verdadero PR que devuelve el interfaz Google XML.

Que es el SandBox de Google?

Muchos webmasters lo sienten día a día: Has creado una nueva web, la has optimizado para tus palabras claves, la has enlazado desde otras páginas con un buen PageRank y finalmente la has inscrito en los diferentes buscadores. Después de algún tiempo puedes observar que tu web ha sido indexada tanto en Google, Yahoo, MSN y otros buscadores.

Inicialmente tu web toma el posicionamiento esperado en Google, y esto demuestra que has hecho un buen trabajo. Pero luego, tu web cae de un día para otro a posiciones inimaginables. No aparece ni en las primeras 100 o 200 posiciones. Y lo mas interesante es que la página esta en las primeras posiciones, en los otros buscadores Yahoo y MSN.

Que ha sucedido? Justamente este es el resultado del efecto SandBox (caja de arena) de Google.

Aunque Google nunca ha confirmado oficialmente la existencia del SandoBox, existen muchos indicios indirectos que comprueban que últimamente Google esta usando esta técnica. Uno de los mejores indicios son las publicaciones de patentes que Google va presentando sobre el tema spam y antigüedad de sitios web.

Porque Google usa el SandBox?
La meta principal es liberar el índice del buscador del spam. En los últimos años y meses se pudo observar que los webmasters especializados en posicionamiento en buscadores creaban cada día miles de nuevas webs que se posicionaban rápidamente en los primeros lugares para palabras claves que tienen mucho valor. Estas webs solo tenían el propósito de generar grandes ganancias con anuncios como los de AdSense. y no tenían nada de contenido.

Como funciona el SandBox de Google?
Para quitar las ganas a esos webmasters, Google coloca a casi todas las nuevas webs y proyectos a ‘prueba’. Es decir que los proyectos entran en el SandBox por un periodo de tiempo que puede durar desde 1 mes hasta un año.

Nadie aun sabe con certeza cuales son los criterios que Google usa para soltar a un página o proyecto del ‘pulgatorio’.

Tampoco se puede aseverar si afecta a todos los proyectos en general o solo aquellos que usan palabras claves que tienen algún valor comercial.

Como puedo evitar caer en el SandBox?
Debido que todo se basa solo en especulaciones y en las experiencias de otros webmasters, es muy difícil definir reglas exactas de como evitar el SandBox.

Lo único que es cierto es: No llamar la atención a los alertadores (triggers) del SandBox de Google. Eso significa que los nuevos proyectos no deben estar sobre-optimizados para las palabras claves. Las páginas deben tener contenido y no solo anuncios. Los enlaces que se hacen al nuevo proyecto no deben ser muy llamativos, pues generalmente recién te enlazan cuando tu proyecto es bueno y ha alcanzado algún nivel de interés para los otros webmasters.

Otra posibilidad de evitar el SandBox es usar dominios que ya son antiguos y ponerle otro contenido. Aunque esta estrategia parece que no siempre funciona. Existen informes de algunos webmasters de que a pesar de haber usado dominios antiguos, también han caído en el SandBox.

Finalmente, si tu proyecto se encuentra en el SandBox y realmente tienes interés en llevarlo adelante, debes continuar manteniéndolo, actualizando el contenido y consiguiendo mas enlaces, pero siempre en un marco de un ‘crecimiento natural’.

Además, tienes que tener en cuenta que los otros buscadores, aunque aun no traen tantas visitas como Google, también están creciendo muy rápidamente y que también existen otras formas de traer visitantes a tu nuevo proyecto.

Algo sobre el PageRank

Todos los que se han ocupado por lo menos un poco con el tema de posicionamiento en buscadores han escuchado sobre el PageRank.

En pocas palabras el PageRank es un valor que se calcula para cada página web y le asigna un valor de importancia. Inicialmente este algoritmo fue usado por Larry Page y Sergey Brin como núcleo fundamental de Google. El valor del PageRank en Google se lo puede leer en el Google Toolbar y lo muestra como una barra verde con valores de 0 a 10. Cuanto más alto sea este valor o más larga la barra verde, mas importancia tendrá la página.

También existen muchos sitios que calculan el PageRank en línea o permiten mostrarlo en las páginas web, añadiendo un pequeño código. Una de esos sitios es PageRankManía.

En el transcurso del tiempo el valor que Google da al PageRank para posicionar las páginas en el índice ha variado mucho. Ahora se puede ver muchas veces, páginas que tienen poco PageRank en las primeras posiciones, mientras páginas con un mayor PageRank aparecen recién en las siguientes posiciones.

Para los que estén interesados en un análisis un poco teorético pero siempre bien actualizado, les recomiendo el documento de Phil Craven sobre el PageRank .

Enlaces de Interés
Factores que influyen en el Ranking

Origen del contenido duplicado

Según el análisis de muchos SEO’s, uno de los motivos por los cuales muchos sitios web han sido penalizados por Google últimamente (ver cambios en Google), es el ajuste de los filtros de contenido duplicado o DC (por sus siglas en inglés: duplicate content).

En los últimos meses Google ha estado trabajando intensamente en luchar contra el spam en el motor de búsqueda y ha estado aplicando diferentes filtros, como el de antigüedad, el SandBox, de catálogos, y el de contenido duplicado.

Una posibilidad de comprobar si una pagina tiene contenido duplicado es usando la herramienta copyscape . También se pueden buscar pasajes de texto de la pagina a controlar directamente en Google, colcandolos entre comillas.

Los motivos para que se genere un contenido doble son diversos y pueden ser involuntarios, motivados o por plagio.

Las principales fuentes de origen del contenido duplicado son:

1. Páginas canónicas
Este es generalmente un error del servidor Web. La página puede ser visible tanto desde la url http://www.mi-dominio.com como http://mi-dominio.com. Si es que los robots de google indexan al sitio con las dos diferentes direcciones, tarde o temprano Google penalizará a una de ellas.

Una posibilidad de evitar este tipo de contenido duplicado es redireccionar http://mi-dominio.com a la dirección estándar. Esto se puede hacer en el archivo .htaccess de la siguiente forma:

RewriteEngine On
RewriteCond %{HTTP_HOST} !^www\.mi-dominio\.com$
RewriteRule ^(.*)$ http://www. mi-dominio.com/$1 [L,R=301]

2. Shops
Los sitios que contienen shops tienen siempre una estructura similar y son muy parecidos a los catálogos web ya que son simplemente una colección de links. Por otra parte estos shops generalmente sacan la descripción de los productos directamente del fabricante o de la base de datos de los afiliados. De esta manera aparecen cientos de paginas con el mismo contenido ofreciendo el mismo producto.

Otra fuente de contenido duplicado es la presentación de diferentes modelos de un producto. En este caso las páginas varían muy poco, posiblemente solo por el número del producto.

Una forma de evitar el contenido duplicado seria usar solamente descripciones propias y colocar en cada página información adicional para evitar la similitud con otras páginas.

3. Cambios en la estructura del sitio
Muchas veces uno desea cambiar la estructura de las páginas del sitio, por ejemplo cambiando las url con variables a nombres estáticos con la ayuda de mod_rewrite. En este caso Google tiene las páginas antiguas y los robots las leen con los nuevos nombres. De esta manera se puede generar contenido duplicado.

Por este motivo, antes de hacer algún cambio de este tipo se debe estudiar a detalle las posibles consecuencias y tratar de evitar la generación de contenido duplicado. Una posibilidad seria redireccionar (301) las páginas con variables a las url’s estáticas o devolver simplemente un error 404 (page not found).

4. Plagio
Muchas veces la competencia copia pasajes o páginas enteras con el único fin de poder posicionarse mejor en los buscadores.

En este caso se debe contactar primeramente al webmaster de la página que ha plagiado el contenido y conminarlo a que la quite de su web. En otros casos también se podría recurrir al camino de los abogados.

Otra posibilidad seria refrescar el contenido plagiado y así mejorar nuevamente el propio sitio. El riesgo que se corre aquí, es que después de algún tiempo este nuevo contenido aparezca nuevamente en otras webs.