Crawl caching proxy – Un nuevo concepto en la era de Bigdaddy

Como ya es conocido, la semana pasada hubó gran revuelo en la escena de los SEOs cuando se reveló y comprobó que el bot de AdSense estaba ayudando a actualizar el caché del buscador.

Hoy día Matt Cutts, ha publicado una nota en su blog, tratando de disipar la desconfianza que ha generado esta nueva situación.

Matt explica que con la introducción de la nueva infraestructura Bigdaddy, también se ha creado un nuevo concepto para ahorrar ancho de banda para los Webmasters. Este concepto lo llama Crawl caching proxy, y funciona con el mismo principio de los cachés de los proxys como por ejemplo squid.

Cuando por ejemplo un usuario A llama la página www.mi-dominio.com squid guarda esta página en su caché, de modo que cuando un usuario B abre la misma página, ya no es necesario bajarla nuevamente desde el servido original. Squid le presenta la página que ya esta en el caché, ahorrando así ancho de banda.

Según Matt, el crawl caching proxy funciona de la misma manera: Cuando un servicio de Google (googlebot, AdSense, blogsearch, etc.) requiere una página, esta solo es descargada del servidor original si todavía no esta en el caché del crawler, lo que ahorra ancho de banda. Caso contrario el servicio usa la página que ya se encuentra en caché del crawler.

Este nuevo concepto ayuda a mejorar el trabajo del crawler pero no influye de ninguna forma en los diferentes servicios de Google. Según Matt, este caché respeta todas las reglas en robot.txt para los diferentes bots.

Además se debe destacar un aspecto interesante en la nota de Matt: Se menciona que el nuevo googlebot Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) permite la codificación gzip de las páginas web, para así también ahorrar ancho de banda.

4 comentarios en “Crawl caching proxy – Un nuevo concepto en la era de Bigdaddy

  1. OFFTOPIC:

    Hola Max, hago una consulta por aqui a ver si hay algun otro que sepa:

    Que hace Google con los divs {display: none} ?

    Es decir, tengo en un sitio tres ventanas (tipo pesta#as), el usuario puede ir cambiando y se muestra el <DIV> correspondiente cambiando la clase css por otra.

    Si leo el codigo fuente me encuentro con todo el contenido, y es que todo este contenido esta disponible para el usuario.

    Este mismo metodo podria utilizarse para mostrar mas contenido Google, pero es vital para una navegacion mas rica.

    Entonces: Que hace Google?.

  2. ManWare,

    No sé lo que exactamente Google hace con ese tipo de código, especialmente con las pestañas. Tal vez una forma de averiguar que es lo que Google ve exactamente, seria. ver el caché de la menciona página y luego elegir la opción ‘texto guardado en el caché’

  3. Mmm.. interesante no lo habia pensado, igual con las ultimas declaraciones de Matt Cutts, parece que el banneo no es automatico, sino que revisan los sitios. Digo esto porque esta tecnica del display: none, puede usarse tranquilamente para ocultar texto y no quiero que Google lo confunda con spam.

    Saludos.

  4. ManWare,

    Eso de baneo ya es bien conocido. Por lo que se sabe, el equipo atni-spam revisa los sitios, en base a los spam-reports y posiblemente algunas herramientas automáticas para descubrir todo ese tipo de trucos, y banea manualmente a los sitios que no cumplen las reglas.

Los comentarios están cerrados.