Sobre la función site: en el buscador de Google

Una métrica para saber cuantas páginas de un sitio han sido indexadas en el buscador es la función site:mi-dominio.com

Como GoogleGuy y Matt Cutts mencionaron, los ingenieros de Google no le tomaron mucho interés a esta función. En el ultimo tiempo y debido a todos los cambios realizados a los algoritmos del buscador, esta función mostraba resultados un poco abultados.

Hace varios días GoogleGuy informaba en un hilo de WMW de que el data center 72.14.207.104 contenía una función mejorada de site que mostraba resultados más cercanos a la realidad sobre el número de páginas indexadas en el buscador.

En los últimos días parece que esta función mejorada se ha propagado a los otros data centers, y ahora la función site en todos los DCs muestra resultados similares al del DC mencionado.

Después de hacer algunas pruebas, todavía estoy muy convencido de que estos nuevos resultados sean realmente los correctos aunque parecen aproximarse más a la realidad.

Como sabe Google cual es el tema de tu web?

Ya hace algún tiempo que en el mundo SEO se esta hablando de términos como tema de una web, y autoridad de una web en un tema especifico.

Bueno, para el dueño o webmaster de una web no es difícil conocer cual es el tema de su web. Generalmente todo el contenido de la web se orientará al tema o los temas elegidos.

Pero como puede Google con sus robots conocer el tema de tu web? Esta es una pregunta que me he hecho ya hace bastante tiempo. Y justamente hoy día me parece haber encontrado la respuesta:

El tema de una web en Google se define en base a la densidad de palabras de todas las páginas que contiene la web.

Y también me parece haber encontrado la prueba de esta suposición o hipótesis: Una de las herramientas que Google recientemente habilitó en Google Webmaster Tools (aka sitemaps) es justamente ‘Statistics->Page analisys->Common words->In your site’s content’. Aquí Google muestra realmente la densidad de palabras de toda la web.

Entonces, para saber si Google ha reconocido correctamente el tema de tu web, lo único que debes hacer es usar esta herramienta y verificar si las palabras que aparecen en los primeros lugares son realmente aquellas palabras que tu has definido como tema de tu proyecto.

Yo creo que muchos webmasters se van a llevar una gran sorpresa al observar que las palabras que aparecen en los primeros lugares de esta herramienta no son las que ellos suponían ser el tema de la web. Y esto tiene una explicación muy sencilla: Muchos webmasters tratan de ahorrar usando un solo dominio para diferentes temas lo cual puede diluir la densidad general de palabras de una web. Por ende, Google no puede o define erróneamente el tema de la web lo que puede generar muchas desventajas al querer posicionar una página en el índice del buscador.

La historia de los buscadores

OjoBuscador ha presentado un artículo interesante sobre la historia de los buscadores desde 1993 hasta 2006.

En forma resumida y sin entrar mucho en los detalles teóricos sobre los motores de búsqueda, el OjoBuscador describe en forma cronológica cada uno de los buscadores que han aparecido en este lapso de tiempo.

A continuación la tabla de buscadores según OjoBuscador:

1993 Wandex, Aliweb, robots.txt
1994 EInet Galaxy, JumpStation, Yahoo! (directorio), WebCrawler, WWWWorm, InfoSeek, Lycos,RBSE
1995 MetaCrawler, Excite, LookSmart, Altavista
1996 Hotbot / Inktomi, Ask Jeeves, Backrub / Google
1997 Norther Light
1998 MSN Search, ODP / DMOZ
1999 AllTheWeb, Baidu
2000 Teoma
2004 Yahoo! (buscador), Nutch, Clusty, MSN Search (buscador)
2005 Windows Live


Lamentablemente este informe esta incompleto, ya que faltan muchos otros proyectos como por ejemplo Quaero, Noxtrum, etc.

Cabe mencionar que Wikipedia, también tiene un buen resumen sobre las historia de los buscadores.

Google Webmaster Central

Hace unos días hablaba de que Google esta tratando de retro-alimentarse u obtener feedback de los webmasters para mejorar los algoritmos de su buscador en esta nota.

Hoy día, el weblog de Search Engine Watch informa que Google ha creado una página central, Google Webmaster Central que direcciona a algunas herramientas como Google Sitemap y a diferentes foros de discusiones y blogs para webmasters.


Google Webmaster Central

Paralelamente, se ha modificado el nombre de Google Sitemaps a Google Webmaster Tools como lo menciona Vanessa Fox en este weblog.

También se ha creado un nuevo weblog para webmasters.

Aunque todavía no se ve nada novedoso, creo que es un buen paso para ayudar a los webmasters a mejorar sus proyectos y lograr que se puedan posicionar mejor en el buscador. Así también Google podrá con este feedback mejorar sus algoritmos y servicios.

Sobre las ultimas actualizaciones de Google

En los últimos días Matt Cutts ha estado presentando varias sesiones de videos, en las cuales responde a las preguntas que los webmasters han escrito en su weblog.

La sesión 8 me parece una de las más interesantes, pues Matt explica algunos conceptos que se usan en relación a las actualizaciones del buscador, y especialmente a las actualizaciones del 27.06. y 27.07.

Aquí una transcripción semántica de las mas importantes partes de este video:

Actualizacion del indice (index update)
En el año 2003 este tipo de actualizaciones era comun y se realizaba mensualmente. Se podían modificaban los algoritmos, los datos, en realidad todo podía cambiar. Era una tarea bastante compleja.

Ahora que Google puede refrescar el índice en forma diaria, es un proceso de flujo continuo. Lo que la mayoría de los usuarios puede apreciar son las actualizaciones de los algoritmos.

Ya no se observan muchas actualizaciones del índice, debido a que se cambio el ciclo mensual de actualizaciones al refrescado (refresh) diario. La única situación en que se pueden observar actualizaciones del índice es cuando existen algunas incompatibilidades entre el índice antiguo y el nuevo. Entonces es necesario recalcular el índice completamente.

Actualización de algoritmos (algortihm update)
En principio sucede cuando se cambian los algoritmos, por ejemplo cuando se cambian los pesos para el PageRank. Estas actualizaciones pueden suceder con bastante frecuencia y son llamados asincronicos, ya que se aplican después de que son evaluados positivamente y mejoran la calidad del índice.

Estas actualizaciones ocurren semanalmente o mensualmente. Y justamente los cambios que los usuarios han percibido en 27.06 y 27.07 fueron actualizaciones de algoritmos que ya estan funcionado hace mas de año y medio. (Aquí Matt da algunos consejos a los webmasters que han sido afectados por estas actualizaciones indicando que revisen sus páginas muy bien y que busquen si han sido sobre optimizadas, y si la página tiene buen contenido, Google la colocará nuevamente en su posición correcta)

Refescado de datos (data refresh)
Es la parte más pequeña de los cambios que se realizan, y son los cambios de datos sobre los cuales los algoritmos trabajan.

El refrescado de datos sucede continuamente, por ejemplo el PageRank se calcula continuamente y es usado por los algoritmos.

Matt presenta una metáfora con un carro: una actualización de índice significaría cambiar partes grandes y principales del carro. Una actualización de los algoritmos sería como cambiar solo algunas partes del carro. Mientras el refrescado de datos significaría el cambio de gasolina en el carro, es decir lo que usa el carro para funcionar.

Me parece que estas son las primeras informaciones casi oficiales de Google que obtenemos sobre el funcionamiento de la nueva infraestructura BigDaddy y explica muy bien el porqué los webmasters estaban tan desconcertados con los resultados del buscador:

  • El antiguamente conocido Google Dance es simplemente la actualización completa del índice que ya no se observa más.
  • Las bajadas y subidas continuas de posición en el Ranking de las páginas se deben al refrescado de los datos que ocurre continuamente. Aquí también se debe mencionar que el PageRank, que es calculado continuamente, tiene su influencia inmediata en el Ranking y la barrita verde de la Toolbar de Google solo muestra un valor obsoleto.
  • Finalmente, los cambios del Rnaking que pueden ser percibidos por muchos webmasters se deben a las actualizaciones o introducción de algoritmos (que talvez en este caso también se los pueda llamar filtros) que pretenden mejorar la calidad del índice.

Alianza contra los clics fraudulentos

Los grandes de la publicidad en línea y especialmente de los anuncios contextuales (Google, Microsoft, Yahoo) se han unido en una alianza para luchar juntos contra los clicks fraudulentos. Bajo la dirección del Interactive Advertising Bureau (IAB) y con la participación del Media Rating Council se ha planificado un grupo de trabajo para definir normas como por ejemplo, como se deben contar los clics, y como se pueden filtar los clics fraudulentos de los clics normales.

Los últimos procesos contra Google y Yahoo por clics fraudulentos han demostrado que los servicios de publicidad de avisos contextuales son muy vulnerables a los fraudes. Por ejemplo, Google tuvo que devolver hace unos meses unos 90 millones de dólares a sus clientes de AdWords por clics fraudulentos. El informe de Google sobre este tema se lo puede leer en esta nota.

Los primeros resultados del gurpo de trabajo formado por la IAB se tendrán recién en un año.

Via heise online, John Battelle

El foro de webmasters que tiene más influencia en Google

La reto-alimentación es muy importante en el software. Con todos los reportes o feedback de los usuarios sobre un programa o un paquete de software, los desarrolladores del mismo pueden encontrar y solucionar errores, así como también mejorar la funcionalidad, usabilidad, y por ende la calidad del producto.

Esto se ha podido apreciar en los últimos años con Microsoft: La mayoría de sus productos pasan por una serie de versiones beta que son entregados al publico en general o a usuarios escogidos. Después de recoger las opiniones de estos usuarios, se procede a lanzar la siguiente versión beta y así sucesivamente, hasta que finalmente se libera la versión final del producto.

Por ejemplo, el nuevo sistema operativo de MS, Microsoft Vista, esta pasando este ciclo de control publico y su introducción al mercado ya ha sido pospuesta varias veces por no haber pasado satisfactoriamente estos controles.

Ahora bien, algo similar sucede con los motores de búsqueda, que en realidad también son componentes de software. Los ingenieros que se dedican a crear, modificar y mejorar los algoritmos de los buscadores no pueden prever todos los posibles casos que se presentan cuando estos algoritmos o filtros se aplican a todo tipo de páginas web. El universo de prueba que ellos pueden abarcar es muy pequeño.

Por este motivo, es muy importante obtener la mayor cantidad de reportes o feedback de los webmasters para poder comprobar la efectividad de los cambios realizados, así como para poder encontrar posibles errores.

Google también ha reconocido la necesidad del feedback y esta tratando de mejorar su comunicación con los webmasters.

Uno de los canales mas importantes que Google ha estado usando para comunicarse ha sido mediante Matt Cutts, el jefe del equipo anti-SPAM de Google, que publica regularmente en su weblog, algunas informaciones sobre los cambios en el buscador y responde a las preguntas de los webmasters.

Justamente esta semana Matt ha comenzado ha presentar una serie de videos que contestan muchas de las preguntas básicas que tienen los webmasters. La lista de los sesiones es la siguiente:

Sesiones 1, 2, 3
Sesiones 4, 5, 6
Sesiones 7,8
Sesion 9

Pero también Google esta tratando de contestar las inquietudes de los webmasters en los foros, y justamente han escogido Webmaster World, que como se sabe es leído con mucho interes por los ingenieros de Google y donde también algunos de ellos también participan. Entre ellos están Adam Lasnik, Matt Cutts, GoogleGuy (que se cree que es Matt) y justamente hoy dia Vanessa Fox del equipo de Google Sitemaps ha comenzado a dar su opinión en este hilo.

En muchas oportunidades las sugerencias de los foreros en Webmasterworld han sido aplicadas en los resultados del buscador de Google y seguramente ahora que varios empleados de Google están en el WMW oficialmente, la influencia de este foro aumentará aun más.

Por este motivo, se puede decir que WMW junto al blog de Matt son actualmente las mejores fuentes de información sobre el motor de búsqueda.

Que esta sucediendo con el buscador de Google?

Como ya es bien conocido, el trabajo de optimización de páginas web en buscadores (SEO) no puede ser considerado como una ciencia. Es más bien, una tarea empírica que esta guiada por los resultados que se observan en el índice o ranking del buscador al colocar datos (una página web) en una caja negra (el algoritmo del buscador). Esta situación se puede apreciar más claramente en el siguiente diagrama:


Proceso de optimizacion

Proceso de optimización de páginas web

En el transcurso de los años los SEOs han aprendido – observando los resultados del índice y realizando diferentes experimentos – en forma general el funcionamiento de los algoritmos de los buscadores.

Usando estas observaciones, los SEOs han creado unas serie de reglas para poder manipular la posición de una página web en el índice de los buscadores. Estas reglas se pueden por lo general dividir en 2 clases:

Optimización On Page
Comprenden todas las reglas de optimización que se pueden realizar directamente en la página misma. Todas estas reglas pueden ser realizadas por el webmaster. Entre estas se cuentan por ejemplo:

  • definición de la URL de la página
  • definición del título de la página web
  • definición de los diferentes meta tags como ser keywords y description
  • definición del contenido usando las palabras claves en forma adecuada en todo el texto para aumentar su densidad en el contenido, así como también usando los tags de HTML (h1, h2, b, etc.) para mostrar la relevancia de las palabras claves
  • estructuración de los enlaces internos para insinuar la importancia de la página en toda la web
  • Y otras reglas de menor importancia

Optimización Off Page
Comprenden todas las reglas que se usan para optimizar una página pero que se encuentran fuera de la web y que en realidad no están bajo control del webmaster. Y justamente por esto, por ejemplo Google le da más importancia. Entre estas reglas se tienen:

  • El numero de enlaces que apuntan a la página, y que es un factor para el calculo del PageRank de Google que definía en el algoritmo original la popularidad de una página
  • Enlaces de páginas con autoridad y de temas relacionados a la página
  • El porcentaje de visitas recurrentes que es una métrica de la calidad del contenido
  • Y otras reglas con menor relevancia

Solamente, siguiendo estas reglas – mas o menos al pie de la letra – era posible con relativa facilidad manipular los resultados del ranking de los buscadores y alcanzar las primeras posiciones.

Justamente en los últimos días Matt Cutts, un empleado de Google que hace de comunicador inoficial entre Google y los webmasters, ha presentado una serie de videos en los que responde a muchas de estas preguntas básicas:

Sesiones 1, 2, 3
Sesiones 4, 5, 6

El uso de estas reglas también fue aprovechado por black hat SEOs para posicionar sitios con contenidos basura, SPAM que comenzó a mediados de los años 90. Por este motivo, Google comenzó a modificar sus algoritmos para limpiar su índice de basura.

Se fueron adicionando una serie de nuevos filtros, como por ejemplo la edad de los dominios. Los dominios nuevos, que podrían haber sido creados por spamers, son inicialmente penalizados en el ranking y no pueden alcanzar las primeras posiciones para las diferentes palabras claves.

La cúspide de estos cambios en los algoritmos de Google se alcanzo con la implementación de una nueva infraestructura (no se sabe a ciencia cierta sí este termino se refiere a nuevo hardware, base de datos, o simplemente a los algoritmos) que se la llamo Bigdaddy y que comenzó a propagarse en Enero 2006 y concluyo a fines de Marzo 2006.

Después de la finalización de Bigddady, el mundo SEO ya no es el mismo: A pesar de que las reglas mencionadas anteriormente aun tienen parcialmente vigencia, ya no es posible posicionar una página tan fácilmente.

Mas aun, actualmente tampoco es posible obtener información confiable sobre las razones de las bajadas y subidas de las páginas en el ranking de estos días.

Solamente se ha podido percibir que el 27.06.06 y el 27.07.06 actualizaciones del índice han afectado a muchos sitios. Estos días estuve revisando diversos foros en diferentes idiomas, y solo se puede leer que muchas páginas han caído considerablemente en el ranking, pero nadie puede dar una explicación plausible del porqué.

Parece que los filtros que se han usado en estas actualizaciones, o como muchos las denominan index refresh, afectan a sitios completos y no a páginas aisladas. Parecería ser que los sitios con contenidos antiguos y estáticos son los afectados, mientras que sitios que actualizan sus contenidos regularmente se han mantenido en sus posiciones.

La única alternativa que por ahora queda es la diversificación del portafolio de proyectos para que se puedan de alguna manera equilibrar tanto las caídas como las subidas en las posiciones.

Si es que alguien tiene alguna sugerencia o teoría sustentable, todos los comentarios son bienvenidos.

Portafolio de productos de Microsoft

En un artículo sobre Windows Vista que aun todavía no tiene una fecha fija para su lanzamiento he encontrado el siguiente diagrama:


Portafolio de productos de Microsoft

Portafolio de productos Microsoft

En el diagrama se pueden apreciar muy bien cada una de las áreas de negocios en las que Microsoft esta incursionando y los productos o servicios que ya tiene o piensa lanzar en los próximos años:

– Clientes para Windows
– División de negocios
– Servidores y Herramientas
– Entretenimiento y dispositivos
– Servicios en línea

Como se puede, AdCenter, los anuncios contextuales similares a Google AdWords, y Windows Live son los productos mas importantes en el área de negocios Online, y curiosamente no aparece MSN Search como servicio independiente.

Uno de los nuevos productos que también Microsoft se ha propuesto impulsar es Zune, el MP3 player de MS.

Mi weblog vive nuevamente

Desde hoy día, y después de mis largas vacaciones, voy a retomar mis proyectos y comenzaré a alimentar periódicamente el weblog con notas sobre tecnología, software, y especialmente con temas sobre posicionamiento, buscadores y Google.

En estas ultimas semanas he tratado de ver el mundo de Internet y de los buscadores con los ojos de los usuarios comunes que usan esta fuente de información diariamente. He compartido con amigos, conocidos, y parientes que usan este medio, y he observado cuales son sus prioridades, preferencias y necesidades.

Espero que esta experiencia me ayude a mejorar la calidad de los proyectos que realizo, ya que en el ultimo tiempo la usabilidad y experiencia de mis proyectos se había orientado más a las necesidades de los buscadores que de los usuarios mismos.