Archivo de la categoría: Buscadores

Se prepara Google para convertirse en un buscador de tiempo real?

Ya hace algún tiempo Google se puso nervioso con el éxito de Twitter y Facebook por la actualidad de sus resultados.

Por ese motivo, Google comenzo a realizar pruebas con una nueva infraestructura caffeine y también a crear  nuevas opciones de búsqueda en  las que aparecen mostrar resultados actuales.

Ahora, han aparecido en la red informaciones sobre una serie de parámetros que Google podría usar para mostrar resultados en los últimos minutos o segundos.

El parámetro es qdr y puede tener los siguientes valores:

all – todos los resultados
y – resultados del último año
m – resultados del último mes
d – resultados del último día
nX – resultados de los últimos X minutos
sX – resultados de los últimos X segundos

Los parámetros para devolver en los últimos minutos o segundos son nuevos! mientras que los otros ya se los podía seleccionar mediante la nueva opción de búsqueda o por la búsqueda avanzada.

El uso de estos nuevos parámetros demuestra que Google no solo está trabajando en los algoritmos con caffeine, sino que próximamente presentará oficialmente nuevas opciones en el buscador para devolver resultados en tiempo real para así contraatacar a Twiiter y Faceboook.

Pero como ya lo había mencionado anteriormente, esta batalla es un poco desigual ya que tanto Twitter como Facebook ya tienen toda la información en sus bases de datos y solamente la tienen que mostar cómo resultado de una búsqueda. Mientras que Google tiene que rastrear las webs más actuales, analizarlas, ordenarlas en el índice para recién poder mostrarlas en los resultados de una búsqueda en tiempo real.

Más Tamaño Para las Búsquedas

Aunque este tema ya fue discutido en la blogsefera en ingles, creo que merece ser mencionada aunque no pienso que vaya tener grandes repercusiones en la usabilidad de la página principal de Google.

Más parecería ser un acercamiento al layout de Bing.

Aquí la nota en el blog de Google en español.

Google rastrea las paginas con parámetros de forma inteligente

En el siguiente vídeo de Google Webmaster Central, Matt explica qué cuando el rastreador encuentra páginas con varios parámetros, entonces tratan de rastrear estas páginas de forma inteligente: Quitan algunos parámetros para ver si los resultados son iguales.

Si encuentran un resultado que contenga el menor numero posible de parámetros, pero que devuelva el resultado original, es esa URL que muestran en los resultados del buscador para mejorar su usabilidad.

Una interesante idea que demuestra que los algortimos de Google cada vez son más sofisticado e inteligentes al momento de rastrear una web y decidir que página colocar en el índice.

Y aquí el vídeo

Sobre la predictibilidad de las tendencias de búsquedas

El blog oficial de Google presenta un artículo muy interesante sobre la predictibilidad de las tendencias de búsquedas en Google.

Los resultados muestran que en diferentes categorías como por ejemplo deportes, comida & bebida, o automóviles, se puede determinar con bastante facilidad las tendencias de las búsquedas a futuro.

Mientras que en otras categorías, como por ejemplo noticias y eventos actuales, las tendencias son muy irregulares lo que hace muy difícil una predicción de las tendencias de búsquedas.

El informe completo los puedes descargar en formato PDF aquí.

Las observaciones de este documento incluyen:

  • Over half of the most popular Google search queries are predictable in a 12 month ahead forecast, with a mean absolute prediction error of about 12%.
  • Nearly half of the most popular queries are not predictable (with respect to the model we have used).
    Some categories have particularly high fraction of predictable queries; for instance, Health (74%), Food & Drink (67%) and Travel (65%).
  • Some categories have particularly low fraction of predictable queries; for instance, Entertainment (35%) and Social Networks & Online Communities (27%).
  • The trends of aggregated queries per categories are much more predictable: 88% of the aggregated category search trends of over 600 categories in Insights for Search are predictable, with a mean absolute prediction error of of less than 6%.
  • There is a clear association between the existence of seasonality patterns and higher predictability, as well as an association between high levels of outliers and lower predictability. For the Entertainment category that has typically less seasonal search behavior as well as relatively higher number of singular spikes of interest, we have seen a predictability of 35%, where as the category of Travel with a very seasonal behavior and lower tendency for short spikes of interest had a predictability of 65%.
  • One should expect the actual search trends to deviate from forecast for many predictable queries, due to possible events and dynamic circumstances.
  • We show the forecasting vs actual for trends of a few categories, including some that were used recently for predicting the present of various economic indicators. This demonstrates how forecasting can serve as a good baseline for identifying interesting deviations in actual search traffic.

En resumen, Un artículo muy interesante que puede ayudar a SEOs y webmasters a preparar y programar sus campañas de SEO y SEM en áreas especificas y predecibles  para obtener mejores resultados en tráfico e ingresos.

Los factores más importantes para el ranking en Google

Cómo ya se hizo costumbre, SEOmoz realiza periodicamente una encuesta entre SEOs de diferentes países del mundo para conocer su opinión sobre los factores que influyen en el ranking dels buscador de Google (ver artículo).

El cuestionario contiene más de 100 factores que podrían influir en el posicionamiento de una página Web. Los resultados de este año son los siguientes:

Factores principales del ranking en Google

Factores generales del algoritmo

24% Confianza/Autoridad del dominio
22% Popularidad de enlaces de la página especifica
20% Texto en anchor de los enlaces externos
15% Uso de palabras claves en la página (on-page)
7% Tráfico y el click-through de la página
6% Métricas de redes sociales
5% Registro y parámetros del hosting

El Top 5 de los factores del Ranking de Google

El Top 5 de los factores para el ranking

1. Texto en anchor de los enlaces externos (73%)
2. Uso de palabras claves en la etiqueta title (66%)
3. La popularidad de enlaces (64%)
4. Diversidad de dominios en los enlaces entrantes (64%)
5. Uso de palabras claves en el nombre del dominio (60%)

Los top 5 de los factores negativos para el ranking

Los top 5 de los factores negativos para el ranking
1. Cloacking con intenciones maliciosas (68%)
2. Compra de enlaces de brokers de enlaces (66%)
3. Cloacking usando el user agent (51%)
4. Caídas frecuentes del servidor (51%)
5. Enlazar a páginas con SPAM (48%)

Cómo se puede observar, los resultados de las encuestas  no dan grandes novedades en lo que se refiere al conocimiento sobre posicionamiento en Google, pero muestran claramente cuales son los puntos más importantes que todo SEO o webmaster debe tomar en cuenta cuando trata de posicionar una página o un proyecto en el buscador más usado del mundo, Google. En esta página puedes leer la lista completa de los factores que influyen en el ranking.

La técnica detrás del update Caffeine del buscador de Google

Hace unos días la novedad fue el anuncio sobre el proyecto secreto de Google:  el Update Caffeine.  Y cómo ya lo había mencionado:  cuando Matt Cutts dice «nueva infraestructura» se trata de cambios en los data centers (DC) posiblemente en el hardware, el sistema operativo o mejoras profundas en el software, cómo ya sucedió con el update  Big Daddy.

Ahora ya está claro qué es la parte fundamental del Update Caffeine: Se trata de una nueva versión del Google File System (GFS), ahora denominado GFS 2, cómo lo menciona un articulo del Register. El mencionado artículo explica algunos de los conceptos del nuevo sistema de gestión de archivos de Google.

Debido a que el GFS2 mejora mucho los conceptos de archivos distribuidos, es más rápido, mucho más  dinámico  y adaptable, el nuevo indicie de Google que correrá sobre este nuevo sistema de archivos –  justamente Caffeine – también será mucho más veloz en sus tiempos de respuesta y permitirá la gestión de un numero mayor de documentos.

Y justamente estos dos factores permitirán al buscador de Google gestionar más peticiones por segundo y aumentar significativamente el numero de páginas indexadas lo que consecuentemente mejorará – según Google – la calidad del buscador.

En lo que se refiere a los algoritmos propios del buscador, parece que el Update Caffeine no nos dará muchas sorpresas.

Así pues, ahora solamente debemos esperar que los ingenieros de Google den luz verde a Caffeine para que se vaya propagando de data center en data center, aunque con la experiencia de Big Daddy esto se puede extender por varios meses…

Primeros experimentos con Google Caffeine – La nueva generación

Ayer, apareció en el blog oficial de Google la noticia de que estaban trabajando en un proyecto secreto con el código caffeine para implementar un buscador de nueva generación.

Hoy día ya han salido los primeros resultados de las pruebas que han realizado varios expertos. Una de estas pruebas es la de Mashable (pruebas con el nuevo Google).

los parámetros parametros que han usado son:

  • Velocidad
  • Exactitud
  • Relevancia en el tiempo
  • Tamaño del índice

También se debe mencionar el post de Matt Cutts (sobre el caffeine update). Y la mención de Update hace presumir que este cambio no es tan revolucionario como se lo creyó. Ya estamos acostumbrados a estos updates en forma regular. hace dos años atrás se hizo un update de la infraestructura, como lo llamó Matt,que incluía nuevo hardware en los data centers (DC) y también nuevo software. Este update se alargo por varios meses hasta abarcar a todos los DCs.

El mayor impacto de este update fue el incremento de capacidad de indexación, mejoras en la sincronización y propagación de las bases de datos entre los DCs, y claro un incremento en la velocidad de indexación y presentación de los resultados. Después de este update, los blogs pueden ser indexados y mostrados en los resultados en cuestión de segundos o minutos.

Bueno, ahora parece que Caffeine es la nueva versión de este update: La meta es el buscador en tiempo real, para mantener a raya a twitter y también Bing.

Pero como siempre, Matt dá pistas sobre los cambios en este update:

john chen and Daniel Sterling, most of the changes are in things like our core indexing, so there’s less changes for things like rankings. Lots of users won’t notice a big difference.

pavs and McMohan, we’re not looking to make huge changes in ranking with this new infrastructure. Some rankings will change, but that’s not the main thrust of the infrastructure.

Así pues, creo que Caffeine es un update más de Google y no como se lo postulo ayer: El buscador de nueva generación.

Actualización

Un vídeo de Matt Cutts sobre el tema

El buscador de Google – Next generation

Hoy día Google ha dado a conocer que está trabajando en una infraestructura secreta de nueva generación para su buscador.

En esta entrada del blog oficial de Google, se menciona que para crear un motor de búsqueda grandioso se necesita:

  • Rastrear un pedazo grande de Internet.
  • Indexar los resultados y computarizar / valorizar cuán reputables son estas páginas.
  • Armar un ranking y mostrar a los usuarios las páginas más relevantes para sus búsquedas lo más rápido posible.

Esto resume más o menos lo que Google está tratando de crear: Un buscador con resultados en tiempo real.

En esta entrada también menciona:

For the last several months, a large team of Googlers has been working on a secret project: a next-generation architecture for Google’s web search. It’s the first step in a process that will let us push the envelope on size, indexing speed, accuracy, comprehensiveness and other dimensions. The new infrastructure sits «under the hood» of Google’s search engine, which means that most users won’t notice a difference in search results. But web developers and power searchers might notice a few differences,…

La palabra infraestructura en la boca de Google ya es bien conocida y significa «grandes cambios» en lo que se refiere a hardware, es decir servidores, pero también al software que corre sobre este hardware. Especialmente en lo que se refiere a algoritmos rápidos y que puedan procesar inmensas cantidades de información.

En la entrada también invitan a los usuarios avanzados del buscador a enviar su feedback sobre los resultados del nuevo buscador experimental www2.sandbox.google.com.

Right now, we only want feedback on the differences between Google’s current search results and our new system. We’re also interested in higher-level feedback («These types of sites seem to rank better or worse in the new system») in addition to «This specific site should or shouldn’t rank for this query.»

La palabra clave para los emails de feedback es caffeine y ahora queda claro lo que Matt Cutts estaba twitteando en los últimos días 🙂

Bueno, en resumen parece que Google apunta a un buscador en tiempo real, lo que ya estaba sucediendo con los blogs en wordpress que envían un ping  pueden ser rastreados rápidamente. Esta nueva infraestructura pretende contrarrestar el aumento de popularidad de Twitter.

Así, pues ahora la frescura de los datos en las web (no solo blogs) será un factor muy importante para aparecer en las primeras posiciones del buscador de nueva generación de Google.

ComScore muestra la penetración de mercado de Google

Cómo ya lo había mencionado anteriormente comentando el acuerdo entre Microsoft y Yahoo, el impacto que tendrá el uso de Bing en Yahoo especialmente en los países europeos y de América Latina no será muy grande, ya que la penetración de Yahoo en el mercado de los buscadores fuera de los Estados Unidos no es relevante.

Google ha logrado un dominio total, como lo demuestra el siguiente  gráfico de ComScore

Penetración de mercado de Google

En Estados Unidos Google tiene una penetración de mercado de unos 60%, mientras que en Turquia llega a más del 90%.

En países como Alemania, Canada, Brasil o Italia, el porcentaje de dominio del buscador de Google fluctúa  entre el 80 y 90%.

Fuente: Multilingual Search