Archivo de la categoría: Buscadores

Mayday la nueva actualización del buscador de Google?

Cómo ya es conocido, todos los SEOs y webmasters están a la espera de una confirmación oficial de que la nueva infraestructura del buscador de Google, caffeine ya estuviese en todos los data center. Actualmente, solamente se tienen rumores basados en las observaciones de muchos SEOs que indican que esta nueva infraestructura – como lo llaman los ingenieros de Google – ya estaría en un 80% de los data centers.

Pero mientras todos esperan a caffeine, parece que Google ha realizado alguna actualización significativa del índice en las últimas semanas. En una discusión en Webmaster World, ya se ha dado un nombre a esta actualización, MayDay.

Según se menciona en la discusión un gran numero de sitios webs que durante años tenían un comportamiento constante en lo que se refiere a sus visitas, han sufrido una caída considerable en el tráfico desde mediados de Abril, y muchos mencionan qué en los últimos días las visitas han disminuido aún más. Se habla de una caída del tráfico entre 15  y 50%.

La característica común de estos sitios web: El tráfico orgánico  es generado por el long tail, o la cola larga. Es decir que las visitas originadas por búsquedas por frases largas o una serie de palabras claves ha caído considerablemente.

Aunque todavía nadie sabe a ciencia cierta que es lo que esta aconteciendo, por la discusión en WMW y los análisis que estuve haciendo se puede   indicar lo siguiente:

1. Desde los primeros días de Abril, el numero de páginas indexadas con la función site: se está reduciendo rápidamente y en forma constante. Parecería que Google está desindexando algún tipo de páginas web.

2. Desde el más o menos el 25 de Abril, el googlebot está indexando (o re-indexando) una gran cantidad de páginas web. Por ejemplo, si en un día especifico antes de esta fecha, googlebot indexaba unas 500 página ahora está indexando unas 15000.

3. El tráfico generado por la cola larga ha disminuido considerablemente, lo que en sitios web que viven del long tail, las visitas han caído por lo menos en un 15%

Ahora bien, cuál es el motivo  de estos cambios tan radicales en el buscador de Google?

Posiblemente se trata de la puesta en marcha de la nueva infraestructura caffeine, que ahora comenzó a borrar páginas poco relevantes y está refrescando o creando un nuevo índice.

Lo que todavía nadie ha podido contestar, es donde están esas visitas que han desaparecido? Pues generalmente en Google donde hay perdedores aparecen otros ganadores. Es decir, si un sitio web pierde visitas, hay otra web que las gana. Pero en la discusión en WMW nadie ha mencionado que su tráfico ha aumentado.

Así pues: Qué esta sucediendo realmente con esta nueva actualización MayDay?

Sobre el rastreo de páginas con AJAX

En los últimos años la usabildad de las páginas web ha mejorado considerablemente y esto se debe especialmente al uso de JavaScript y también Ajax.

En el caso de Ajax, se trata de actualizar partes de una página web sin tener que refrescarla totalmente. Esto se realiza mediante peticiones internas del navegador al servidor web mediante la conocida función XMLHttpRequest (ver la historia de la API XTMLHTTP).

Cuando el rastreador de un buscador abre una página, solamente puede encontrar el contenido original de la primera petición al servido web, pero no puede ver el contenido que el usuario logra observar mediante las subsiguientes peticiones al servidor (ver cómo ve Googlebot páginas web con Ajax y JavaScript).

Por eso, inicialmente Google veía páginas que usaban estas técnicas como cloacking ya que el usuario podía ver información totalmente diferente a la que podía rastrear el googlebot.

Pero ahora, con el aumento del numero de páginas con está tecnología la situación ha cambiado: Google está tratando de poder leer la información que se obtiene mediante las peticiones al servidor web usando XMLHttpRequest y ha hecho una propuesta a los webmasters para que coloquen en este tipo de URLs la marca #! y no # ya que  # sirve en HTML para definir anclas en una misma página web.

En un interesante articulo, Vanessa Fox, explica la propuesta de Google para rastrear Ajax y menciona que Google posiblemente ya esta usando esta técnica para rastrear páginas con Ajax.

Pero Vanessa también menciona de que Google todavía no tiene la figura bien definida, por lo que por el momento no aconseja cambiar las páginas y usar este tipo de URLs.

Sobre cómo Google valora los enlaces de de Twitter y Facebook

Nuevamente Matt Cutts ha grabado una serie de vídeos – su nuevo corte de cabello demuestra que son nuevos – en los que responde a preguntas que se envian a Google Webmasters por email.

Esta vez responde a la pregunta de cómo Google valora los enlaces desde Twitter y Facebook.

En resumen, Matt menciona que estos enlaces son tratados como los de las webs normales, pero también menciona de que para Google es difícil valorar enlaces de perfiles privados de Facebook, ya que no lo puede ver y tampoco les puede asignar PageRank.

En lo que se refiere a los enlaces de Twitter menciona que estos contienen el atributo nofollow, y según él esto está muy bien para evitar SPAM, por lo cual estos enlaces tampoco no pueden aumentar la popularidad o PageRank de una página.

Ya están los resultados de Google Caffeine en los data centers?

Poco antes de las fiestas de fin de Año, Matt Cutts había prometido no dar un susto a los webmasters, y les prometió que los resultados de la nueva infraestructura, Google Cafferine, recién serían propagados a los diferentes data centers repartidos por todo el mundo a principio del 2010.

Ahora, en muchos foros ya se está discutiendo acaloradamente este tema, cómo lo menciona Search Engine Roundtable (Google Caffeine Results Now Going Live?).

Y como ya es costumbre en estos casos, también ya se discuten y se mencionan algunos data centers que ya podrían tener la nueva infraestructura Caffeine. La lista de los candidatos es la siguiente:

209.85.225.103
74.125.95.132
66.102.7.18
64.233.163.19
74.125.19.106
66.102.7.104

Varios SEOs indican haber comprobado de que estos DCs ya estan cargados con Caffeine, pero todavía no hay nada oficial. Así pues, tendremos que esperar un poco hasta que alguien de Google se pronuncie claramente sobre este tema.

Lo que también cabe mencionar es que en proyectos bien posicionados el tráfico desde Google se ha incrementado considerablemente, mientras que en proyectos poco populares, las visitas han decaído. Y justamente esa era una de las metas de esta nueva actualización / infraestructura: Mejorar o acelerar la indexación de webs populares y mostrar resultados más relevantes.

Será esta una señal de que Google Caffeine poco a poco ya se está extendiendo por todo el mundo?

Actualización
Bueno Barry de SER dice:

Update: A Google spokesperson told me, «we have nothing to announce today regarding Caffeine.» Basically, it is not live yet and when it does go live, they will let us know.

Son estos los famosos 200 parámetros del algoritmo de Google?

Ya es celebre el numero 200 en lo que se refiere a los diferentes factores que Google evalúa en una página web para posicionarla en su índice.

Siempre los ingenieros de Google mencionan que existen muchos factores – más de 200 – para valorar una página web, y así de esta manera tratan de desvalorizar temas especificos que siempre son discutidos por los SEOs, cómo por ejemplo la importancia del PageRank, o el nombre del dominio.

Ahora en Search Engine Journal se han dado el trabajo de catalogar los 200 parámetros del algoritmo de Google.

Bueno, solamente han encontrado 130, y aquí les presento la lista:

Domain: 13 factors
Domain age.
Length of domain registration.
Domain registration information hidden/anonymous.
Site top level domain (geographical focus, e.g. com versus co.uk).
Site top level domain (e.g. .com versus .info).
Sub domain or root domain?
Domain past records (how often it changed IP).
Domain past owners (how often the owner was changed)
Keywords in the domain.
Domain IP.
Domain IP neighbors.
Domain external mentions (non-linked)
Geo-targeting settings in Google Webmaster Tools

Server-side: 2 factors
Server geographical location.
Server reliability / uptime

Architecture: 8 factors

URL structure.
HTML structure.
Semantic structure.
Use of external CSS / JS files.
Website structure accessibility (use of inaccessible navigation, JavaScript, etc).
Use of canonical URLs.
“Correct” HTML code (?).
Cookies usage.

Content: 14 factors
Content language
Content uniqueness.
Amount of content (text versus HTML).
Unlinked content density (links versus text).
Pure text content ratio (without links, images, code, etc)
Content topicality / timeliness (for seasonal searches for example).
Semantic information (phrase-based indexing and co-occurring phrase indicators)
Content flag for general category (transactional, informational, navigational)
Content / market niche
Flagged keywords usage (gambling, dating vocabulary)
Text in images (?)
Malicious content (possibly added by hackers).
Rampant mis-spelling of words, bad grammar, and 10,000 word screeds without punctuation.
Use of absolutely unique /new phrases.

Internal Cross Linking: 5 factors
Number of internal links to page.
Number of internal links to page with identical / targeted anchor text.
Number of internal links to page from content (instead of navigation bar, breadcrumbs, etc).
Number of links using “nofollow” attribute. (?)
Internal link density.

Website factors: 7 factors
Website Robots.txt file content
Overall site update frequency.
Overall site size (number of pages).
Age of the site since it was first discovered by Google
XML Sitemap.
On-page trust flags (Contact info ( for local search even more important), Privacy policy, TOS, and similar).
Website type (e.g. blog instead of informational sites in top 10)

Page-specific factors: 9 factors
Page meta Robots tags.
Page age.
Page freshness (Frequency of edits and
% of page effected (changed) by page edits).
Content duplication with other pages of the site (internal duplicate content).
Page content reading level. (?)
Page load time (many factors in here).
Page type (About-us page versus main content page).
Page internal popularity (how many internal links it has).
Page external popularity (how many external links it has relevant to other pages of this site).

Keywords usage and keyword prominence: 13 factors
Keywords in the title of a page.
Keywords in the beginning of page title.
Keywords in Alt tags.
Keywords in anchor text of internal links (internal anchor text).
Keywords in anchor text of outbound links (?).
Keywords in bold and italic text (?).
Keywords in the beginning of the body text.
Keywords in body text.
Keyword synonyms relating to theme of page/site.
Keywords in filenames.
Keywords in URL.
No “Randomness on purpose” (placing “keyword” in the domain, “keyword” in the filename, “keyword” starting the first word of the title, “keyword” in the first word of the first line of the description and keyword tag…)
The use (abuse) of keywords utilized in HTML comment tags

Outbound links: 8 factors
Number of outbound links (per domain).
Number of outbound links (per page).
Quality of pages the site links in.
Links to bad neighborhoods.
Relevancy of outbound links.
Links to 404 and other error pages.
Links to SEO agencies from clients site.
Hot-linked images.

Backlink profile: 21 factors
Relevancy of sites linking in.
Relevancy of pages linking in.
Quality of sites linking in.
Quality of web page linking in.
Backlinks within network of sites.
Co-citations (which sites have similar backlink sources).
Link profile diversity:
Anchor text diversity.
Different IP addresses of linking sites,
Geographical diversity,
Different TLDs,
Topical diversity,
Different types of linking sites (logs, directories, etc).
Diversity of link placements
Authority Link (CNN, BBC, etc) Per Inbound Link
Backlinks from bad neighborhoods (absence / presence of backlinks from flagged sites)
Reciprocal links ratio (relevant to the overall backlink profile).
Social media links ratio (links from social media sites versus overall backlink profile).
Backlinks trends and patterns (like sudden spikes or drops of backlink number)
Citations in Wikipedia and Dmoz.
Backlink profile historical records (ever caught for link buying/selling, etc).
Backlinks from social bookmarking sites.

Each Separate Backlink: 6 factors
Authority of TLD (.com versus .gov)
Authority of a domain linking in
Authority of a page linking in
Location of a link (footer, navigation, body text)
Anchor text of a link (and Alt tag of images linking)
Title attribute of a link (?)

Visitor Profile and Behavior: 6 factors
Number of visits.
Visitors’ demographics.
Bounce rate.
Visitors’ browsing habits (which other sites they tend to visit)
Visiting trends and patterns (like sudden spiked in incoming traffic)
How often the listing is clicked within the SERPs (relevant to other listings)

Penalties, Filters and Manipulation: 12 factors
Keyword over usage / Keyword stuffing.
Link buying flag
Link selling flag.
Spamming records (comment, forums, other link spam).
Cloaking.
Hidden Text.
Duplicate Content (external duplication)
History of past penalties for this domain
History of past penalties for this owner
History of past penalties for other properties of this owner (?)
Past hackers’ attacks records
301 flags: double re-directs/re-direct loops, or re-directs ending in 404 error

More Factors (6):
Domain registration with Google Webmaster Tools.
Domain presence in Google News.
Domain presence in Google Blog Search.
Use of the domain in Google AdWords.
Use of the domain in Google Analytics.
Business name / brand name external mentions.

Como se puede observar se trata de una lista bien exhaustiva y muy interesante que todo SEO tiene que conocer, pero también muchos de estos factores parecen ser un poco exagerados, por lo que no creo que todos estos parámetros sean realmente usados por el algoritmo de Google.

Pero por otra parte también esta lista demuestra que la aseveración de los ingenieros de Google sobre los más de 200 parámetros podría ser bastante exagerada.

Tal vez algún día podamos conocer la lista oficial de todos los factores que usa Google para analizar una página web…

Se trata realmente de un buscador en tiempo real?

Sin duda en el último tiempo Google ha mejorado considerablemente la actualidad de los resultados de su buscador. Especialmente el contenido de blogs y noticias es indexado rápidamente y aparece inicialmente siempre en las primeras posiciones.

Pero ayer, Google ha anunciado con mucha publicidad su nuevo buscador en tiempo real. De qué se trata? Google ha integrado en los resultados del buscador, por ahora en ingles y en el primer trimestre del 2010 en otros idiomas, una nueva función: Cuando se hace una búsqueda actual,  aparece al inicio una sección en Ajax que se actualiza   constantemente mostrando los últimos resultados que contienen las palabras de la búsqueda en diversos servicios como ser Twitter, FeedFriend, páginas publicas de Facebook, blogs, periódicos y otros.

Aquí un ejemplo para la búsqueda real time search que desde ayer se ha puesto de moda y se la puede considerar como una «búsqueda actual»:

Google Real Time Search

Cómo se puede observar, se trata de una funcionalidad bastante familiar del buscador de Twitter search.twitter.com que ha sido ampliada a otros servicios sociales.

Pero cuál es el valor adicional para los usuarios normales que buscan algún tipo de servicio, productos, información sobre lugares y todo esa infinidad de información que es perdurable? Pues el valor que le birnda este nuevo servicio de Google es CERO!

Solamente en casos de actualidad informativa de acontecimientos mundiales cómo catástrofes, acontecimientos políticos,  novedades del mundo del entretenimiento, etc. esta nueva función puede ser de utilidad.

Pero bueno, si alguien esta interesado en conocer novedades actuales, se va directamente a Twitter o Facebook.

Me parece que Google con esta nueva función está tratando de dar lucha a Bing, Twitter, Facebook & Co.  para quitarles un poco de tráfico y en realidad solo se trata de una acción totalmente de marketing y no de una gran movida tecnológica que mejore de verdad la calidad de los resultados del buscador.

Solamente el futuro nos mostrará si esta nueva función de Google será aceptada por los usuarios o si ellos preferirán ir directamente a las fuentes de esta nueva información en tiempo real.

Microsoft desahucia el MSNBot 1.1

El una entrada del blog de Bing, Microsoft anunció que el  msnbot 1.1 ha sido retirado.

Es decir que el rastreador o crawler (también conocido como bot) de Microsoft que pasa por las páginas web para obtener información y luego indexarlas en los resultados de  Bing, ya no se presentará en el parámetro  user agent del protocolo HTTP como

msnbot/1.1 (+http://search.msn.com/msnbot.htm)

sino más bien aparecerá unicamente como

msnbot/2.0b (+http://search.msn.com/msnbot.htm)

En la entrada se menciona que el nuevo rastreador fue mejorado considerablemente para indexar mejor todas las páginas del mundo. Esperemos que así sea para que así Bing también pueda generar tráfico.

Esta noticia es muy importante para todos los programas y servicios de estadísticas sobre el tráfico de visitas y rastreadores en las páginas web.

Ahora Google trata código 410 como más permanente que el 404

Según la definición oficial del consorcio 3W sobre los códigos de status del protocolo HTTP se tiene lo siguiente:

404 Not Found
The server has not found anything matching the Request-URI. No indication is given of whether the condition is temporary or permanent. The 410 (Gone) status code SHOULD be used if the server knows, through some internally configurable mechanism, that an old resource is permanently unavailable and has no forwarding address. This status code is commonly used when the server does not wish to reveal exactly why the request has been refused, or when no other response is applicable.

Según esta definición el código 404 que devuelve el servidor web significa que la página no fue encontrada. La desaparición puede ser temporal o permanente.

410 Gone
The requested resource is no longer available at the server and no forwarding address is known. This condition is expected to be considered permanent. Clients with link editing capabilities SHOULD delete references to the Request-URI after user approval. If the server does not know, or has no facility to determine, whether or not the condition is permanent, the status code 404 (Not Found) SHOULD be used instead. This response is cacheable unless indicated otherwise.

Mientras que el código 410 significa que la página ya no existe más! Es decir, la página ha sido borrada permanentemente del servidor.

Hasta ahora, Google consideraba la devolución de código 404 como si la página hubiese sido borrada permanentemente del servidor. Pero a pesar de esto, la página aparecía todavía por mucho tiempo en el cache de Google antes de ser borrada.

Ahora parece que Google está interpretando mejor los códigos de estado del protocolo HTTP y ahora se dice que el código 410 es interpretado como «borrado más permanente» (como debería ser, según la definición de los códigos de estado del protocolo HTTP).

Así pues, si es que una página realmente ha sido borrada permanentemente del servidor, se devería devolver el código 410 para que así Google también borre la página permanentemente del cache en forma más rápida.

Visto en SEO Round Table

Google posiciona mejor dominios con palabras claves

Ya hace algunos meses atrás había notado que dominios que contienen las palabras claves de una búsqueda se posicionan mejor, y también mucho más rápidamente.

Pero como siempre, es bastante difícil comprobar si este tipo de  teorías realmente es cierto. Ahora leo en el blog de Sistrix (en Alemán) que han realizado un estudio sobre el tema.

Se han analizado 25.000 palabras claves que son generan bastante tráfico, y los resultados son contundentes en las siguientes gráficas

google-domain-keywords-01

Dominios .de, .com, .net y .org

google-domain-keywords-02

Dominios .info, .biz, .in y .cc

En la primera imagen se pueden observar el porcentaje de dominios .de, .com, .net y .org con palabras claves que se encuentran en el top 10 del buscador de Google  desde el 01.01.2009 hasta Octubre 2009.

En el mes de junio se puede observar muy claramente que el porcentaje de dominios .com en el top 10 aumentó de 11.4% a 14.6% lo que demuestra claramente la suposición.

Otro de los resultados interesantes de este estudio es que los TLD también si son importantes para el posicionamiento en Google. En el buscador alemán google.de, el porcentaje de los  dominios .de es el más elevado, luego le siguen los dominios .com y en la segunda imagen se puede observar que los TLDs exóticos como .info, .biz, .in y .cc realmente son los más despreciados por Google.

En resumen estos datos son muy utiles para los SEO y demuestran muchas de las teorías que circulan en la red:

1. Las palabras claves en los dominios SI son muy impotentes para el posicionamiento en Google.

2. Los TLDs también  son importantes para el posicionamiento en el buscador de Google. En el caso que se desee posicionar un proyecto web para un país especifico, primero se debe elegir un TLD local, en caso de que no se pueda, se debe elegir un dominio .com y finalmente siempre se deben evitar los TLDs exoticos ya que a largo plazo NO sirven para posicionar.

Bing y Google mostrarán resultados de Twitter

La noticia del día fue inicialmente el anuncio de Microsoft de que Bing mostraría resultados de Twitter en tiempo real ( ver nota en el blog oficial de Bing).

Todos comenzaron a opinar sobre esta nueva movida de Microsoft por entrar en el mercado de buscadores en tiempo real.

Pero bueno, esta sorpresa duró muy poco, ahora Marissa Meyer vicepresidente de Productos y Experiencia de usuarios de Google,  acaba de mencionar en un post bien corto:

Given this new type of information and its value to search, we are very excited to announce that we have reached an agreement with Twitter to include their updates in our search results. We believe that our search results and user experience will greatly benefit from the inclusion of this up-to-the-minute data, and we look forward to having a product that showcases how tweets can make search better in the coming months. That way, the next time you search for something that can be aided by a real-time observation, say, snow conditions at your favorite ski resort, you’ll find tweets from other users who are there and sharing the latest and greatest information.

Bueno, pues parece que el ganador finalmente ha sido Twitter que ahora podrá obtener ingresos tanto de Bing como también de Google.

Todavía no esta muy claro como se integrará el contenido de Twitter en los buscadores, y ahora que comienza la carrera por los datos en tiempo real veremos qué grupo de ingenieros es más hábil…

Atualización
Bing Twitter ya está online como www.bing.com/twitter