Sobre la URL canónica

En los últimos días hubo muchas discusiones sobre las URL’s canónicas, debido a la ultima actualización del índice de Google.

Para poder comprender realmente el problema, primero es necesario entender exactamente el termino.

Definición
Una URL (Uniform Resource Locator) canónica es una denominación unívoca que describe un nodo en la estructura jerárquica de los DNS (Domain Name Server) en Internet.

En otras palabras: es el nombre propio de cada una de las páginas webs en Internet. La construcción de las URL’s se realiza de acuerdo a la nomenclatura definida y jerarquizada

{protocolo}://{directorio o archivo}:{numero de puerto TCP}.

Por ejemplo, si la página web se llama ejemplo.html y está en el dominio mi-dominio.com entonces la URL canónica será:

http://mi-dominio.com/ejemplo.html

Pero en el mundo del Internet, se hizo costumbre colocar delante del nombre del archivo www para remarcar de que se tratá de una página WEB (www= World Wide Web), lo cual ahora ya se ha hecho un quasi estandard. Por este motivo, la mayoría de los servidores Web permiten seleccionar una página mediante las dos denominaciones.

En nuestro ejemplo:
http://mi-dominio.com/ejemplo.html
y
http://www.mi-dominio.com/ejemplo.html
mostrarían la misma página.

Google y las URL’s canonicas
Debido a que Google escanea todo lo que encuentra en su camino, en caso de que por algún motivo la web tenga algun enlace de la forma http://mi-dominio.com, es decir sin www, también va ha tratar de indexarla como la web clasica http://www.mi-dominio.com.

Ahora bien, como Google últimamente ha cambiado sus algoritmos para detectar contenido duplicado, entonces Google al tener dos copias de cada página de la web, tiene que decidirse por una de las ellas. La primera mantiene su ranking y la otra es castigada y relegada a las ultimas posiciones.

Como detectar si mi web sufre de este problema?
Una forma de detectar si Google ha indexado las dos variantes de las URL’s es haciendo la siguiente consulta:

site:www.mi-dominio.com –www

En caso de que no aparezca ningún resultado, entonces Google no ha indexado a http://mi-dominio.com

El test inverso seria

site:http://mi-dominio.com

Esta búsqueda muestra todas las páginas que han sido indexadas sin www.

Como se puede solucionar el problema?
Actualmente Google esta tratando de resolver este problema con sus actualizaciones, pero lamentablemente hasta ahora sin mucho éxito.

Este problema se puede solucionar desde el servidor web, redireccionando la URL http://mi-dominio.com a la dirección clásica.

Para esto, el servidor debe permitir el uso de rewrite_mode. En el archivo .htaccess, que se encuentra en la raíz, se agregan las siguientes lineas:

RewriteEngine On
RewriteCond %{HTTP_HOST} !^www\.mi-dominio\.com$
RewriteRule ^(.*)$ http://www. mi-dominio.com/$1 [L,R=301]

Microsoft incluirá servicio de VoIP en outlook

Hace unos días los medios informaban que MS había comprado la empresa suiza Media Streams AG , que es especialista en VoIP (voz por IP).

Ahora ya hay informes de que MS incorporará esta tecnología a la nueva versión de Office 12 que saldrá el próximo año juntamente con Windows Vista. La tecnología de Media Streams sería incorporada a Outlook para permitir la comunicación telefónica mediante Internet. También se incluirá un función de contestador de llamadas para cuando el usuario no este en su puesto de trabajo.

Via Llama MasBarato

Symphony – Un nuevo Framework para AJAX en PHP5

Symphony es un proyecto open-source en PHP5 para crear un framework para Ajax.

Symphony se basa en otros proyectos open-source y librerías de JavaScript.

Yo aun sigo esperando el Framework para AJAX. Seguramente, recién en los próximos meses alguna de las cientos de bibliotecas que están apareciendo se convertirá en la favorita de los desarrolladores y se volverá un estándar.

Via Ajax Magazine

Jagger3: El 7 se sobrepone al 9

Finalmente, después de un largo fin de semana con mucho suspenso y muchas discusiones en todos los foros (DigitalPoint, WMW, webseo, etc.), ayer en la noche los datos del DC (data center) con el IP 66.102.7.104 se han sobrepuesto en su mayoría a los datos del 66.102.9.104.


La batalla de los dc

De esta manera, parece que la actualización de Google con el nombre Jagger y sus tres fases esta llegando a su fin.

En uno de los últimos mensajes de GoogeGuy se notaba que no estaba muy conforme con los resultados alcanzados.

El nuevo índice aún contiene muchos errores, entre ellos:

  • URL canónicas: aun existe una infinidad de páginas en el índice que muestran este problema.
  • Resultados suplementarios: Se refiere a páginas que devuelven 404 o que han sido borradas del índice mediante la herramienta de Google, pero aun están apareciendo en el índice con el texto ‘Resultados Suplementarios’.
  • Spam: Según muchos SEO’s el spam ha vuelto nuevamente a las primeras posiciones.

Si es que en los próximos días Google no decide nuevamente hacer algún ajuste con relación a los problemas anteriormente mencionados, recién podremos analizar con mas detalles cuales has sido los cambios que se han realizado a los algoritmos.

La lista de compras de Google

Aqui una lista de las compras que Google ha ido realizando en los ultimos años. Como se puede apreciar algunas empresas han sido la base de nuevos productos de Google, así como otras compras han sido solo por motivos de PR (Public Relations).

2/2001: Deja (El archivo de Usenet, pero no la empresa)
9/2001: Outride (Valores, patentes, códigos fuente, etc.)
2/2003: Pyra Labs – Blogger.com
4/2003: Neotonic Software – e-mail customer support
4/2003: Applied Semantics – domain name, contextual advertising and enterprise search solutions
9/2003: Kaltix
10/2003: Sprinks
10/2003: Genius Labs
4/2004: Ignite Logic – Empresa que apoyaba abogados
6/2004: Baidu – Buscado chino
7/2004: Picasa – Programa de procesamiento de imagenes (PR)
10/2004: Keyhole – La base de Google Earth
03/2005: Urchin – Webanalyse (PR)
05/2005: Dodgeball

Fuente: Google Acquisitions

Google patenta resultados de búsquedas personalizadas

Google presento en Julio de 2004 su propuesta Personalization of placed content ordering in search results a la oficina de patentes y marcas registradas de los Estados Unidos.

A fines de Octubre de este año la patente ha sido aceptada y publicada. En resumen se puede mencionar que esta patente explica como se pueden mostrar resultados de búsquedas personalizadas usando el perfil del usuario. Para este motivo es necesario recolectar informaciones del usario y armar un perfil que es luego usado para influenciar los resultados de las búsquedas.

Un aspecto interesante de la patente es que se indica que se puede personalizar los resultados también en computadoras comunes, usadas por muchas personas, como en bibliotecas sin que los usuarios se necesiten loggear. El perfil se va armando en el transcurso de las búsquedas y usaría, entre otros, la forma de como el usuario usa el teclado y el ratón para reconocer el perfil.

Google y Yahoo entran en el mercado de los móviles

Según informaciones del New York Times, Yahoo ofrecerá próximamente con la empresa SMS Communication un móvil para el mercado norte americano. Este móvil seria producido por Nokia, tendrá un MP3-Player y una cámara de 1 Megapixeles. Este móvil podrá usar los Yahoo-Services que actualmente están disponibles para los PC’s.

También Google esta tratando de convertir los celulares en PC’s móviles. Desde hoy, Google ha habilitado su servicio Google Maps también para algunos tipos de móviles. El servicio se llama Local for Mobile y actualmente esta restringido a los Estados Unidos.

Google ha planificado extender su servicio a más de 100 modelos diferentes de móviles, y como ya es costumbre, es un servicio gratuito.

Actualización
Un empleado de Google a presentado una canción para el servicio local for mobile: Get lost and found on your phone

Linux-backdoor se propaga por hueco en XML-RPC

En los últimos días se esta observando mucha actividad en el puerto UDP numero 7111. El motivo del trafico es el backdoor Backdoor.Linux.Small.al, ya que este gusano escanea el puerto 7111 para reproducirse, aprovechando un hueco en XML-RPC de PHP en los sistemas Linux.

Los webmastes que usan software para foros, wikis, o sistemas de contenido (CMS = Content Management Systems) deben actualizar sus sistemas.

Más informaciones
Blog de F-Secure
Informaciones de seguridad del Internet Strom Center

Microsoft investiga para crear un nuevo sistema operativo

Microsoft Research presento detalles sobre un nuevo proyecto llamado Singularity.

La principal característica de este proyecto es desarrollar un sistema operativo que sea confiable (reliability), que tenga alta disponibilidad (availability), que tenga alto grado de seguridad contra intrusos (security) y de que sea seguro (safety).

En este documento se detallan las características del sistema operativo.

La base de Singularity son los SIP’s (Software Isolated Process):

– Los SIPs son objetos cerrados y no tienen espacios de memoria direccionables como los procesos comunes.

– Los SIPs no pueden generar código y tampoco cargarlo en forma dinámica.

– Los SIPs pueden estar tanto es espacios físicos de memoria como también en espacios virtuales.

– Los SIPs se comunican entre si solamente mediante canales bi-direccionales que tienen tipos de datos (data types).

– La comunicación entre SIPs es rapida y no tiene overheads.

– Los SIPs son creados y terminados solamente por el sistema operativo, de modo que al terminar un SIP, todos los recursos, como por ejemplo memoria, son completamente liberados.

– Los SIPs se ejecutan completamente independiente, hasta el hecho que tienen diferentes estructuras de datos, y rutinas del sistema operativo del garbage collection.


MS Singularity
Arquitectura de Singularity

Para el desarrollo de Singularity se usará con lenguaje de programación Sing# que es una extensión de Spec#. Spec# es un lenguaje para especificaciones que a su vez se basa en C# que contiene constructos de pre- y post- condiciones (pre- , post-conditions) así como invariantes.

El enfoque que esta dando MS a este proyecto es muy interesante, pues se están usando por primera vez conceptos muy conocidos en la informática teorética para demostrar la funcionalidad de algoritmos, como son los constructos de pre-, post-conditions y las invariantes que permitirían obtener la predicibilidad de los tiempos de ejecución de los programas.

También la idea de encasuplación de procesos no es nueva, pero los sistemas operativos comerciales no la usan, lo que causa infinidad de problemas como la caída de programas, del sistema operativo mismo, y hasta el uso de exploits para introducir virus y troyanos en las computadoras.

Finalmente el control total de todos los recursos mediante el sistema operativo, podría evitar lo que hoy todos conocemos: El aumento del consumo de memoria causado por algunos programas que no devuelven este recurso después de usarlo, lo que generalmente causa la lentitud de la computadora, y la necesidad de un reinicio.