Universidad Nacional Autónoma de México
Dirección General de Servicios de Cómputo Académico
Año 7 Núm. 74, Publicación Mensual, 27 de Noviembre de 2008

ARTÍCULOS

 

Año 1, Número 12, Septiembre de 2002
EL PROBLEMA DE LAS BÚSQUEDAS EN INTERNET

Carlos Suárez Gutiérrez
csuarez@ola.icmyl.unam.mx

 

En los últimos años, la red se ha convertido en algo parecido a un monstruo de mil cabezas con el millón de nuevas páginas que se incorporan diariamente en los servidores de todo el mundo. Este crecimiento, como es de suponer, ha sido caótico y muy rápido, lo que ha generado un sistema de información anárquico, sin orden y sin estructura.

Si a esto le sumamos, que los contenidos de la red son escritos por personas de muy distinta extracción, con educación diferente, con estilos dispares, en diversos idiomas y con intereses diversos, tenemos un verdadero problema cuando intentamos localizar cierto tipo de información entre todo lo que circula en la red, o dicho de otra forma: ¿cómo localizamos páginas relevantes y de alta calidad que satisfagan la necesidad de información nuestra o de los usuarios?

En el pasado, las personas que necesitaban buscar algo en Internet recurrían a una maquinaria de búsqueda (nombre que reciben los componentes en línea que permiten hacer las búsquedas y que incluyen al programa, el sitio Web, las bases de datos, etc.), donde escribían el o los términos de su interés y recibían a cambio, cientos de ligas a páginas que muchas veces eran inútiles o no tenían nada que ver con el objeto de la búsqueda; esto sigue ocurriendo y ha provocado que algunos usuarios enloquezcan porque nunca encontraron el sitio oficial de Toña la Negra.

En el nivel más básico, un buscador tiene una lista, para cada palabra, de todas los términos escritos en una página Web conocida. De igual forma, mantiene una colección de listas que es conocida como índice.

Crear y mantener índices es un proceso complejo y esto es, en realidad, lo que determina la respuesta que recibirá el usuario cuando realice una consulta.

Otra estrategia para localizar información es utilizar índices creados con base en los meta tags, una especie de palabras claves no visibles al momento de explorar una página, que en algún momento tuvieron la intención de facilitar la localización de información; el problema es que se abusó de esta estrategia y hubo sitios que escribieron cientos de veces “viajes gratis viajes gratis” en sus meta tags, lo que dio al traste con este sistema y complicó mucho más mantener una maquinaria de búsqueda efectiva.

En términos generales, las herramientas que intentan localizar información utilizando cualquier sistema basado en palabras han sido poco eficientes, debido a la naturaleza del lenguaje humano, el uso de polisemia (múltiples significados en una palabra) y sinonimia (diferentes palabras con el mismo significado): si busca “viajes” dejará a un lado los sitios que hablen de “vacaciones” y “excursiones”.

Otra estrategia que ha sido rebasada por el crecimiento explosivo de la red es la que utiliza Yahoo!, mediante la cual se realiza la clasificación de sitios por un grupo de personas dedicadas exclusivamente a esto, con los inconvenientes de que la base de datos nunca está actualizada y que el “factor humano” toma decisiones que a veces no tienen explicación.

Ahora, los expertos en sistemas de búsquedas en línea están intentando resolver este peliagudo asunto, mediante el uso de técnicas automatizadas que están de lo más interesante.

Entre los grupos de trabajo que se han formado para hacer frente a este problema, destacan dos que por su originalidad y, sobre todo, los buenos resultados, se han colocado como los más interesantes y probablemente, sean los que decidan el rumbo que tomarán los buscadores en los próximos años.

Veamos con detalle cuáles son y qué están haciendo.

GOOGLE

Los usuarios cotidianos de Internet consideran a Google como uno de los mejores, si no el mejor, buscador en línea, con tiempo de respuesta generalmente menor de un segundo y con resultados que casi siempre nos llevan a información relevante.

Este servicio de búsquedas en línea fue fundado por Larry Page (su nombre es destino) y Sergey Brin, dos estudiantes de doctorado en la Universidad de Stanford en 1998.

El corazón de Google es una tecnología llamada PageRank que mide la importancia de la páginas Web, basada en la estructura organizativa de la red, además de que usa la extensa estructura de vínculos del Web como indicador del valor de una página en particular, de tal forma que analiza los hipervínculos existentes entre un sitio y otro, y los considera como “votos”; Google interpreta un hipervínculo de la página A a la B como un voto por B, así, el sitio que tenga el mayor número de votos aparecerá primero en los resultados de las búsquedas.

De esta forma, se rompe con el esquema de analizar el contenido de una página para saber el tema al que se refiere, por ejemplo, si revisa el portal de IBM verá que no aparece la palabra “computadora” por ningún lado, sin embargo, muchos sitios que hablan sobre computadoras tienen ligas a IBM por lo que es probable que tenga un alto número de votos usando el sistema Google.

Este sistema ha demostrado ser extremadamente rápido, debido a que atiende más de 100 millones de consultas al día y almacena en sus bases de datos, dos mil millones de páginas Web.

Si lo quiere probar vaya a www.google.com

CLEVER

Este proyecto de IBM tiene algunas similitudes con el modelo de Google, sólo que Clever se basa en la definición de dos tipos de sitios presentes en la red: autoridades y concentradores; los primeros, son sitios que contienen información relevante sobre algún tema en particular, como páginas de periódicos, sitios gubernamentales, comunidades de fans, etc.; por su parte, los concentradores son páginas que llevan a otras páginas, por ejemplo, muchos usuarios acostumbran poner algo parecido a “mis sitios favoritos” en línea, estas ligas o conexiones entre un sitio y otro son la forma en que la gente de Clever pretende atacar el problema de las búsquedas, localizando de manera automática a los sitios autoridades basándose en el número de ligas que apuntan a ellos; por ejemplo, los sitios de ecologistas apuntan con frecuencia al Web de Greenpeace, lo que da autoridad a este sitio. Uno de los riesgos evidentes de este sistema de clasificación, es que existen muchas ligas que son de publicidad o que llevan a lugares inexistentes, pero el proyecto Clever está depurando su algoritmo para que pueda identificarlos y descartarlos.

El enfoque Clever permite identificar también cibercomunidades, sitios que por tener temáticas similares tienden a agruparse y a colocar ligas entre ellos.

Clever, más que un sitio de búsquedas en línea, es una tecnología que está siendo licenciada y puede ser adquirida por terceros que estén interesados en incluirla en sus sitios.

De cierta manera, estas nuevas herramientas de búsqueda están revelando la estructura oculta del Internet, esa agitada maraña de ligas, sitios y comunidades que entre todos construimos día a día.

Inicio | Contacto |