Universidad Nacional Autónoma de México
Dirección General de Servicios de Cómputo Académico
Año 7 Núm. 74, Publicación Mensual, 27 de Noviembre de 2008

ARTÍCULOS

 

Año 4, Número 42, Septiembre de 2005

El reto de los buscadores

Gustavo A. Gutiérrez Ramírez

 

El universo de Internet es un espectro que se expande a cada instante: alrededor de mil millones de usuarios a nivel mundial (de los cuales 15 millones son mexicanos) utilizan este sistema de información; se tienen registradas un poco más de ocho mil millones de páginas electrónicas; se estima también que existen 10 millones de blogs, cifra que cambia constantemente pues cada día se agregan a la lista, 80 mil nuevos espacios de este tipo.

Todo esto significa un número que incrementa de manera exponencial la información y los conocimientos, denotando una apertura informativa abierta a mayores áreas del saber humano, accesibles a casi todo el mundo. Sin embargo, en la enorme biblioteca digital en que se ha convertido Internet, se debe contar con herramientas accesibles, confiables y rápidas que ayuden a encontrar y acceder a la información que requerimos.

Para ello, el usuario requiere de “buscadores” que encuentren los datos, las cifras, los eventos o todo aquello que esté interesado en obtener de la red de redes. Humberto Madrid de la Vega, catedrático de la Universidad Autónoma de Coahuila, explica que hay factores siempre complicados en la creación de un motor de búsqueda (así se les denomina a este tipo de sistemas), y son precisamente el cómo reunir y clasificar la información, además de la manera de jerarquizarla en una base de datos, bajo cierto orden de importancia.

A lo largo de la existencia de ya casi 10 años que llevan los buscadores en línea, se han utilizado varios modelos. Uno de ellos es el método de frecuencia, en el que un buscador selecciona el contenido de una página y lo ubica en un lugar determinado, con base en el número de veces que se repite el concepto buscado.

Otro modelo se basa en técnicas de álgebra lineal, en donde se construyen vectores a partir de los contenidos de páginas electrónicas. Cada entrada de estos vectores corresponde a un concepto clave, información con la cual es posible formular una matriz de términos, en donde las columnas representan los sitios en Internet, y los renglones, los conceptos clave. Dicha matriz que es dispersa, y sólo contiene 1´s y 0´s (en términos de código binario), servirá para encontrar la información deseada.

Google es un ejemplo de esta técnica, ya que implica matrices de más de ocho mil millones de columnas correspondientes a igual número de páginas electrónicas. Así cuando se requiere hacer una búsqueda, el usuario escribe los conceptos clave, que son convertidos en vectores y multiplicados por la matriz. Aquellas entradas del vector resultante de esta operación que tengan el número más alto, corresponden a las páginas que aparecerán en los primeros lugares de la búsqueda.

Se tiene el reto, menciona Madrid, de incrementar la rapidez y precisión de los motores de búsqueda, por “ello se están probando unas técnicas sofisticadas denominadas del subespacio de Krylov, que junto con la creación de las bases de datos en forma automatizada, son de los proyectos que ayudarán a lograr este fin”.

Sin embargo y de manera independiente, De la Vega aconseja implementar modelos simples de búsqueda en bases de datos pequeñas, tales como una biblioteca local o un sistema de administración para una Universidad o institución de educación hasta de tamaño mediano. Para una arquitectura de mayor envergadura se necesita, dice el experto, de un motor de búsqueda más sofisticado, implementado hasta cierto punto por la dependencia interesada o, en su caso, acompañado de una asesoría de una compañía especializada.

La Universidad de Coahuila se encontraba hace un año realizando un proyecto de un motor de búsqueda de grandes dimensiones, en el cual se estaba tratando de imitar los inicios del buscador Google que, como se sabe, utilizó al inicio de su vida el llamado Método de la Potencia, asegura Madrid.

Asimismo, Humberto Madrid afirma que en este proyecto se están haciendo las modificaciones necesarias al modelo mencionado, para tratar de que resulte más eficaz y certero en los resultados obtenidos. “Sin embargo, hay muchas fórmulas por hacer y probar, matemáticamente no se han agotado las posibilidades en torno a este problema que se puede tornar complejo”.

Para mayor información:

http://www.elpais.es/articulo/elpcibsem /
20050901elpciblse_1/Tes/

http://www.minas.upm.es/inicio/FGS/
trabajos/98a06.htm

Inicio | Contacto |