Universidad Nacional Autónoma de México
Dirección General de Servicios de Cómputo Académico
Año 7 Núm. 74, Publicación Mensual, 27 de Noviembre de 2008

ARTÍCULOS

 

Perdido en la interfaz
José Fabián Romo Zamudio

Hace algunos años, tuve la oportunidad de usar uno de los principales programas para el reconocimiento de voz: Dragon Naturally Speaking. Con toda la emoción que embarga a cualquier terrenal usuario de computadoras, abrí la caja, inserté el disco compacto de instalación y seguí paso a paso el proceso. El objetivo era claro: al final de la configuración del programa debía poder redactar un artículo para Entér@ate sin mover un solo dedo.Bueno, concedamos menos arrogancia: un dedo, pero para dar un clic en Guardar.

Las cosas no ocurrieron como lo suponía. Al final de la instalación se desataba otro proceso: el entrenamiento. ¿Entrenamiento para quién? Seguramente para la computadora, para el software. Y así lo decían las instrucciones: se requería de cierto “período de reconocimiento de voz”. Con toda la amabilidad, los cuadros de diálogo del asistente me indicaban que era fundamental esa etapa para que el software “se acostumbrara a mi tono de voz, ritmo, volumen, ruido de fondo” y un nada corto etcétera de razones y condiciones a cubrir.

Me sentía de nuevo en la banca del salón de primaria, pues con toda propiedad había de leer los textos presentados, sin “falsear” el ritmo normal de conversación, ni hacer demasiadas inflexiones, leer “de corrido”, no ponerme nervioso, conservar la misma distancia con el micrófono de la diadema siempre, no toser o estornudar, procurar que no aparecieran ruidos extraños que alteraran la grabación de las prácticas de entrenamiento. Decidí que no era entonces el mejor momento para empezar con esa fase, el teléfono podía sonar o alguien tocar a mi puerta. Bueno, tal vez era mejor entrenar a la computadora en el desierto, a ver si el calor no afectaba también la grabación. Ya la voz no era la misma ante tamaños requisitos por recordar.

Tiempo después, con el advenimiento de reconocimientos de voz en los teléfonos celulares, y obvia consecuencia de ese ideal de mover los dedos lo menos posible, practiqué todas las opciones de grabación de comandos simples para llamar a contactos. Por desgracia, el efecto era el mismo. Ante la invitación a “grabe un comando” que me daba el teléfono, siempre las condiciones ambientales eran distintas, y con la esperanza de que en el tráfico o en la oficina el teléfono siguiera las órdenes, el “ruido de fondo” era el origen de la desilusión.

Aunque parece increíblemente atractiva la interfaz de un iPhone, con esa pantalla que gira la imagen en función del acelerómetro interno que le indica posición vertical u horizontal, muchos usuarios seguimos teniendo un grave problema: o esos aparatos son demasiado pequeños o nuestros dedos demasiado grandes. Y no es para menos. La desesperación nos invade cuando debemos regresar una y otra vez a corregir la letra que no queríamos usar, el acento que faltó o los dígitos que debieron aparecer, pero la dimensión de la superficie dactilar no nos ayuda, incluso con el meñique. Peor se pone la cosa si el aparato en cuestión activa su interfaz por presión y calor: ahí sí, no se nos ocurra usarlo con guantes en plena época de frío.

Son innegables los avances en las inferfases humano-computadora. En pocas décadas pasamos del desarmador, el tornillo y la cinta de aislar para programar los viejos computadores a teclados y ratones, al arribo de las modernas interfases de teléfonos celulares, las PDA y algunos sistemas de escritorio y portátiles, con las cuasi mágicas pantallas sensibles al tacto, teclados on screen, y seguimiento del apuntador por plumillas, por mencionar algunas.

Pero ninguna de esas gloriosas interfases, producto de miles de horas de investigación y desarrollo, son todo lo “humanas” que quisiéramos. ¿Cuál es, entonces, la interfaz ideal? La respuesta es sencilla: la misma que empleamos los humanos para comunicarnos entre nosotros. Tenemos la capacidad para entender, al menos, un lenguaje o idioma, y aunque existen múltiples acentos y ritmos de pronunciación, es relativamente fácil interpretar lo que nos están queriendo transmitir, o al menos nuestro cerebro nos hace creer eso.

Lo mismo ocurre con la escritura, que a pesar, ahí sí, de los errores ortográficos o gramaticales, la capacidad de corrección y ajuste de cada cerebro es tal, que conseguimos captar el mensaje, por muy distorsionada que sea la escritura del emisor —con sus límites, claro está—. ¿Por qué entonces la computadora, en cualquiera de sus formas, colores y sabores, no puede interpretar de forma directa la interfaz de comunicación que usan los humanos entre si?

Todo es cuestión de tiempo. Ya existen avances importantes en este sentido, desde el reconocimiento de voz en algunos modelos de teléfonos celulares para detectar órdenes o nombres de contactos en el directorio almacenado, hasta el reconocimento óptico de caracteres que casi cualquier escáner proporciona, ya sea sólo por hardware o en combinación de hardware y software. Aún así, no se puede concluir que estas interfases son todo lo precisas y flexibles que se requiere.

El origen de todo, es que somos los humanos y las computadoras entidades separadas por la forma de asimilar la información y procesarla. Es claro que no existe una sola naturaleza humana, lo que una persona interpreta de un mensaje depende, en buena medida, no sólo de la estructura gramatical empleada por el emisor, sino también de todo el conocimiento previo, o desconocimiento incluso, que el receptor tenga del tema y de las ideas afines.

Dicho de otra forma: la interpretación de los mensajes en el humano va más allá de la plana secuencia de fonemas o símbolos escritos, incluye también una intencionalidad en el tono, la estructura y el ritmo en el que se transmite el mensaje. Esta capacidad de reconstrucción de los mensajes a partir de su codificación en un lenguaje específico, permite al cerebro humano incluso adelantarse a lo que se va a oír o leer. En cierta medida, las interfases de comunicación entre humanos contienen un buen grado de predicción de mensaje.

Un dispositivo digital sigue siendo, a la fecha, muy limitado en ello. Si bien, ya hay software para reconocimiento de voz anticipado, así como para la generación de audio sintetizado a partir de la “lectura” de caracteres en un archivo, la capacidad predictiva está apenas en pañales. La mejor muestra de ello es la tecnología T9, o predicción de texto usada en los mensajes escritos de los teléfonos celulares.

Desarrollada por Nuance Communications y licenciada en más de 800 modelos de teléfonos móviles, T9 va construyendo cada palabra a partir de un diccionario interno que se hace más complejo, conforme el usuario introduce nuevas palabras que no forman parte del diccionario original en el idioma seleccionado para el envío de mensajes. Un buen esfuerzo de entrenamiento tanto para el aparato como para el usuario, que proviene de una civilización no digital donde hay más de 10 caracteres básicos. Difícilmente, podría emplearse T9 en la redacción de este artículo en una computadora portátil. Aunque sería ideal algo parecido, máxime cuando los equipos portátiles disponen de teclados más pequeños.

Los diversos desarrollos para la interpretación del lenguaje humano en computadoras han partido de múltiples aproximaciones. Un algoritmo básico puede emplear los datos de la separación fonética de las sílabas, aunque resulta impráctico para ritmos de pronunciación variados. Otras metodologías incluyen el muestreo de una gran cantidad de voces y ritmos, creando una librería fonética humana. Una solución intermedia, al parecer más plausible, considera la determinación de un “tono de idioma”, es decir, un muestreo de frecuencia básica en cada lenguaje, con variaciones posibles dentro de ciertos grupos étnicos.

Los avances que se den en este sentido dependerán de la colaboración tanto de grupos de informática y procesamiento de señales, como de especialistas en el lenguaje e incluso de psicólogos, lo que tácitamente demuestra que las tecnologías de la información y la comunicación son, indiscutiblemente, multidisciplinarias. Aquí existe un área de oportunidad para las nuevas generaciones de ingenieros, programadores y científicos del cómputo, como lo demuestran las innovaciones en algo que parecería más profano que un procesador de texto: los controles de los videojuegos de séptima generación, así como la inclusión de los avances en inteligencia artificial, pues toda comprensión del lenguaje requiere cierto grado de análisis y síntesis, más allá de los simples ceros y unos.

Para mayor información:
http://www.t9.com

 

Inicio | Contacto |