Universidad Nacional Autónoma de México
Dirección General de Servicios de Cómputo Académico
Año 7 Núm. 74, Publicación Mensual, 27 de Noviembre de 2008

ARTÍCULOS

 

Año 2, Número 18, Abril de 2003
Audio digital, a ritmo de ceros y unos

José Fabián Romo Zamudio
josefrz@servidor.unam.mx

 

La forma de distribuir el audio ha cambiado en los últimos años, desde casetes, cintas de carrete abierto, discos de larga duración (78, 45 y 33 revoluciones por minuto), discos compactos y ahora DVDs, hasta  alcanzar hoy en día medios como microchips e Internet, gracias al uso de estándares de codificación y compresión digitales, que a diferencia de los medios analógicos, proporcionan mayor calidad y fide-lidad de sonido.

El camino no ha sido fácil. Desde la primera forma de registrar el sonido (aquellos fonógrafos que amplificaban la señal que una aguja obtenía al recorrer un cilindro de cera, invento de Edison en el siglo XIX) hasta los modernos reproductores de MP3, el audio se ha transformado en algo cada vez más puro y cercano a lo que nuestros oídos pueden percibir en directo.

Audio analógico

Las primeras formas de grabación o registro del sonido fueron analógicas; la onda sonora se repre-sentaba por una señal eléctrica o física (como los surcos en un LP) similar o parecida a la señal original, era como un imitador: podía parecerse, pero, sin la misma calidad. Ruidos en el LP, polvo en el casete o mal registro del sonido, hicieron del audio digital un formato que, en su tiempo, tuvo auge, y que aún conserva un espacio en la grabación casera o en el registro de audio para reportajes o entrevistas.

La revolución digital

Es a finales de los años 60, cuando se desarrolló una nueva forma de grabar el sonido: en lugar de transformar las analogías a ondas o frecuencias, se convirtieron a impulsos codificados en ceros o unos, también llamados PCM. Los impulsos no se parecían a la forma de la onda original, eran  muestras de esa información. Visto de otra manera, el audio digital es, en esencia, la presencia o ausencia de señal, expresada como una sucesión de ceros y unos (código binario).

Parecería que una representación discreta del sonido, por simples pulsos, no sería mejor que la analogía de toda la onda o frecuencia del sonido registrada en los surcos del LP; pero ocurre lo contrario, una de las mayores ventajas del audio digital es que se incrementa el margen de frecuencias que se pueden registrar, en tanto el sonido no es una simu-lación, sino un registro completo de datos, que lleva además, a la considerable reducción de los ruidos y distorsiones, junto con la discrimi-nación de señales o pulsos no nece-sarios. Otra ventaja es que las copias siempre son idénticas al original, lo que no sucede con el audio analó-gico, donde cada nueva generación de copias se degrada en calidad.

Conversión de analógico a digital

Los humanos no generamos o recibimos información digital directamente; todo proceso de grabación y reproducción de audio tiene, en sus extremos, la parte analógica. El canto de un ave, una orquesta, el discurso de un político o un grupo de rock, son ondas con frecuencia y amplitud. De ahí que se deba realizar una conversión de analógico a digital (ADC por sus siglas en inglés) en cuatro niveles. El primero, comprende un filtro conocido como antialiasing, el cual define una frecuencia límite. Todos los sonidos por debajo de esa frecuencia, que normalmente es el máximo audible por los humanos, se registrarán. Los sonidos que excedan el tope de frecuencia son descartados, para evitar errores o demasiada información.

El segundo nivel, conocido como muestreo (sampling). es la toma de muestras o voltajes por unidad de tiempo (segundos) de la señal analógica. Una onda tiene crestas y valles, y el muestreo registra los puntos más significativos de su comportamiento. La frecuencia de muestreo es la cantidad de “ejemplos” de la onda por segundo. El Principio de Nyquist establece que un buen muestreo debe considerar frecuencias del doble del límite de audición, siendo en el caso de los humanos, 20 mil por segundo (20 Khz). Por ende, la frecuencia de muestreo ideal, para no perder información de la onda, debe ser al menos de 40 Khz. El audio digital de los discos compactos, por ejemplo, tiene frecuencia de muestreo de 44.1 Khz.

La tercera etapa es la cuantificación, en ésta se asignan valores numéricos a cada registro de la muestra. Como la información digital se apoya sólo en dos dígitos (el cero y el uno), cada punto de la muestra debe expresarse como una potencia de 2. Si por ejemplo, se usan sólo 2 bits para representar numéricamente el valor, sólo habría 4 valores distintos (00, 01, 10 y 11 que en decimal equivalen a 0, 1, 2 y 3) por lo que la cantidad de sonidos sería muy limitada. En los discos compactos se usan cuantificaciones de 16 bits, esto es, 65536 valores distintos para cada punto de la muestra, lo que permite una calidad de sonido excelente. Cuantificaciones de 24 y 32 bits se reco-miendan para procesos profesionales.

Por último, la codificación, o cuarto nivel. Los dígitos binarios no se registran tal y como salen de la cuantificación, sino que se esta-blece una regla o procedimiento para la grabación y reproducción, comprimiendo los datos para optimizar el espacio disponible en el medio donde se almacenará, y relacionando la lectura de los datos con la sincronía de reproducción. Aquí aparecen los distintos formatos de audio digital.

Con el archivo de audio almacenado en algún medio, las computadoras pueden invertir el proceso, es decir, convertir de digital a analógico (DAC) para que sea entendible por los humanos. Cada canal de audio pasa por el proceso inverso, hasta convertirse de nuevo en ondas o variaciones de voltaje que llegan a las bocinas o audífonos, de esta manera se hace vibrar una membrana que estimula las moléculas del aire alrededor, las cuales son captadas por nuestros oídos e interpretadas por el cerebro.

Archivos de audio digital

Para ser procesados por las computadoras, los archivos de audio digital deben tener las siguientes características, independientemente del tipo de archivo:

a) Encabezado. Contiene el tipo de archivo, el número de canales (monoaural, estéreo, etcétera), la frecuencia de muestreo, la cuantificación y duración.

b) Datos. Los valores numéricos codificados del proceso de registro.

¿Qué tamaño en bytes puede ocupar un archivo de audio digital? Es el resultado de multiplicar la frecuencia de muestreo por la duración en segundos, por el total de pistas o canales y por la cuantificación. Eso nos da un resultado en bits. Al dividirlo entre 8 (cantidad de bits por byte) se tendrá el tamaño del archivo en bytes. Por ejemplo: un minuto de audio con frecuencia de muestreo de 44.1 Khz, 16 bits de cuantificación con dos canales (estéreo) tendrá un resultado en bytes de (44100 x 60 x 2 x 16) /8 = 10 584 000, poco más de 10 MB.

Lo anterior no considera ciertos formatos de compresión, que reducen la cantidad de bytes almacenados al establecer una relación entre las posiciones de los ceros y unos en el archi-vo. Los principales archivos de audio digital son:

CDA (Compact Disc Audio). Es el formato nativo de los discos compactos, con frecuencias de muestreo de 44.1 Khz, 16 bits de cuantificación y en dos canales. Es claro que ocupa mucho espacio, por lo que un disco compacto promedio tiene capacidad de 74 minutos.

WAV (Microsoft Wave-from). Estándar en las computadoras con sistema Windows. A diferencia del CDA, posee más frecuencias de muestreo: desde los 8 Khz hasta 192 Khz. Se puede deducir que puede requerir más espacio en memoria, mayor capacidad de procesador y recursos de disco.

AIFF (Audio Interchange Format File). Popular en sistemas Apple. Soporta hasta 44.1 Khz y 32 bits de cuantificación.

RA o RM (Real Audio). Creado por Real Networks. A pesar de tener una muy buena compresión y descompresión, generalmente su calidad no es adecuada para aplicaciones profesionales, pero es muy usado en la distribución de señales de audio a través de Internet en tiempo real o en vivo, esto es, en modo de streaming.

Windows Media Audio (WMA o MS Audio). Creado por Microsoft para competir con el MP3.

MIDI (Musical Instrument Digital Interface). Más que un archivo, es un protocolo o norma para transferir información entre dispositivos musicales como sintetizadores, guitarras eléctricas, violines electrónicos y software diverso. Un archivo o comunicación MIDI indica tonos, pulsos, variaciones de intensidad, sostenidos y duraciones, que pueden alterarse en cada instrumento. Es muy útil para los artistas que desean generar sus producciones combinando varios dispositivos con el apoyo de computadoras.

Mención aparte merece MP3 (MPEG-1 Capa 3). Fue creado por Thomson Multimedia y el Instituto Fraunhofer de acuerdo con la norma establecida por el Grupo de Expertos de Imágenes en Movimiento (MPEG) para ser el estándar de audio digital en los archivos de video MPEG-1. A diferencia de los formatos anteriores, MP3 contiene procesos de alta compresión, y puede  reducir el tamaño de los archivos hasta 12 veces.

¿Porqué es tan popular? Gracias al nivel de compresión de los archivos, es mucho más fácil distribuir audio digital a través de Internet. Transferir un archivo CDA promedio de cuatro minutos, implicaría poco más de tres horas de conexión a Internet por medio de un módem de 28.8 Kbps. En cambio, el mismo archivo en MP3 con la compresión más alta, podría requerir de sólo 15 minutos para completar la descarga.

La compresión que hace MP3 de la información binaria se apoya en un concepto denominado codificación perceptiva, que elimina frecuencias en teoría no fáciles de captar por los humanos, conservando la fidelidad del sonido en la medida de lo posible y reorganizando las relaciones de registro de los ceros y unos en el archivo final. Recientemente se introdujo MP3PRO, que comprime aún más la información, hasta la mitad de tamaño que ocupa un archivo MP3.

Por las dimensiones tan prácticas de los archivos MP3, muchos nuevos reproductores han surgido en el mercado, lo mismo lectores de disco compacto que interpretan archivos CDA y MP3, hasta pequeños dispositivos con memoria flash y PDAs, por lo que los usuarios pueden agregar archivos que obtengan de Internet, con la ayuda de un equipo de cómputo.

Existen multitud de programas para la captura de audio, desde la tarjeta de sonido de la computadora y su conversión digital a MP3. También hay rippers, o programas que permiten la extracción de audio digital de cierto formato, como el CDA, para convertirlo a WAV o MP3; y programas de postproducción, que permiten combinar archivos de diversos formatos, mezclarlos, alterar su niveles, crear efectos y producir archivos en uno u otro formato dependiendo del uso final. Puede convertirse de un formato a otro siempre que se conserven la frecuencia de muestreo, los canales y la cuantificación. Es fácil deducir que si las frecuencias de muestreo y la cuantificación varían, habrá ocasiones en las que el “regreso” o codificación a un formato de alto nivel no será posible, por ejemplo: un archivo MP3 a 32 Kbps no poseerá información suficiente para crear a partir de él un archivo WAV o CDA de 115 Kbps.

Aspectos legales

La enorme popularidad de MP3, produjo la aparición de programas y sitios en Internet dedicados a la transferencia de archivos musicales. Recordemos el famoso Napster, que tuvo gran éxito, pero violaba muchas leyes de derecho de autor, al distribuir archivos MP3 entre usuarios finales, sin el consentimiento de los dueños de tales derechos. Muchas casas productoras han agregado a sus discos candados antirippeo para evitar la duplicación o alteración de formato de archivos de audio digital. Conviene como usuarios, respetar las normas y leyes, y usar los formatos de audio digital en la forma adecuada, para las producciones propias.

Para más información

http://www.iis.fraunhofer.de/amm/

http://www.thomson.net/gb/index.htm

http://www.musiclab.com/

Inicio | Contacto |