Informática musical

El formato MP3

10/02/2002 por Xavier Blanco | 6 min de lectura

En este artículo...

La codificación de audio y vídeo
AUDIO MPEG-1 y el efecto de ocultación
El MP3 y su uso práctico

La codificación de audio y vídeo

Actualmente, las técnicas de codificación de datos tienen una aplicación muy importante en el procesamiento de audio digital y de vídeo por ordenador. Estas técnicas son la clave tecnológica para cualquier aplicación con una transmisión o capacidad de almacenamiento limitadas. En años recientes, se han llevado a cabo una infinidad de progresos. Uno crucial partió de la existencia de varios formatos propios de diferentes empresas para la codificación de audio y video; para evitar esta confusión, el comité ejecutivo de la estandarización ISO/IEC optó por crear un estándar internacional (MPEG) para herramientas de codificación de audio y video.

MPEG es el Grupo de Expertos de Imágenes en Movimiento, por sus siglas en ingles. Se trata de un grupo de personas dentro de la Organización Internacional de Estándares (ISO en inglés) que desarrollan formatos estándar para video digital y compresión de audio. Como cada empresa tiene sus propios algoritmos de compresión, es ahí donde recae la importancia de contar con un estándar internacional. MPEG se reúne cuatro veces al año durante una semana completa para organizar y planificar sus trabajos. Este grupo ha clasificado los estándares multimedia en:

MPEG-1: Codificación de Imágenes de Movimiento y Audio Asociado para Medios de Almacenamiento Digital a 1,5 Mbits/s.
MPEG-2: Codificación Genérica de Imágenes de Movimiento e Información de Audio Asociada.
MPEG-3: Originalmente planeada para aplicaciones de HDTV (Televisión de Alta Definición), pero finalmente incluida en MPEG-2.
MPEG-4: Codificación de Objetos de Audio-Visual.

AUDIO MPEG-1 y el efecto de ocultación

Lo primero que se debe conocer es cómo se almacena el sonido en un ordenador. El sonido es una diferencia de presiones en el aire; para almacenarlo digitalmente, debemos convertirlo en niveles de voltaje (esto lo hace un micrófono o un amplificador, por ejemplo). Este voltaje es muestreado por el ordenador cierto número de veces por segundo. Para una calidad de audio de CD se necesita muestrear 44100 veces por segundo (44.1 Khz), y cada muestreo debe tener una resolución de 16 bits para no perder la fidelidad. Para almacenar esta cantidad de datos en estéreo se necesita una transferencia mínima de 1,4 Mbit por segundo, demasiado para plantearse almacenamientos masivos en los medios actuales (peor aún es el caso de la transferencia por internet). Es por ello que se necesita la compresión de datos.

La compresión de audio MPEG-1 trata de eliminar las partes irrelevantes y redundantes de la señal. Las partes del sonido que no se escuchan pueden ser desechadas, y para realizar esto, MPEG Audio se basa en el efecto de ocultación (masking). Este concepto pertenece a una ciencia llamada psicoacústica, que trata de estudiar la forma en que el cerebro percibe el sonido.

Se parte del principio de que cualquier sonido débil cerca de uno fuerte es ocultado. Supongamos que se tiene un tono fuerte de 1 kHz y otro tono cerca de 1,1 kHz, siendo este segundo tono 18 dB menor que el anterior. Pues bien, el cerebro no escuchará este segundo tono, ya que es completamente ocultado por el tono de 1 kHz.

Lo que hace el sistema MPEG Audio es dividir el espectro audible de frecuencias (20 Hz a 20 kHz) en 32 subbandas. Cada una de estas subbandas contiene una pequeña porción del espectro de audio. El codificador calcula el efecto de ocultación que se produce entre las distintas bandas y reduce o filtra unas u otras. También, el codificador considera la sensitividad del oído para varias frecuencias. El oído es poco sensible a las altas y bajas frecuencias; el pico de mayor sensibilidad está alrededor de los 2 a los 4kHz, que es la misma región que ocupa la voz humana.

El MP3 y su uso práctico

MPEG realiza la compresión de señales de audio empleando tres esquemas de codificación llamados Layer-1, Layer-2 y Layer 3. Del Layer-1 al Layer-3, la complejidad del codificador y el funcionamiento (calidad del sonido por rango de bits) se incrementan. Los tres codificadores son compatibles en una forma jerárquica; así, el Reproductor-3 puede descodificar los datos de todos los anteriores.

El Layer-3 es el miembro más poderoso de la familia de codificación en MPEG Audio. Éste es el famoso MP3, en definitiva. Para un nivel dado en la calidad del sonido, este requiere el menor ratio de bits, o para un ratio dado de bits consigue mejor calidad en el sonido. A continuación puedes ver el ratio de compresión que ofrece el Layer-3 para determinadas situaciones. Las proporciones indican cuánto se reducen los datos respecto al original; así, una compresión de 16:1 supone un archivo 16 veces menor que el original.

Calidad del sonido	Ancho de banda	Modo	Ratio de bits	Ratio de compresión
Sonido telefónico	2,5 kHz	Mono	8 kbps	96:1
Mejor que onda corta	4,5 kHz	Mono	16 kbps	48:1
Mejor que radio AM	7,5 kHz	Mono	32 kbps	24:1
Similar a radio FM	11 kHz	Estéreo	56 a 64 kbps	26 a 24:1
Casi CD	15 kHz	Estéreo	96 kbps	16:1
CD	> 15 kHz	Estéreo	112 a 128 kbps	14 a 12:1

Las aplicaciones de un medio de compresión tan potente son evidentes. Los CD-ROM's (y los discos duros) han llegado a ser los dispositivos más populares para el almacenamiento de datos multimedia. Sin embargo, con la llegada del estándar DVD se requiere una mayor capacidad en el almacenamiento. Tratándose de señales estéreo sin comprimir, se requieren de más de 10 Mbytes para almacenar un minuto de música. Empleando el Reproductor-3, menos de 1 Mbyte es suficiente para el mismo tiempo de ejecución y obviamente se necesita menos memoria.

La distribución de música por Internet es la segunda aplicación principal del MP3. El común de los consumidores emplea conexiones con bajo ratio de bits (ISDN a 64 kbps ó módems de líneas telefónicas a 56 kbps), si bien la situación ha mejorado con los módems de cable y ADSL. Sin la codificación de audio, el bajar archivos sin comprimir de alta calidad de audio desde un servidor de Internet resultaría en largos tiempos de transmisión. Por ejemplo, usando un módem de 56 kbps, una pista de 3 minutos estéreo (31,7 Mbyte) requeriría un tiempo de bajada de más de 4 horas. Es por eso que el audio en Internet requiere de un sistema de compresión de audio que mantenga la mejor calidad del sonido y permita una decodificación en tiempo real sin la necesidad de un hardware especial. El Layer-3 cumple con estos requerimientos.

Por último, muchos creen que el mp3 es un formato libre de derechos. Esto no es así; a primeros de septiembre de 1998 el instituto Fraunhofer (el más implicado en el desarrollo del MPEG) envió una carta a todos los desarrolladores de descodificadores, como Winamp -en la foto derecha-. En esta carta, Fraunhofer dejaba bien claro que deberían pagar una licencia por el uso de las especificaciones MPEG-audio Layer-3.

Comparativa | MP3 con distintos ratios en la web de Fraunhofer