En el mundo del audio profesional, como en casi todos los demás, la tecnología nos empuja diariamente a superar nuestros propios estándares de calidad. Una de las demostraciones de esto es el interés de muchos fabricantes por producir equipamiento capaz de trabajar con frecuencias de muestreo cada vez más altas. Partiendo de los “módicos” 44.1 KHz del CD y de los 48 KHz que fueron el standard para video durante años, hoy en día la mayoría de las producciones profesionales tienen al menos alguna etapa realizada en un sample rate superior: 88.2, 96, 176.4, 192, 352.8 y 384 KHz.
Pero es interesante analizar si detrás de esta nueva “carrera armamentista” en pos de frecuencias de operación cada vez más altas existe un fundamento técnico real que lo justifique. Veamos los hechos:
1) Al menos un miembro de cada familia de instrumentos musicales (percusión, cuerdas, metales y maderas) produce energía mensurable hasta los 40 KHz como mínimo, y en algunos casos mucho más altas aún. Ejemplos: la trompeta, el violin y el oboe mantienen su energía hasta los 80 KHz y el cimbal (o crash) hasta los 100 KHz, de acuerdo con un estudio realizado durante la década pasada en el California Institute of Technology (ver imagen 1).
2) Ciertamente el oído humano no alcanza a percibir la presencia de información en tales rangos de frecuencia, sin embargo (de acuerdo a la mayoría de los especialistas a nivel mundial) estas señales intermodulan con las señales que sí somos capaces de oir, modificándolas de diferentes maneras. Ya en 1991 un equipo de investigadores japoneses liderado por el notable Tsutomu Oohashi presentaba a la AES los resultados de su trabajo. Midiendo la actividad eléctrica producida en el cerebro humano a partir de la estimulación producida por sonidos de muy alta frecuencia, los investigadores llegaron a la conclusión de que éstos inducían la activación de “ritmos de electroencefalograma” que persistían aún en la ausencia de esta estimulación y que podían modificar la percepción de la calidad de sonido.
3) En un entorno típico de grabación musical, las intermodulaciones de HF (alta frecuencia) no llegan a reproducirse a través de los parlantes porque son limitadas por la máxima frecuencia muestreable por el sistema. Como sabemos, en un medio digital operando a 44.1 KHz la máxima frecuencia de audio permitida es de 22.05 kHz, de acuerdo con el Teorema de Nyquist. Frecuencias mayores a Fmuestreo / 2 que ingresen o se generen dentro del sistema producirán el efecto de aliasing y serán eliminadas por el siguiente filtro pasabajos.
Podemos concluir entonces que estas intermodulaciones de HF que en algunos casos consideramos importantes para la completa reproducción de la identidad sonora de ciertos instrumentos, no serán incluidas en el espectro sonoro de un sistema de audio profesional cuya máxima frecuencia de muestreo sea de 48 KHz.

Figura 1: (Amplitud vs Frecuencia) La figura representa una toma de cimbales, a 108.3 dB hecha con micrófonos B&K 4135, aproximadamente a cuarenta y cinco centímetros de distancia. El trazo superior indica los cimbales + fondo (background), corregido hacia 100 kHz. El trazo inferior solo el fondo. Nótese que la energía en 20, 30 y 40 KHz es mayor a la de 2, 3 y 4 KHz respectivamente; y que a 100 kHz se mantiene todavía muy por encima del background. Medición realizada por el Ing. James Boyk, del California Institute of Technology. Copyright 1992-1997 James Boyk.
Pero sin ninguna duda, un sampling rate más alto no garantiza de por sí mayor calidad de audio. Eso es parte del mito hi-tech que intenta vendernos la tecnología más cara con argumentos difíciles de comprobar. Es similar a la leyenda “Calidad CD” que traían muchos reproductores de audio de distintos formatos, como el MP3. ¿Qué significa calidad CD? Es obvio que el CD puede sonar tan bien o tan mal como se haya procesado el audio que está contenido dentro de él. En formas similares, los vendedores de equipamiento de audio profesional intentarán convencernos de que un equipo con capacidad de trabajar a una frecuencia de muestreo más alta es necesariamente mejor que uno que no posee tal capacidad. Esta parte de la historia es parcialmente cierta, por las razones expuestas anteriormente: en determinados casos (por ejemplo, la grabación de una batería en un entorno acústicamente controlado, utilizando micrófonos de alta performance para los cuerpos de la batería y overheads) pude comprobar personalmente la diferencia de trabajar a 48 KHz y luego a 96 KHz. Habiendo realizado las pruebas en idénticas condiciones y escuchando detenidamente en un entorno altamente controlado, encontré ligeras diferencias en la resolución de alta frecuencia,que se hacían más identificables en los micrófonos de platillos y de overheads. Mi conclusión al cabo de esta experimentación sonora fue que la modulación producida por la inclusión de señal de muy alta frecuencia afectaba la manera en que se percibía la información que sí se encontraba dentro del espectro audible. Por decirlo de otra manera, en mi escucha comparativa encontré diferencias debidas principalmente a la interacción entre las frecuencias audibles y las frecuencias inaudibles, que de esta manera pasaron a ser perceptibles. Si la información muestreada a 96 KHz se hiciera pasar a través de un filtro pasaaltos capaz de cortar en 48 KHza 24 dB/octava sin dudas dejaríamos de percibir por completo la señal resultante, porque al no haber intermodulación con frecuencias del espectro audible no seríamos capaces de registrar la presencia de señal de tan alta frecuencia.
Pero volviendo a los argumentos comerciales para sostener la venta de equipamiento caro, sepamos que de ninguna manera la frecuencia de muestreo nos garantiza calidad, en ninguna etapa de la grabación de audio.
Un elemento fundamental en este proceso es lo que conocemos como downsampling, es decir la etapa en la cual la señal muestreada debe ser reducida a su frecuencia de muestreo final (por ejemplo 44.1 KHz en el caso del CD). Este procedimiento es complejo y puede traer aparejada una degradación importante, que anularía todo el esfuerzo puesto en captar los mínimos detalles de resolución durante la etapa de grabación. Las técnicas de downsampling más comunes utilizan algoritmos específicos para convertir una señal discreta muestreada a una frecuencia FS in en otra señal muestreada a FS out. Si la relación entre ambas frecuencias de muestreo se mantiene constante a través del tiempo, entonces se utiliza conversión sincrónica. Este es el caso típico del downsampling que me toca realizar al final del proceso demasterización de un CD, ya que cualquiera sea la frecuencia original de muestreo, voy a convertir a 44.1 KHz para quemar los CD masters. Si en cambio la relación no es conocida o puede variar a través del tiempo se utiliza conversión asincrónica. Este es el caso (cada vez más común) de múltiples fuentes de audio digitales, cada una con su propio reloj interno, que deben ser procesadas en forma simultánea (streaming de audio, reproductores de audio en red,compresores de audio, etc).
Finalmente, hay que recordar que una razón de peso en la decisión de adoptar frecuencias de muestreo de sólo 44.1 y 48 KHz en el comienzo de la era digital fue lo que conocemos como BitBudget, es decir el presupuesto de bits disponible. En un CD de audio, la información se almacena a razón de 10 MB por minuto aproximadamente: cuando el formato CD comenzó a ser de uso masivo, el costo por MB en los discos rígidos era entre 500 y 1000 veces mayor que ahora. Esto explica que a comienzos de la década pasada fuera absolutamente imposible pensar en frecuencias de muestreo que obligaran a consumir el doble o el cuádruple del espacio por cada minuto de música almacenada. Todavía me acuerdo del disco rígido de “ultra alta capacidad” que pagué a precio de oro y venía con... ¡1 GB! Lo llamábamos “El Giga” y era la estrella del estudio. Otros tiempos, por supuesto.
Como corolario de esta serie de apreciaciones, creo que la señal de alta frecuencia tiene una cierta influencia en la manera en que percibimos la música, pero hay que condicionar esta conclusión a determinados parámetros:
- Los instrumentos a grabar deben ser capaces de producir energía de alta frecuencia en
- valores medianamente significativos
- El entorno y las condiciones de grabación deben ser los apropiados para poder oír la diferencia, de lo contrario no hay ninguna posibilidad de detectar una mejora.
- Si el formato final será de menor resolución y es necesario hacer downsampling, hay que extremar los cuidados para que la degradación introducida en este proceso final no dé un resultado peor que el que se logra trabajando directamente en la frecuencia de muestreo más baja y sin downsampling.
- En cualquier caso, las diferencias serán siempre de orden muy sutil. Para muchos es despreciable, mientras que para otros tal sutileza es la esencia misma de la música.
Andrés Mayo es ingeniero de mastering y realizador de DVD musicales. Miembro fundador de Team 5.1, es reconocido en Argentina por sus trabajos de masterización en estéreo y surround. Es vicepresidente de A.E.S. Región América Latina.






¿Cimbales? ¿No querrán decir "platos"? ;-)
En cuanto a esto de las frecuencias de muestreo altísimas y las grandes profundidades de bits y altísimas dinámicas, yo sigo siendo algo escéptico y sometería a más de uno a una prueba ciega para ver si supera el resultado que se obtendría por mero azar.
Mi opinión es que nos enfrentamos a dos "nuevos trajes del emperador": los 96KHz y los 24bits.
Por cierto, maticemos que:
"Como sabemos, en un medio digital operando a 44.1 KHz lamáxima frecuencia de audio permitida es de 22.05 kHz, de acuerdo con el Teorema de Nyquist. Frecuencias mayores a Fmuestreo / 2 que ingresen o se generen dentro del sistema producirán elefecto de aliasing y serán eliminadas por el siguiente filtro pasabajos."
No es exactamente así. Las frecuencias altas cercanas a f/2 ya presentan aliasing aunque no superen la frecuencia de Nyquist.
Imaginad. Estamos sampleando una onda sinoidal, imaginadla con todos sus puntitos formando un seno. Si sampleamos justo a f/2, quiere decir que obtendremos una única muestra del seno arriba del todo, y otra abajo del todo, por lo que tendremos una fabulosa onda cuadrada (o triangular si el ADC hace una buena interpolación).
Si bajamos un poquito de f/2, aún iremos tomando muestras dándonos una forma de onda entre triangular y cuadrada y cuya forma se va corriendo de fase.
En estos casos, teniendo en cuenta que partíamos de una frecuencia en forma de seno, y tenemos ondas cercanas a la cuadrada, es evidente que hay armónicos fantasma: o sea aliasing.
Es decir, aliasing existe de forma inherente a cualquier sistema digital que no esté filtrado. Lo que ocurre es que los armónicos que provocan ese aliasing son más graves conforme más nos acercamos a la famosa f/2 (¡aunque no la superemos!) y por tanto más audibles.
muy interesante... mi opinion es...
una frecuencia de muestreo de 96khz, puede ser muy buena.. antes que la de 44100, xq? sencillamente xq, aun que los monitores esten generando energia que no es audible, es energia que llega a nosotros... quiero decir, al igual que una frecuencia graves es capaz de hacernos sentir un ''boom'' en el estomago cuando esta suficientemente alta, una frecuencia muy aguda es capaz de mover los pelos de nuestro cuerpo. Por eso, aun que no se oiga, es energia que nos llega y que, de algun modo interpretamos (aun que no sea de forma audible). La pregunta es... ¿que monitores reproducen frecuencias mas altas de 35khz? yo no conozco ninguno (no quiero decir que no los haya, simplemente, no lo se) ¿merece la pena de verdad?
un saludo
y esto es pra grabacion, pero como seria para produccion de musica electronica?
Pues para música electrónica yo creo que sería bastante mas complejo, ya que los sonidos que utilizamos como instrumentos en estos estilos son creados por nosotros mismos y ya me imagino el momento de crear instrumentos suprasónicos el follón, vaya, que si es realmente la interacción entre las frecuencias que escuchamos y las que no el resultado final, ¿ como podemos predecir lo que sentiremos al escucharlo ? , se me hace muy complejo.
pero es mejor trabajar a 44.1, 48 o 96, o como se recomienda? o nos quedamos en 44.1? 24 bits.
saludos gracias
Seguro que como a mí, a muchos de los que leemos por aquí y no somos profesionales nos gustaría que alguien nos pudiera dar un ejemplo de esos "detalles sutiles que solo se consiguen con frecuencias de muestreo altísimas". No es que dude de la diferencia, pero , aparte del directo, lo máximo que muchos hemos escuchado en grabaciónes es la calidad CD.
¿ALguien nos podría suministrar un mismo ejemplo a 44.1 y a 96?(claro, supongo que solo lo podremos escuchar los que tengamos tarjeta que nos permita esa calidad y monitores que respondan...)
y en cuanto a hacer música electrónica con esa calidad, todo será trabajar y trabajar e ir conociendo los resultados...hoy ya utilizamos frecuencias subgraves que no escuchamos pero si conocemos sus efectos (pensemos en un bombo para la pista)...supongo que con las "ultra-agudas?" (por contraposición a subgraves) según se vaya trabajando iremos conociendo sus efectos...
Grabar con frecuencias de muestreo mas altas siempre es mejor(siempre y cuando los convertidores A/D sean de calidad y con una cantidad de jitter aceptable). Sería una gran mentira decir que es mejor grabar a 48 que a 96 Khz. El beneficio no está en que al grabar a 96Khz aparezcan frecuencias ultrasónicas que te hagan mover el pelo, o porque aparezcan energìas misteriosas de ultratumba o algo así. El problema no es de ancho de banda, porque lo que es inaudible para el oido humano es simplemente inaudible para el oido humano, ademas, si al grabar a 96Khz se pueden capturar frecuencias hasta de 48Kzh,quisiera que alguien me mostrara el micrófono que captura estas mismas. El beneficio no está en capturar frecuencias por encima de 20000, sino en la mejora de la calidad de la representación digital de las que están precisamente por debajo del Umbral de audición. Por ejemplo, graben una señal grave como la de un bajo o un cello (preferiblemente en estéreo)a 44.1Khz y luego vuélvanlo a grabar a 96 o a 192Khz, si tienen la posibilidad. Una vez hecho esto, no sienten el cambio en la calidez de la señal?, escuchan la diferencia en la coherencia de fase? notan que a mayor tasa de muestreo la señal se escucha más centrada? pues esto se debe a la coherencia de fase precisamente en las frecuencias graves y no a los armónicos supuestamente añadidos, pues como dije antes, no existe(que yo sepa) un micrófono que capture pon encima de 25Khz.
Haría mucho más que decir acerca de esto, pero temo aburrirlos a todos. Un saludo desde Colombia.
Ah!, me corrijo: sí existen micros que capturen esas frecuencias, pero comercialmente, cual?
Me pregunto si Andrés Mayo experimentó con alguno de esos micrófonos alguna vez.
No creo realmente que merezca la pena. Frecuencias tan agudas son muy muy direccionales. Si no estas en el eje perfecto con el tweeter, es como si no estuvieran. Ya normalmente es complicado dar cobertura de frecuencias mas agudas, como para encima usar las más direccionales. Con graves si qe compensa, por su omnidireccionalidad, pero para llenar una sala o un recinto con esos agudos,no saldrian mas que problemas...
y todo eso..para acabar oyéndose en un reproductor mp3 madeinchina a 128kbps con unos auriculares de 2€.