Grabación

¿Vale una imagen más que mil palabras? La excepcionalidad del audio

    En este artículo...
Espectro de audio

Una imagen vale más que mil palabras... Siempre me ha sonado mal esa afirmación, aunque muchos la ven bien. Nuestros 20 kHz de ancho de banda parecen una miseria frente a las necesidades de la imagen, vídeo, radiocomunicaciones... Pero no lo son. Hoy defendemos su honorabilidad y peculiaridad con argumentos técnicos. Más allá del aire de litigio del título, se trata de una excusa para reflexionar sobre el alcance y las dificultades asociadas a la señal audio y su enorme extensión a lo largo de 10 octavas, algo nada común.

Que no te avasallen los colegas del vídeo

Los recursos que hay que poner en marcha para la parte sonora de una producción audiovisual son a menudo menos costosos que lo que se requiere para el vídeo. Y a veces por ello parecemos ir los del audio con una cierta sensación de inferioridad, propia o inducida. Tildadme de tendencioso, claramente lo soy en este caso, pero el audio tiene complejidades propias que no existen en otros dominios. No hace falta ir a la cuestión de que la imagen sin audio no conmueve lo mismo. Nos basta una argumentación técnica y cuantitativa que aflora la necesidad de considerar el audio como algo aparte de casi cualquier otro tipo de señal.

Sin duda, también cuantitativamente, la cantidad de gigas que demanda la imagen en movimiento (ya sea GB para almacenamiento, Gbps para transmitir, GHz para procesar, etc.) es mucho mayor que lo que exige nuestro aparentemente más modesto audio. Pero una cosa es el tamaño y otra es la complejidad, y los liliputienses no son seres menos complejos que los gigantes. En nuestro caso las dificultades del audio son 'gigantescas' y superan, al menos en algunos aspectos, a las de la imagen.

También las radiocomunicaciones presumen de ir más alto que nadie. Usamos la UHF y no la antigua VHF para televisión, los teléfonos móviles han ido subiendo de frecuencia desde sus cientos de MHz iniciales, hacia los 900 MHz de GSM, o los ya GHz en las generaciones posteriores, las WiFi además de los 2,4 GHz buscan nuevos huecos en 5 GHz y más allá... Pero de nuevo el que vayan más 'veloces' no evita que las peculiaridades de nuestro audio existan y ofrezcan aspectos singulares que no asoman en esos otros casos y que dan una especial dificultad.

La variedad de escala en audio

¿Por qué tenemos monitores multivía y multicono? Por la incapacidad de un único cono para representar convenientemente esos apenas 20 kHz. Es casi como lo de las gafas para cerca y para lejos. Las necesidades que tengo que cubrir (generar señal de buena calidad en esos 20 kHz) exigen varios elementos, no pueden resolverse con uno solo.

Y en audio eso pasa tanto si estamos hablando de condiciones, equipos y tratamientos acústicos, como si son ya en la representación electrónica o por medio de sistemas digitales/software. Tiene que ver con el 'tamaño' de las señales audio, y la enorme dispersión de escala que llega a tener. De 20 Hz a 20 kHz, pensando en saltos de octava, hay un recorrido de nada menos que 10 octavas

20 / 40 / 80 / 160 / 320 / 640 / 1280 / 2560 / 5120 / 10240 / 20480

Lo que importa no es la excursión total y esos 'miserables' 20 kHz sino las diferencias que acarrea en la señal el moverse entre unas y otras posiciones dentro de ese recorrido. Pensad en la velocidad de propagación del sonido en el aire (no en el vacío, porque en el vacío no hay sonido), que anda aprox. sobre los 340 m/s, y en cuánto ocupa cada ciclo de nuestra señal en ese aire (la 'longitud de onda'):

  • Un segundo después de que hayamos comenzado a generar un tono de 20 Hz ya se ha propagado por un espacio de 340 m, y como hemos producido 20 ciclos de señal, cada ciclo ocupa 340/20 = 17 metros, un tamaño realmente nada desdeñable, que supera al largo de un autobús.
  • El La central, a 440 Hz, da lugar a una señal en el aire que ocupa con cada ciclo 340/440, que es poco más de 77 cm., menos que una persona adulta media.
  • Las componentes del audio en el entorno de los 4000 Hz no llegan ni siquiera a un decímetro.
  • Y los 15000 Hz, sin ir al extremo de los 20 kHz que pocos realmente perciben, hablan de un desarrollo en el aire de poco más de 2 cm.

Pedimos a nuestros sistemas audio todo un reto: que sean capaces de atender esa variedad manteniendo una calidad digna en todo el recorrido. Nuestro oído lo resuelve gracias a la complejidad de la cóclea, que es en la práctica un sistema con un recorrido continuo de secciones 'sintonizadas' a cada una de las diferentes regiones de frecuencia. Las dimensiones variables de la cóclea, con una boca ancha que se va reduciendo en su recorrido hacia el final y los propias células ciliadas que la cubren a modo de 'pelillos', forman una infinidad de elementos cada uno de ellos atento a una determinada gama de frecuencias. Una forma masivamente paralela de captar y analizar el sonido. No podría ser de otra forma.

El 'ridículo' ancho de banda de la imagen y las radiocomunicaciones

Frente a eso pensad por un momento en el ancho de banda que implica el espectro visible, o el que ocupan tantísimas formas de radiocomunicación. Y no me refiero a su ancho absoluto, sino a su ancho relativo. No superan la octava.

En el caso de la radiación electromagnética visible, ocupa desde unos 390 a unos 780 millones de millones de Hz. Abismal en cifras absolutas, pero en cuanto a relación de sus extremos, una única octava. No vamos a ser nosotros los que, devolviendo la pelota, digamos que es una 'miserable' octava. Pero está claro que las longitudes de onda mayores son sólo el doble de las más pequeñas. Haciendo una analogía, no necesitamos 'zoom' ni utilizar varias lentes para captar todas esas señales con un mismo detalle.

Aún más claro con las radiocomunicaciones. En prácticamente todos los esquemas de radiocomunicación la frecuencia portadora es enormemente mayor que el ancho de banda de la señal que se transporta. Incluso con esquemas de comunicación que 'expanden' el ancho de la señal inicial (como puedan ser la FM en analógico, o las técnicas 'spread spectrum' en digital tal como sucede en wifi, en TDT y en DAB) siempre el ancho de banda es muchísimo menor que la frecuencia portadora. Por ejemplo en wifi la portadora puede estar en 2,4 GHz pero el ancho de banda por cada canal ocupado es de sólo unas decenas de MHz. En términos musicales, se trata de anchos de banda que ni siquiera rozan el semitono. Hasta un vibrato musical tiene más recorrido.

El carácter 'estrecho' (en cuanto a relación ancho de banda / frecuencia central) de este tipo de señales hace que se hayan podido desarrollar muchas técnicas que son eficaces en estos dominios, pero que, lamentablemente, no son nada sencillas de trasladar al audio. Siempre dicen de sí que son 'banda ancha', pero lo son sólo en términos absolutos, y hay muchas dificultades en el salto relativo enorme entre los extremos de la banda audio.

Las dificultades acústicas

Sin irnos a micros de excelencia, sino a los más mortales... ¿Notáis que los de condensador tipo electret, casi siempre pequeños, carecen de una extensión en graves adecuada? ¿Porqué ocupan tanto los conos para graves? Las respuestas a estas preguntas hablan de la necesidad de una cierta relación que han de guardar los elementos acústicos en cuanto a sus dimensiones con las señales que han de tratar.

Todos sabemos que un absorbente de agudos es fácil de obtener, pero uno de graves es mucho más complejo y exige mayor tamaño y masa para ser eficaz. Para tratar cada segmento dentro de las frecuencias audio necesitamos soluciones distintas porque las propias señales y sus condiciones son enormemente diferentes entre sí, no son tan homogéneas como sí sucede en otros tipos de señal.

Nuestros sistemas acústicos necesitan muchas veces ser múltiples, no simples. Como lo que decíamos de los monitores y altavoces multivía.

Pero más que esas dificultades que todos tenemos por consustanciales en el dominio acústico, quiero destacar que también se dan en el tratamiento electrónico/digital.

Las dificultades electrónicas

A veces tendemos a pensar que la electrónica y la informática no tienen límites y todo lo pueden. Pero la física existe para todos. Los sistemas de tratamiento de audio tienen que atender ese mismo problema de la dispersión de tamaños de la señal.

Diseñar un oscilador estable para radiocomunicaciones tiene las dificultades propias de generar una señal en tan altísimas frecuencias. Puede requerir materiales y técnicas de fabricación específicos. Diseñar un oscilador para audio tiene la ventaja de que se mueve en un terreno de bajas frecuencias (los 20 primeros kilohercios) y no exige ir a tecnologías avanzadísimas en cuanto a materiales, etc. Pero tiene la complejidad de que además de estables queremos que sea 'sintonizable' en un recorrido de nada menos que 10 octavas... Un reto diferente, pero no menor. Y quien dice diseñar un oscilador dice diseñar un filtro o cualquier otra cosa.

Fijaos que en una señal que se extienda por menos de una octava no existe el concepto de armónicos, que ese esencial a nuestras señales audio. Eso ya por sí sólo supone una clara diferencia.

Pensad en cuando analizamos señal. Mientras que para nosotros un La 220 y un La 440 son dos cosas distintas, en sistemas de banda estrecha que no alcanzan la octava no exite nada más que un 'La'. El violeta es violeta. No hay 'violeta' de la octava central y de la octava 5. No es tontería: cualquier sistema de análisis automático de tono (ya sea para corregirlo en plan Autotune, o para transcribir las notas a partitura) enfrenta momentos duros cuando la señal ofrece dudas entre dos posibles octavas. Pensad en un violín con una altísima concentración sobre el segundo armónico al producir determinada nota: para los sistemas resulta difícil no caer en la tentación de pensar que es la nota 'doble'.

Cualquier intento de tratamiento espectral o granular lo pasa también mucho mejor si las señales están confinadas en un ancho de banda corto. Lo de cubrir varias octavas complica las cosas. Por ejemplo, un 'harmonizer' básico para voz (señal no polifónica) puede basarse en extraer trozos pequeños de la señal (para que así haya una presencia de su forma de onda y por tanto de su timbre) y reproducirlos repetidamente espaciándolos de acuerdo al periodo que necesitemos para generar el nuevo tono deseado. La mejor forma de hacer este tipo de tratamientos es usar técnicas en las que el trozo extraído corresponde a un ciclo de la señal. Pero eso implica saber localizar el tamaño del ciclo, y si la señal puede discurrir por varias octavas acertar con el tamaño adecuado es mucho más complejo.

Con la polifonía los problemas son aún mayores: cada nota son muchas rayas espectrales dentro de la banda audio y tenemos un montón de notas simultáneas... Solapamientos por todas partes y conflictos para resolver adecuadamente quién es quién dentro de ese barullo.

Por poner otro ejemplo, desde otro ámbito, si una señal estrecha se distorsiona, los productos de la distorsión típicamente van a estar fuera de la banda útil (al menos los armónicos principales, no los productos de intermodulación que aparecerán por doquier tanto dentro como fuera de la banda) y se pueden retirar por filtrado. Es otra diferencia importante, porque la distorsión de las señales audio introduce un montón de componentes principales de distorsión en la propia banda audio, solapadas por tanto con las propias componentes armónicas de la señal original, no disjuntas. Hay técnicas para esquivar la distorsión que no podemos aplicar en audio porque están desarrolladas para señales espectralmente confinadas, no desparramadas por 10 octavas.

El tratamiento inteligente, especialmente difícil en audio

Podríamos seguir enunciando situaciones que hacen patente las dificultades propias de un recorrido tan amplio como las 10 octavas que cubre el audio, y que muy pocas otras señales habituales llegan a manifestar. Otro campo en el que se incrementan las dificultades es el de los tratamientos 'inteligentes'.

Casi siempre que pretendemos realizar algún tratamiento que reaccione a partir de 'conocer' la propia señal, surge la necesidad de fragmentarla de forma útil. Por ejemplo para conocer el espectro tengo que tomar sucesivas porciones de la señal y obtener para cada una su espectro. Eso permitirá conocer detalles de la señal que puedan ser útiles para su tratamiento. Pero ¿qué tamaño usar, cuando los propios objetos que forman la señal son de escalas tan variadas?

Hay infinidad de teoría y productos comerciales para tratamiento adaptativo, capaz de corregir por sí sólo su comportamiento para optimizar su acción. Pero estos sistemas son mucho más escasos y menos sobresalientes en el caso audio, en buena medida porque la enorme variedad de señales que permiten las 10 octavas hace difícil clasificar lo bueno y lo malo, lo pertinente y lo extraño. P.ej. un compresor y sus ajustes de tiempos de ataque y liberación necesitan adecuarse a cada tipo de señal, no es el audio una señal tan ‘uniforme’ en sus estadísticas como para permitir que exista un ajuste de esos tiempos de validez universal. Es un ejemplo de cómo sigue siendo nuestra inteligencia y sensibilidad como usuarios la que debe definir los ajustes, porque no hay una única definición del objetivo. Por el contrario un ajuste automático de ganancia en un enlace de radiocomunicaciones es algo relativamente trivial o al menos más objetivable.

Remate

Como habéis visto, no he pretendido hoy hacer ninguna profundización científica, sino sólo armarnos de autoconfianza para que en esas discusiones pueriles que a veces suceden, sepamos devolver al camino del encuentro entre iguales a quienes se quieran hacer destacar por una cuestión de 'tamaño'. Vale: las señales de imagen, vídeo y radiocomunicaciones son, en términos absolutos, más 'grandes', pero los amigos del audio somos mucho más juguetones y variados al usar nuestro ‘pequeño’ espacio de 20 kHz. Frente a un estiramiento al doble como mucho en la longitud de onda de la luz visible, en audio nuestras ondas pueden variar de tamaño por un factor de 1000 (10 octavas = 2 a la potencia 10 = 1024). Larga vida pues a nuestros 20 kHz, y nosotros con la cabeza bien alta ante cualquiera que no indague más allá del puro bulto.

No se trata de ver quién es más chulo y trabaja con señales más difíciles. Cada una tiene sus escollos. Y no sería justo, ya que hoy nos hemos centrado en esta cuestión del ancho de banda relativo en el que el audio es ganador absoluto, no recordar por ejemplo que en imagen dicen algunos estudios que distinguimos millones de colores mientras que alguien entrenado en audio con suerte detectará algo más de una decena de miles de frecuencias, con lo que la percepción visual sería enormemente más precisa. ¿Será esa otra exageración de los amigos de la imagen? No lo sé, y en todo caso entra en el terreno de la percepción, mientras que el ancho de banda relativo es algo objetivo. Pero no vamos a alargar la batalla que queríamos desterrar, y para la que sólo queríamos dar argumentos de defensa, no desenterrar el hacha de guerra. Eso sí, nadie me quita la sensación de que mi percepción personal distingue mejor las frecuencias que los colores. Seré torpe con mi vista, ¡qué se le va a hacer!.

Pablo Fernández-Cid
EL AUTOR

Pablo no puede callar cuando se habla de tecnologías audio/música. Doctor en teleco. Ha creado diversos dispositivos hard y soft y realizado programaciones para músicos y audiovisuales. Toca ocasionalmente en grupo por Madrid (teclados, claro).

¿Te gustó este artículo?
20
Comentarios
  • Daniel
    #1 por Daniel el 19/10/2017
    Una pasada de artículo, enhorabuena.

    Nunca me había planteado que al trabajar con mas de una octava los armónicos caen dentro de tu zona de trabajo. Tampoco sabía que la mayoría de señales que se tratan actualmente trabajan en un ancho de banda tan bajo.
  • pablofcid
    #2 por pablofcid el 19/10/2017
    Gracias. Por eso precisamente me parecía interesante escribir sobre ello.
    1
  • Epiphone
    #3 por Epiphone el 19/10/2017
    El día en que con una imagen se pueda definir " Una imagen vale por mil palabras," podría ser cierto.

    De momento ninguna imagen lo hace
  • TpuntoGarcía
    #4 por TpuntoGarcía el 19/10/2017
    Excelente, como siempre por cierto.

    me has descubierto un montón de cosas en las que no había caido.
  • Libertizer
    #5 por Libertizer el 19/10/2017
    muy buen trabajo y lo mejor de todo, una tematica super interesante, se agradece mucho este tipo de observaciones. gracias
  • Hercio soy, son ciclos
    #6 por Hercio soy, son ciclos el 20/10/2017
    Sólo leer los apartados en los que seccionas el artículos basta para anunciar uno estupendo.
    Mañana lo leo, promete; pero requiere algo de lo que carezco en este momento.
  • Hexagon Sun
    #7 por Hexagon Sun el 20/10/2017
    Absolutamente delicioso. Hubiera seguido divagando por los recovecos filosóficos de las 10 octavas por 10 artículos mas
  • Dr_No
    #8 por Dr_No el 20/10/2017
    fantástico. Muchas gracias por afirmar mi convicción en seguir estudiando ingeniería de audio.
  • wiguel
    #9 por wiguel el 20/10/2017
    Leyendo el artículo me vino a la mente la clásica pregunta,¿tu que prefieres, sordera o ceguera??,,casi todo el mundo elegiría ser sordo en principio, o no?,,
    se me olvidaba agradecer el texto al autor,,,sobretodo cuando se mezcla el tono teórico con la filosofía.
  • JesusV
    #10 por JesusV el 20/10/2017
    Hace unos años hice un afinador de guitarra para incorporarlo al metrónomo flamenco, ahí sufrí la dificultad que entraña la señal de audio. Una simple cuerda pulsada genera un batiburrillo de frecuencias y armónicos. La frecuencia exacta que corresponde a la nota no tiene por que ser la que más destaca tras convertir la señal muestreada en frecuencias (FFT), de hecho la nota es aquella en la que los múltiplos de su frecuencia aparecen más veces en la señal transformada. En una quinta al aire, la nota LA, aparece 440Hz,880Hz, 1320Hz, ....= 440x1, 440x2, 440x3, 440x4 etc.

    El artículo hace afición.
  • euridia
    MOD
    #11 por euridia el 20/10/2017
    ¡¡¡¡Estupendo artículo!!!!

    De vez en cuando viene bien filosofar un poco... :-) :-)
  • Hercio soy, son ciclos
    #12 por Hercio soy, son ciclos el 20/10/2017
    Si entendemos filosofar en el sentido etimológico, apreciar el comocimiento (sabiduría), no cabe otra actitud frente al audio o frente a la gastronomía, eso es.
    Y no ha de ser un aprecio reverente y al margen de lo fenomenológico, aunque puede ser bastante.
  • pablofcid
    #13 por pablofcid el 21/10/2017
    #9
    A eso respondería quizá que la vista es muy útil para vivir, pero el oído es magnífico para disfrutar de la vida.
    Cubiertas las necesidades básicas, no me retires el oído por favor.
    1
  • BlahBlah
    #14 por BlahBlah el 21/10/2017
    Los que hemos trabajado en TV o productora sabemos bien del menosprecio que se le tiene al audio en general.
  • euridia
    MOD
    #15 por euridia el 21/10/2017
    Es que somos unos brasas ... no nos aguantan ni los de video.....
    2
  • baratijas
    #16 por baratijas el 23/10/2017
    Alguien escribió:
    Los que hemos trabajado en TV o productora sabemos bien del menosprecio que se le tiene al audio en general.


    Yo trabajo en el ambito audiovisual, y a veces veo el menosprecio del audio, dejandolo de lado como algo marginal, cuando en realidad es el 50% del temino "audiovisiual".

    Por ejemplo, veo como el presupuesto de la parte "visual" crece comiendose la parte de "audio", pero no solo es cuestion de presupuesto, es cuestion de esfuerzo y tiempo que se dedica al video... descuidando el audio y hay que andar recordando que se estan olvidando de la parte sonora.

    Luego pasa lo que pasa, que se ve "bien" pero se escucha mal, y ese desequilibrio hecha a perder el trabajo o directamente lo arruina.
  • Wikter
    #17 por Wikter el 23/10/2017
    Alguien escribió:
    El día en que con una imagen se pueda definir " Una imagen vale por mil palabras," podría ser cierto.

    mira.
    ya se puede.
  • Antuan
    #18 por Antuan el 31/10/2017
    El ejemplo más clásico es que dice que al ojo se le "engaña" con sólo 24 imágenes por segundo mientras que para engañar al oído es necesario alrededor de 65.000 muestras por segundo. Por tanto algo de mérito tendrá trabajar con audio respecto a trabajar con vídeo.