¿Cómo ubicamos los sonidos en el espacio? HRTF y otros indicios
Introducción
[Índice]En la anterior entrega dejamos varias incógnitas abiertas: ¿de qué mecanismos disponemos para poder localizar la altura de las fuentes?, ¿cómo podemos disipar los problemas del cono de confusión? Pues bien, vamos a intentar resolverlas hoy y para ello hablaremos del HRTF y de otros indicios como la reverberación o efecto Doppler.
HRTF
[Índice]El HRTF (Head-Related Transfer Function), también denominado indicios espectrales, es un factor crítico a la hora despejar las dudas ocasionadas por el cono de confusión y para definir la altura de las fuentes.
Este factor monoaural tiene en cuenta las difracciones y reflexiones que sufre el sonido en nuestra cabeza, torso y pinnae (oreja) antes de llegar al final del canal auditivo para percibir la posición de la fuente. Debido a esto, el HRTF altera el espectro y el tiempo de llegada de la señal, provocando que algunas frecuencias reflecten en dichas partes y creen un nuevo frente de ondas. Al sumar estos frentes de ondas, pueden darse atenuaciones (si han llegado en contrafase) o aumentos de amplitud (si han llegado en fase).
Esta alteración espectral provocada por la HRTF depende de la frecuencia y procedencia de la fuente, como se muestra en la siguiente imagen (centrada en la pinna, pero que en el concepto HRTF debería igualmente incluir los efectos de los rebotes en cabeza y torso):
Estos aumentos y atenuaciones son indispensables para la localización del sonido, siendo únicos para cada persona. Durante la infancia cada individuo se desarrolla adaptándose a su propia fisionomía, lo que determina una función HRTF propia individualizada. Es por esto que las grabaciones binaurales con dummy heads, estándares de mediciones creadas (como KEMAR), simulaciones informáticas o extensas bases de datos con diferentes HRTF serán un tanto arbitrarias, produciendo diferentes percepciones dependiendo del oyente.
Algunos de los problemas más graves del uso de HRTF no individualizados son la dificultad para localizar sonidos fuera de la cabeza (internalización) o confusiones delante-detrás o detrás-delante (inversiones), por las que somos incapaces de distinguir si el sonido proviene de detrás o de delante. Es importante tener en cuenta estas limitaciones ya que son aplicadas a los nuevos tipos de formato multimedia como realidad virtual o vídeos 360. Este tema será desarrollado con mayor profundidad en la siguiente entrega.
La HRTF es una función muy compleja, pudiéndose hallar mediante la transformada de Fourier de HRIR (Head-related impulse response). El HRIR es un impulso que se mide justo al final del canal auditivo. Se compara el impulso original con el que se ha registrado dentro del canal auditivo. Al aplicar la transformada de Fourier, conseguimos el HRTF del individuo, no obstante, el impulso debe de repetirse en varios planos para conseguir un HRTF realista.
PRTF (Pinna Related Transfer Function)
[Índice]La principal forma de reconocer la elevación de una fuente sonora es a través de la pinna, localización por tanto monoaural.
La función de transferencia de la pinna (PRTF), permite esta localización de forma similar a la HRTF. Las reflexiones que tiene el sonido en los pliegues y cavidades de la pinna son los responsables de este suceso. Esto genera retardos entre el sonido directo y el reflejado, produciendo aumentos y atenuaciones que dependen del ángulo de incidencia.
Al igual que la función HRTF, la PRTF es única para cada persona, considerado el factor más irregular en la fisionomía humana para la localización del sonido.
Antes de continuar con otros mecanismos, creo que es necesario hacer un inciso. Como todos sabemos, el ser humano es bastante malo localizando la altura de las fuentes sonoras. ¿Cuántas veces has oído un helicóptero y no has sido capaz de encontrarlo al primer vistazo? Sin embargo, algunas especies de animales, sobre todo aves, tienen los oídos a distinto nivel. Así hacen uso de estas diferencias interaurales para calcular la altura de las fuentes. De hecho, para estas especies, el cono de confusión de difumina en gran parte. Se puede concluir que además del HRTF tienen otros mecanismos para localizar la procedencia de la altura de las fuentes.
En la imagen superior podemos observar el cráneo de un mochuelo boreal, el cual no tiene los oídos a la misma altura. Las diferencias interaurales generadas por esta fisionomía le permite localizar fuentes en el plano vertical. Recordad que el ser humano sólo usa las diferencias interaurales para localizar fuentes en el plano horizontal.
Otros Indicios
[Índice]Aunque ya hemos descrito los grandes mecanismos de localización, todavía disponemos de más herramientas que serán descritas en los siguientes puntos.
Indicios Dinámicos
[Índice]Es el momento de hablar de los indicios dinámicos, ya que son una parte importante de nuestro sistema de localización. A la hora de localizar una fuente que no se encuentre en nuestro ángulo visual movemos involuntariamente la cabeza, y en ocasiones el torso, hacia ella. Con este movimiento conseguimos un apoyo visual, una mejora de las diferencias interaurales y un cambio en el HRTF que nos permite localizar la fuente con mayor facilidad disipando, por tanto, problemas como el cono de confusión a la vez que se mejora la percepción de la elevación.
Estos indicios son sumamente importantes, hecho que queda reflejado en estudios científicos como el de Young, que en 1931 remplazó la pinna de varios sujetos por una especie de embudo, comprobando cómo el movimiento de la cabeza compensaba la falta de aurícula.
Dichos movimientos de torso y cabeza han sido una limitación en la reproducción del sonido binaural: esto es, el sujeto realiza un movimiento de orientación hacia la fuente mientras que la fuente permanece inmutable. Además, en grabaciones con dummy heads, los movimientos de la cabeza del maniquí no son interpretados correctamente. Para solucionar estos problemas se implementó una técnica llamada head-tracking que sincroniza la cabeza del oyente con la del dummy head o lo calcula a través de algoritmos, consiguiendo así una mejora sustancial en el realismo y eliminando conflictos como las inversiones y la internalización. En el entorno de los videojuegos y sobre todo en el ámbito de la realidad virtual, el head-tracking se consigue gracias a unos algoritmos basados en la binauralidad.
Efecto Doppler
[Índice]Un efecto importante relacionado con el movimiento es el efecto doppler, responsable de la localización de fuentes sonoras en movimiento. Tal movimiento provoca variaciones en la altura del sonido percibido por el oyente.
En la ilustración superior podemos ver cómo el movimiento de una fuente genera frentes de ondas más próximos en su dirección (mayor frecuencia) y más separadas en sentido contrario (produciendo menor frecuencia). Este efecto se puede percibir, por ejemplo, cuando escuchamos el movimiento de una sirena de una ambulancia.
Efecto Cocktail Party
[Índice]Se trata de un fenómeno psicoacústico binaural por el cual el sistema auditivo es capaz de localizar y aislar una fuente sonora de entre un amplio conjunto de ellas. Por ejemplo, cuando hablan a la vez varias personas en una reunión, pese a que todas las señales sean de habla y ocupen una misma banda, tenemos capacidad de atender aquella conversación que nos interesa, haciendo menos caso a las restantes aunque estén al mismo nivel.
Si bien es cierto que este proceso también funciona de manera monoaural, su eficiencia mejora significativamente cuando el sujeto posee dos oídos funcionales, y no digamos ya cuando a la información estrictamente acústica sumamos otros sentidos (como la vista). Pero incluso a ciegas, esta claro que contamos con esta capacidad de focalizar nuestra atención en una fuente sonora. Una característica sobresaliente que implica un análisis ya muy inteligente de los estímulos que llegan a los oídos, agregando todo tipo de información tanto de localización como tímbrica o de niveles superiores de la percepción.
Reververación
[Índice]La reverberación es un proceso acústico significativo en la localización porque aporta información sobre el tamaño y características del espacio donde nos encontramos. Sin embargo, puede llegar a generar mayor confusión en caso de encontramos con un campo excesivamente reverberante.
Existen espacios sin ningún tipo de reverberación llamados cámaras anecoicas en las que tenemos grandes dificultades para discernir las distancias ya que anula este factor de localización . Estas salas están diseñadas para absorber todas las reflexiones producidas por el sonido y son muy usadas para el estudio de la función HRTF y dummy heads, así como para otros temas tan dispares como la industria aeroespacial o las telecomunicaciones.
Presbiacusia
[Índice]Presbiacusia es la pérdida progresiva de audición de las altas frecuencias debido a la edad.
Gracias a numerosos estudios, entre los cuales cabe destacar el desarrollado por Cutnell y Kenneth, se ha demostrado que el ser humano escucha desde 20 Hz a 20 KHz (aunque hay autores que sostienen que disponemos de un rango frecuencial desde 16 Hz hasta 18 KHz). Según envejecemos, perdemos capacidad de audición. Lo común es perder 2 KHz del límite superior cada 10 años a partir de los 20 años. Por este motivo la edad se baraja como un factor influyente a la hora de localizar fuentes sonoras, ya que gran parte de la información no es recibida y eso dificulta al sujeto a localizar correctamente el sonido.
Factores externos
[Índice]Según un estudio llevado a cabo por Riederer para Acoutical Society of America, el pelo de la cabeza crea atenuaciones o aumentos en la amplitud de determinadas frecuencias, actuando como un factor más del HRTF. Es común que las personas que no tengan pelo en la cabeza tengan mayor dificultad de localizar un sonido que provenga de la parte trasera de la misma, originándose el proceso del que hemos hablado anteriormente llamado inversiones (confusiones delante-detrás o detrás-delante).
Otros factores menos relevantes y poco influyentes son el uso de gafas, ropa o sombreros.
Distancia
[Índice]Existen una serie de indicadores para discernir la distancia, pero ninguno nos permite hacerlo con total efectividad.
El indicador más importante es la reverberación. El sonido directo disminuye en función de la ley del cuadrado inverso, mientras que la reverberación decae más lentamente. Un mayor nivel de reverberación, así como un menor nivel de sonido directo indica cierta lejanía de la fuente y viceversa. No obstante, para ambientes no reverberantes (campo libre o cámara anecóica) este factor no es válido.
Es significativo destacar en este punto que la intensidad no es un factor determinante a la hora de localizar una fuente. Esta afirmación se basa en que percibir un sonido con poca intensidad no indica que la fuente esté a gran distancia. Dicho esto, se debe saber que el ser humano hace uso del conocimiento del timbre del sonido para distinguir si la fuente se encuentra distante o más próxima.
Un ejemplo muy visual es susurrar al oído de alguien y después separarse y hablar con la potencia necesaria para que al oyente le lleguen las dos señales al mismo nivel. El timbre de la voz cambia para poder ofrecer mayor presión sonora. Este ejemplo es extrapolable a todas las fuentes que cambien el timbre según la amplitud con la que se haya emitido. Todas las fuentes que no cumplan esta norma no podrán ser localizadas según su intensidad.
Llegados a este punto, ya conocemos la mayoría de las herramientas que nos permiten localizar el sonido. En el siguiente artículo vamos a aplicar esta teoría para conocer los diferentes tipos de técnicas de grabación que emulan la escucha del ser humano, es decir, grabaciones binaurales.