Sonido e imagen

Un algoritmo de inteligencia artificial que recrea sonidos de materiales en vídeo

En el laboratorio de ciencia computacional e inteligencia artificial del MIT se han puesto a la tarea de desarrollar un algoritmo bastante peculiar, capaz de predecir propiedades acústicas a partir de imágenes pudiendo así simular efectos sonoros de forma artificial y en muchos casos de forma bastante realista.

Normalmente los montadores de sonido, artistas foley y diseñadores sonoros pasan largas horas no solo cortando y sincronizando material a la imagen, sino también buscando en sus librerías, materiales para grabar y demás, fuentes que sirvan para determinadas situaciones. Aunque su labor probablemente nunca sea reemplazada, igual se sorprenderán al encontrar que, al menos en determinadas cuestiones, este algoritmo del MIT recrea automáticamente determinadas texturas y sonidos, que en sincronía con la imagen, no parecieran generados de forma artificial. El vídeo habla por sí solo:

Hemos de tener en cuenta que el desarrollo se ha enfocado en golpes y rasguños, es decir, en ciertos movimientos específicos y no en todo tipo de sonidos en general, en tanto habrá timbres mucho más complejos que el sistema en cuestión aún no logra generar. Sin embargo es fascinante el realismo que logra el algoritmo, porque no solo sincroniza los sonidos generados sino que los sintetiza para recrear cualidades acústicas según la imagen identificada.

El proceso se realiza mediante una compleja técnica que permite al ordenador recopilar determinados patrones de la imagen y recrearlos en formas de onda. Tras unos 1000 videos grabados de un estimado de 46000 sonidos representados en diferentes objetos, el algoritmo ha podido aprender a reconocer los elementos y deconstruir sus materiales acústicos diversas cualidades, desde el pitch hasta la amplitud. Así se crea una gran base de datos que permite identificar la imagen y la forma de onda y desde allí reproducir el sonido en cuestión, como se muestra muy bien en el vídeo.

Un experimento grandioso que si bien está enfocado no solo en el audio sino en la forma como los sistemas de inteligencia artificial actúan en torno a lo físico/material, podría ser el comienzo de nuevas tecnologías que permitan otros métodos de búsqueda, sincronización y edición a la hora de diseñar sonidos.

No se trataría de reemplazar al diseñador, sino de darle herramientas nuevas, formas más inmediatas y experimentales de encontrar y empalmar sonidos a la imagen. Otra interesante aplicación es la de poder generar sistemas de reacción ante situaciones y materiales concretos, que permitan crear sonidos de dispositivos, herramientas e incluso ciudades, a partir de los patrones de identificación inteligente que pueden llevarse del sonido y la imagen a muchos otros territorios, como menciona Andrew Owenes, estudiante de doctorado incolucrado en la investigación:

"Un robot podría mirar una acera e intuitivamente saber que el cemento es duro y el pasto es suave, y por ende saber qué pasaría si camina en uno de estos [...] Ser capaces de predecir el sonido es un primer paso importante para ser capaces de predecir las consecuencias de interacciones físicas en el mundo."

MITPaper publicado (vía Gizmodo)

Miguel Isaza
EL AUTOR

Miguel se define como un oyente e investigador que relaciona la filosofía, el arte, el diseño y la tecnología del sonido. Vive en Medellín (Colombia) y es el fundador de varios proyectos relacionados con el diseño sonoro, como Infinite Grain, ÉTER, Designing Sound y Sonic Terrain.

¿Te gustó este artículo?
5
Comentarios
  • #1 por undercore el 22/06/2016
    flipa
  • #2 por parker25 el 22/06/2016
    Gracias!
  • #3 por Solid el 23/06/2016
    El acelerón tecnológico que nos espera es increíble, espero que nos pille medianamente preparados.
  • #4 por nyappany el 23/06/2016
    Pero que están haciendo, pegándole golpes a un arbusto con un bastón? No sería mejor recrear sonidos de armamento y así los artistas de foley se ahorrarían tener que lidiar con objetos peligrosos?
    Ale, ya he arreglado el mundo.
    1
  • #5 por deo el 26/06/2016
    Interesante. Que cubra pasos y puertas ya ayuda mucho. Un aporte formidable.
  • #6 por abrahamsonido el 26/06/2016
    Yo creo que se ha entendido mal el video. El algoritmo no genera el sonido, el sonido viene dado por una serie de librerías. Lo que hace es "entender" lo que se está golpeando y sincronizarlo con la pista de video, pero en base a una biblioteca ya grabada de sonidos.
    3
  • #7 por Míxero de Trácks el 26/06/2016
    #6
    Andrew Owens, uno de los que están desarrollando este proyecto como tesis doctoral en el MIT escribió:
    The algorithm uses a recurrent neural network to predict sound features from videos and then produces a waveform from these features with an example-based synthesis procedure.
    http://vis.csail.mit.edu/

    Aquí se explica el modelo de síntesis empleado, concretamente en el epígrafe Sound Synthesis del punto 2 (pág.2) y en el 5.2 Generating a waveform (pág.5) .
    1
  • #8 por BlahBlah el 26/06/2016
    Parece ciencia-ficción.

    Es increíble.

    Claro que como todo tendrá "truco": para la demo habrán escogido aquellos casos de éxito descartándose los que suenan "mal".

    Pero es un buen comienzo para un interesantísimo concepto.
    1
  • #9 por Mister Carrington el 28/06/2016
    Felicitaciones por este artículo tan interesante del que tal vez se podría hacer uno más extenso.
    El uso de este procedimiento en robots no es baladí. Muy al contrario, es una consecuencia esperada, y desde luego con posibilidades grandísimas.

    Por otra parte, para los que trabajan en el audiovisual o en restauración, tampoco vendrá mal buscar "sonidos a tramos mudos". Antes se hacía teniendo unos fondos generales. Vamos que tenías que ambientar con elementos de mentira el entorno de la imagen muda.

    Y por último, tampoco está descaminada la idea de la interacción para entornos virtuales donde cada ciclo de computación es importante por su gran consumo de recursos. En este caso, generar una tabla dinámica de ondas a partir de librerías es un campo apasionante.
  • #10 por Cristopher López el 29/06/2016
    El video me generó más dudas de lo que lo hizo el título del thread, pero aún así me parece interesantísimo. es la punta del iceberg!