Informática musical

Adobe VoCo, el "photoshop del audio" que agrega y cambia palabras de cualquier voz grabada

Si nos detenemos a analizar las posibilidades de edición de audio, en muchos sentidos ya contamos con herramientas equivalentes a lo que sería Photoshop para fotografías pero en términos de audio, pudiendo retocar, modificar, combinar, filtrar y procesar de muchas maneras el material de audio. Sin embargo, aún queda un largo trecho cuando se trata de procesos de resíntesis de material que sean suficientemente fieles a las muestras crudas.

En su reciente conferencia MAX, la gente de Adobe, responsable de piezas populares de software como Photoshop, Illustrator y Audition, ha presentado lo que consideran un “photoshop para audio”, al menos en términos de la grabación de voces, como comentó el desarrollador Zeyu Jin en la presentación del llamado proyecto VoCo, un algoritmo que, sin afirmar si llegará a estar disponible comercialmente, presentó con algunos ejemplos interesantes.

Se trata de un agregado de Adobe Audition desarrollado por miembros del equipo de investigación de la compañía y la Universidad de Princeton. El software se basa en un sistema de resíntesis que permite editar y agregar palabras a un determinado discurso, pudiendo (re)sintetizar la voz registrada. En la presentación por ejemplo, se puede apreciar como en una frase donde dice “besó a sus perros y su mujer” intercambia los sustantivos desde texto, luego agrega la palabra “jordan” en vez de “mujer” y posteriormente agrega material que no incluye la grabación, “tres veces”.

Aunque en el comunicado oficial de Adobe se habla de la posibilidad de “cambiar o insertar una o varias palabras en grabaciones de doblaje, diálogo y narración” debido a errores o cambios necesarios, es claro que una tecnología de estas puede tener muchos usos, algunos de ellos quizás no muy benéficos cuando se trata de asuntos políticos, material de evidencia, entre otros, para los cuales no es de extrañar que ya existan tecnologías similares. De hecho en su presentación se menciona que ha sido más fácil lograr el algoritmo que hacer que el sistema tenga una especie de función de marca de agua de tal forma que se detecte cuando fue hecho así, en caso de que pueda caer en manos equivocadas.

Sin embargo, más allá de nuestras conspiraciones y los interrogantes éticos que de un software así puedan desprenderse, es importante destacar lo mucho que se acerca el algoritmo a la síntesis de una voz tan similar a la identificada en el discurso. Para ello, según comentan los de Adobe, es necesario tener al menos 20 minutos de grabación de una voz, de tal forma que se pueda analizar el material lo suficiente como para recrearla en otras palabras.

Como el mismo Zeyu Jin comentó en la conferencia, su idea es generar en el audio una revolución similar a la que causaron con Photoshop en términos de la fotografía. No se sabe si VoCo es apenas el comienzo de otras herramientas similares, pero es claro que tienen al menos algo de interés en el audio, por lo que será cuestión de tiempo conocer lo que se traen entre manos. Por lo pronto, no se tiene más información sobre VoCo.

Miguel Isaza
EL AUTOR

Miguel se define como un oyente e investigador que relaciona la filosofía, el arte, el diseño y la tecnología del sonido. Vive en Medellín (Colombia) y es el fundador de varios proyectos relacionados con el diseño sonoro, como Infinite Grain, ÉTER, Designing Sound y Sonic Terrain.

¿Te gustó este artículo?
7
Comentarios
  • 1
  • 2
  • #1 por Charles1 el 08/11/2016
    Me entra duda sobre qué quizo decir al implementar la marca de agua para que no se haga "mal uso". Por lo demás es impresionante. Poder corregir ciertas palabras que aveces no pronuncian bien, etc.
  • #2 por Litonano el 08/11/2016
    Brutal !!!
    1
  • #3 por S.Durán el 08/11/2016
    #1 Con esta tecnología podría cambiarse lo que dijo alguien en una grabación, lo mínimo que se me ocurre a mi es falsear pruebas para un juicio, de ahí la inclusión de una marca de agua, creo.

    Esto es algo que estoy estudiando yo para mis temas (marca de agua), utilizando el sinte Iris de iZotope.
    2
  • #4 por Mingo Rijo el 08/11/2016
    A Rajoy le va a venir que ni pintado. Ya no tendrá ni que grabar las ruedas de prensa.
    6
  • #5 por BlahBlah el 08/11/2016
    Mierd*... ya me habéis jodido el chiste de Rajoy.

    Aunque total, no lo necesita. Miente de forma descarada porque sabe que, en este país, no pasa nada.
    3
  • #6 por incluso el 08/11/2016
    lo vi el otro dia de madrugada... flipante no ?
  • #7 por blapo el 08/11/2016
    Dice que se necesitan unos 20 minutos de la voz original para poder obtener la clónica.
  • #8 por chevy59 el 08/11/2016
    Pienso exactamente como el comentario No3
  • #9 por lunetico el 08/11/2016
    # 3

    Podrias ampliar esa info? Sobre marcas de agua en audio con Iris.

    Gracias.
  • #10 por Tio Harpo Molon el 08/11/2016
    #9

    Ni idea de que va, o que se refiere exactamente, pero intentando relacionar el concepto de marca de agua con técnicas que se utilizan en telecomunicaciones se pueden utilizar técnicas de espectro extendido, de esa forma introducir información distribuyendola en todo el espectro audible en lugar de un solo tono, que para ser identificado deberá poseer una potencia significativa, en cambio con las técnicas de espectro expandido la información puede encontrarse a nivel de ruido por lo tanto no interferirá el audio "útil" por decirlo de alguna forma. La telefonía celular funciona así, todos comparten el mismo espectro y cada canal de comunicaciones es obtenido en base a multiplicar la señal por códigos ortogonales entre si, los cuales eliminarán todo contenido que no se corresponda con el código determinado de dicho canal (no recuerdo si se hace un producto punto o un producto cruz).
  • #11 por Richard Camacho el 08/11/2016
    Ahora bien, esto se podría utilizar con voces cantadas?. Es decir: coger la voz de una cantante (Por ejemplo "Madona"), luego pasarla por el "Vo Co" y posteriormente escribir lo que nosotros queramos que diga con su voz. Esto es algo que innovaria el mundo de las mezclas, mixes y megamixes.
  • #12 por Tio Harpo Molon el 08/11/2016
    #11

    Lo mismo estaba pensando, yo creo que sí, aunque para ser totalmente flexible necesitaría de una funcionalidad tipo Melodyne, que te permita variar el tono y la duración.
  • #13 por the_can_opener el 08/11/2016
    #12 el Melodyne ya existe.
  • #14 por lunetico el 08/11/2016
    #9

    Eso me recuerda a los mapas que encontrabán en el espectro de onda de "Contact".

    O_o
    1
  • #15 por Charles1 el 08/11/2016
    #3

    Lo que no alcanzo a entender es el funcionamiento de la marca de agua, supongo que no se escucharía ¿o sí...?
  • #16 por Tio Harpo Molon el 09/11/2016
    #13

    Claro, incluso tienen pagina y todo, y como existe es que podemos hablar de el y tomarlo como ejemplo para señalar funcionalidades que harían a VoCo mucho mas versátil a la hora de ser utilizado de la manera que señala Richard Camacho.
  • #17 por Raygun el 09/11/2016
    esto en malas manos puede ser peligroso, imaginen un discurso del papa diciendo que ¨ los humanos no somos de este mundo¨(por ejemplo)... y que ese discurso manipulado cuele en todos los noticiarios sin saber como y todo el mundo se lo crea... ufffffff

    es una gran tecnologia, pero creo que deveria de estar regulada su venta, vamos que no sea para todo el mundo, por que esto en malas manos y con mala intentencion, podria hacer mucho daño y cosas peores de las que menciono, sobretodo a nivel mediatico y de modo viral.
  • #18 por VintageOverdrive el 09/11/2016
    #15 Puede ser algo del estilo, emitir una frecuencia inaudible para el oido humano por ejemplo, pero que puedes detectar con un osciloscopio o algun aparato de esos, solo es una suposicion x eso, ni idea de como lo implementaran

    Me ha impresionado la calidad de las palabras que no existian en la frase suenan con el mismo timbre de voz, y supongo que si el programa este analiza la voz a imitar en profundidad puede ser mucho mejor

    De todas formas, podrian haberse currado un poco mas el corte de cuando cambian las palabras de orden , se nota bastante , un fundido automatico integrado en el software no es tan dificil de hacer
    1
  • #19 por Richard Camacho el 09/11/2016
    #16

    Dudo que al "Vo Co" le pongan un sistema de afinación (espero me equivoque), pero sino paso las muestra por "celemony melodyne" y le pongo la escala y la afinación que quiero.
  • #20 por Jorgeelalto el 09/11/2016
    En cuanto salga, pirateado y todo el mundo modificando voces...
    1
  • #21 por BlahBlah el 10/11/2016
    Creo que no debemos ser paranoicos con lo del "mal uso".

    Sin esta herramienta, ya hoy en día se pueden hacer muchas manipulaciones de una grabación de audio, simplemente con copia/pega/crossfade y el mundo no se acaba por eso.

    Precisamente por eso, muchos jueces no aceptan como prueba ninguna grabación de audio (salvo aquellas realizadas de forma autorizada por la policía, que además tiene presunción de veracidad).

    El riesgo de un mal uso de la herramienta siempre estará ahí (no por su uso como arma blanca dejamos de tener cuchillos para cortar la carne).
    1
  • #22 por DanielM el 10/11/2016
    Eso de marca de agua en el audio, creo que no hace falta. Es lógico que todo algoritmo va a dejar sus rastros que podrán identificar si el audio fue editado o es legítimo...; si algo similar se realiza en photoshop para identificar cuando una chica se ha cambiado el color de los ojos o se ha aumentado los pechos, por qué no se va a poder a hacer con el audio?..

    El sistema acústico de las cuerdas vocales y resonadores no se puede imitar con un algoritmo, hay muchos fenomenos acústicos que no se pueden representar en una formula matemática porque destruyen la no linealidad que es precisamente lo que crea la belleza del sonido, este algoritmo renderizando dos veces el mismo fragmento de audio apuesto que el espectro viene a ser exactamente el mismo. De hecho se podría hacer hasta ingeniería inversa (o no se cual es el término adecuado), creando una versión del editor de audio, y luego comparando con la se presume es una edición y seguro que se hallaría muchas coincidencias en el analisis de especro.

    Esto yo le veo utilidad para crear nuevas versiones de loquendo, a los loquitos que les gusta estar poniendo voces roboticas a hablar en youtube esto les va a caer como mercado gringo en viernes negro.
  • #23 por robinette el 10/11/2016
    #17
    De ahí la marca de agua.
    1
  • #24 por modelt hace 4 semanas
    Increíble ... :plasplas:
  • #25 por CapitanSpam hace 4 semanas
    "if this technology gets into the wrong hands... (jajaja risas de fondo)"
  • 1
  • 2