Informática musical

El futuro de la síntesis de canto se oye en la UPF

El MTG (Music Technology Group) de la UPF (Univ. Pompeu Fabra) es responsable de la tecnología que subyace en el conocido software Yamaha Vocaloid para creación de líneas de voz cantada. Dos de sus miembros (Merlijn Blaauw y Jordi Bonada) presentan un artículo de investigación con resultados y ejemplos de una nueva estrategia. Basada en redes neuronales para el entrenamiento de los modelos y síntesis de voz (vocoders) para la creación de la señal, dicen igualar la calidad y naturalidad de los sistemas más habituales basados en la concatenación de fragmentos grabados, pero con recorrido para ayudar a superar algunos de los problemas que perviven en estos.

Foto que ilustra la noticia en la web de la UPF
www.upf.edu

Son mayoría los sistemas de generación de líneas de canto basados en el uso de segmentos breves de voz grabada que se concatenan y modifican, y obtienen resultados razonables en términos de calidad de audio y de naturalidad del sonido aunque sigan siendo reconocibles como de origen 'máquina'. La vía que ofrece el nuevo estudio es la de usar sistemas de síntesis de voz (vocoders) para apovechar su mayor flexibilidad frente a la rigidez del material base muestreado, y combinarlos con sistemas de entrenamiento basados en redes neuronales para que el propio sistema aprenda del canto real y pueda reconstruir sus características en la versión sintetizada.

Desde luego, en los ejemplos sorprende el grado de calidad al que se llega con esta vía estrictamente 'sintetizada' capaz efectivamente de competir ya en cuanto a naturalidad con la basada en segmentos muestreados.

Los sistemas de síntesis tienen ventajas inherentes, como la posibilidad de separar la evolución del timbre y la evolución del tono. Pueden ayudar a esquivar el problema de los saltos y discontinuidades que la vía de la concatenación de segmentos acaba manifestando, al menos en algunas situaciones críticas. Situaciones críticas que el canto expone frecuentemente, debido a sus grandes excursiones de tono, a la importancia del timbre y sus matices, y en general a cómo se produce y cómo se escucha el canto.

No sabemos cómo acabarán estos desarrollos saliendo del laboratorio y llegando a estar presentes en alguna forma de software para usuarios finales, pero con la trayectoria probada del MTG en este campo, sólo puede ser cuestión de tiempo.

De momento podemos oír el avanzado estado actual de sus 'criaturas' en esta página desde la que ofrecen varios ejemplos audio tanto de canto en inglés como en castellano, con y sin fondo musical acompañando a varios temas populares.

Imagen tomada del artículo citado
https://arxiv.org/pdf/1704.038
Pablo Fernández-Cid
EL AUTOR

Pablo no puede callar cuando se habla de tecnologías audio/música. Doctor en teleco. Ha creado diversos dispositivos hard y soft y realizado programaciones para músicos y audiovisuales. Toca ocasionalmente en grupo por Madrid (teclados, claro).

¿Te gustó este artículo?
7
Comentarios
  • #1 por Klaus Maria el 12/06/2017
    Excuse my french... pero ¡joder, ya estamos ahí!. O_o
  • #2 por Litonano el 12/06/2017
    Da miedo...
    1
  • #3 por El Matagatos el 12/06/2017
    Me viene a la mente Stephen Hawking cantando Fly me to the moon.
    1
  • #4 por BASSPLAYER el 12/06/2017
    8-[
  • #5 por TpuntoGarcía el 12/06/2017
    #3 LoL!
  • #6 por Plodustol Pegalups el 12/06/2017
    Es la muerte anunciada de los triunfitos. Si en vez de tanto baladista popero y babosete sacan una versión de Vocaloid tóxica, abisal y cazallera a lo Tom Waits me lo pillo fijo.
    1
  • #7 por Last_Monkey el 12/06/2017
    Que flipada... no somos ná.
  • #8 por powerstudios el 13/06/2017
    De aqui unos años le diremos a siri la letra y la cantara al vuelo con la voz y feeling que queramos``tiempo al tiempo
  • #9 por grizzvolga el 13/06/2017
    Pues hombre... depende... el ejemplo con el tema de Bruno Mars me suena a máquina por todos los lados... pero el tema de la Oreja de Van Gogh me parece mucho menor que el original... está claro quienes son los que se van a quedar sin trabajo ;-)
    1
  • #10 por Victor_rotciV el 13/06/2017
    2+2=5;
  • #11 por Jack el 13/06/2017
    :cantar:
  • #12 por danio el 13/06/2017
    A ver si vuelve a las escenas Hatsune Miku 2.0 !

    La unica imprecisión es definir los sistema de sintesis de voz como "vocoders", ya que el Vocoder (es uno y es un nombre propio, patentado por Homer Dudley de Bell Labs) es un *codificador* de voz (y de cualquier signal audio) que hace uso de filtros paso-banda, no es un sintetizador vocal, ya que no genera ni sintetiza ningun sonido sino que simplemente separa el sonido entrante en bandas de frecuencias.
    Fue inventado para poder transmitir mas conversaciones telefonicas a la vez a traves de un mismo cable separandolas en bandas de frecuencias y después para codificar conversaciones secretas en la segunda guerra mundial.
  • #14 por supervari el 13/06/2017
    Para mi el problema de las voces sintéticas no es de calidad, o al menos está claro que en poco tiempo eso no será un problema, sí lo es en cambio la complejidad de programar la complejidad de detalles, inflexiones y demás matices necesarios para hacer que suene natural, es una carga que trabajo que de momento hacen descartar cualquier tipo de programa de este tipo, respecto a un cantante real.
  • #15 por pablofcid el 13/06/2017
    #12
    El término de 'vocoder' que efectivamente fue inicialmente creado por Bell Labs ha tenido un uso mucho más amplio posteriormente para referirse a cualquier sistema de codificación / decodificación de voz, y en particular es el que los propios investigadores reiteran hasta la saciedad en el artículo para referirse a su sintetizador de voz (que de hecho es un desarrollo de otros y que ellos usan en su experimento).
    Las técnicas que se aplican en los vocoders en esta amplísima familia no limitada al primer germen creado en los Bell Labs (y de las que me ha tocado implementar unas cuantas en diferentes DSPs) van mucho más allá de la cuestión del banco de filtros fijos. Incluyen todo tipo de técnicas como LPC, Ceptrum, CELP, MBE, MELP, Vocoder de fase, e infinidad más.
    Vaya, que no recuerdo ahora si ha estado protegida la denominación en algún momento, pero desde que a mitad/final de los 80 entré a ese ámbito ya es algo aceptado pacíficamente y sin ninguna constestación el que todos estos sistemas son vocoders, término que no se refiere en exclusiva a lo de BellLabs en los años 20s/30s.
    1
  • #16 por Klaus Maria el 13/06/2017
    #14 El tema es que en el EDM y gran parte del pop mainstream actual la corriente es justamente enmascarar la voz y reducir la complejidad. De ahí el abuso de Autotune, efectos extremos de pitch y directamente copia&pega (dudo que haya tema alguno cantado de principio a fin).

    Para esos entornos herramientas como esta van como un guante... con esto y la generación de personajes sintéticos quizás no estamos tan lejos del futuro de ídolos virtuales que pintaba William Gibson en Idoru.
  • #17 por danio el 13/06/2017
    #15
    Gracias!
    He sempre considerado el vocoder como filtros, digamos la version clasica, ignoraba que en almbito de la sintesis vocal se denominasen vocoders también estos sistemas mucho mas avanzados, que de hecho sintetizan y no solo analizan y codifican.
    Nunca uno acaba de aprender!
    :yeah:
    1
  • #18 por capdevolutions el 13/06/2017
    hace unas semanas vi una peli: los sustitutos, de bruce willis.......ahi lo dejo!
  • #19 por Quim Quer el 14/06/2017
    No queda ná... afortunadamente [-o< De todas maneras superan a algunos humanos que se hacen llamar cantantes... Y encima llegan a lo alto de las listas. Humanos, menos ciencia y más consciencia!! Si nos dedicamos a andar con patinetes eléctricos y a que una máquina nos cante las canciones... Hummm... Me recuerda a... WALL-E!! :hs: Saludos a todos :cascos:
    1
  • #20 por capdevolutions el 15/06/2017
    como decia en un megamix: how bizarre! oi quim quer? ;) ...jejejeej...po no la baile ni na! xD