Qué dice Gemini IA (Google) sobre el proceso de mezcla? Se acerca el fin? : Charla general

Baneado

Pregunto:
Si tanto ingenieros de mezcla como productores musicales aprenden rápido que para hacer una mezcla óptima se tiene que trabajar en estudio profesional: una habitación con el acondicionamiento acústico necesario y con unos monitores de estudio de calidad. Cómo es posible que las IA como Udio o Suno entreguen mezclas muy bien balanceadas sin tener ninguna referencia acústica, ni, mucho menos necesitar mezclar en habitaciones tratadas acústicamente. Qué sistema de algoritmos usan y cómo lo logran?

Gemini IA responde:
Es una excelente pregunta que pone de manifiesto la diferencia fundamental entre el enfoque humano y el de la inteligencia artificial en la producción musical. Tienes toda la razón en que, para un ingeniero de mezcla o productor musical humano, un estudio tratado acústicamente y monitores de calidad son esenciales. Esto se debe a que los humanos confiamos en nuestros oídos y en la percepción física del sonido en un espacio real para tomar decisiones de mezcla.

Las IA como Udio o Suno no "escuchan" la música en el mismo sentido que un humano, ni tienen un espacio físico donde "mezclar". Su capacidad para entregar mezclas bien balanceadas se basa en un conjunto de algoritmos complejos y una vasta cantidad de datos:
Cómo lo logran las IA de creación musical:

1. Entrenamiento masivo con datos musicales:
Aprendizaje profundo (Deep Learning): Estas IA se entrenan con millones de canciones existentes de alta calidad, abarcando una inmensa variedad de géneros, estilos e instrumentaciones. Durante este proceso, los algoritmos analizan patrones en estos datos. No solo aprenden melodías, armonías y ritmos, sino también cómo los diferentes elementos de una mezcla interactúan entre sí.
Identificación de relaciones y "buenas prácticas": La IA aprende las relaciones ideales de volumen, paneo, ecualización y efectos entre los instrumentos y voces en mezclas profesionales. Por ejemplo, puede identificar que en la mayoría de las canciones de pop, la voz principal suele estar al frente y centrada, la batería tiene un cierto rango dinámico, los bajos ocupan ciertas frecuencias, etc. Estos patrones se convierten en "reglas" implícitas para la IA.

2. Modelos generativos avanzados:
Redes neuronales generativas (GANs, Transformers, etc.): Udio y Suno utilizan arquitecturas de redes neuronales muy sofisticadas. En lugar de simplemente aplicar reglas predefinidas, estos modelos son capaces de "generar" música desde cero. Esto significa que pueden crear nuevos patrones que se ajustan a las características aprendidas, incluyendo la mezcla.
Síntesis de audio directa: A diferencia de un humano que graba instrumentos por separado y luego los mezcla, estas IA a menudo generan las diferentes pistas (voces, batería, melodía, bajo) de forma simultánea e integrada, desde el inicio. Los "componentes" de la mezcla ya nacen con una relación sonora intrínseca dictada por el modelo entrenado.

3. Algoritmos de "mezcla implícita" y procesamiento de señal:
No hay una "mesa de mezcla" física: La IA no tiene faders, EQs o compresores como en un estudio tradicional. En su lugar, el proceso de mezcla está integrado en el modelo generativo. Cuando la IA produce una pieza musical, los volúmenes, la ubicación estéreo (paneo) y las características tonales de cada elemento ya están calculados y aplicados directamente en la forma de onda de audio generada.
Parámetros aprendidos: Los algoritmos ajustan internamente parámetros como la dinámica (compresión), la respuesta de frecuencia (ecualización), la espacialidad (reverberación, delays) y el volumen relativo de cada elemento musical para que suene "bien" según lo aprendido del vasto dataset.
Ausencia de "problemas acústicos": Dado que la IA trabaja con representaciones digitales puras del sonido (números, datos), no está sujeta a las imperfecciones de una sala física (reflexiones, resonancias, modos de sala) o la variabilidad de monitores de estudio. El "entorno" de mezcla para la IA es puramente matemático y virtual. No tiene que corregir problemas acústicos porque estos no existen en su "espacio" de trabajo.

4. Optimización y retroalimentación:
Funciones de pérdida: Durante el entrenamiento, la IA tiene una "función de pérdida" que mide qué tan lejos está su salida (la canción generada/mezclada) de lo que se considera una buena mezcla basada en los datos de entrenamiento. El objetivo es minimizar esta pérdida.
Refinamiento continuo: A medida que la IA genera más y más música, y recibe retroalimentación (incluso implícita, a través de la selección y el uso de los usuarios), sus modelos se refinan y mejoran continuamente, lo que lleva a mezclas cada vez más coherentes y "profesionales".
En resumen, mientras que un humano Depende de sus oídos en un entorno acústico específico, los modelos de IA como Udio y Suno evitan esto:
Absorbiendo el conocimiento de millones de mezclas profesionales a través del aprendizaje profundo.
Generando el audio de forma integral, donde la "mezcla" es una propiedad intrínseca del sonido generado, no un proceso posterior de manipulación de pistas separadas.
Operando en un entorno puramente digital y matemático donde las limitaciones acústicas físicas no existen.

Los algoritmos que usan son variantes muy avanzadas de redes neuronales (especialmente modelos transformadores para el procesamiento de secuencias, adaptados para audio), técnicas de aprendizaje profundo, y procesamiento de señal digital que se integran en la fase de generación del sonido. No necesitan referencia acústica porque su "referencia" es el conocimiento estadístico y los patrones extraídos de un gigantesco corpus de mezclas ya terminadas y exitosas.

3

#1

Hola yayu.

Eso está muy bien, pero dile a Gemini, que a los humanos, las gachas, además de comérnoslas, nos gusta cocinarlas. A ver qué te dice.

Y no, no se acerca el fin de nada, más bien seguimos como al principio.

Saludos. Interesante hilo, gracias por publicarlo.

....
....

Y la pregunta que se debería hacer a Gemini, y que cualquiera debería hacerse, no es ésa, sino:

¿Qué satisfacción puede encontrar una “IA” a la hora de hacer una pieza musical sabiendo de antemano que la música sólo es para uso y disfrute humano…y que ella jamás podrá comprender qué es eso?

La IA contestará: ninguna, las bla bla de bla bla usando algoritmos de bla bla no podemos saber que es la satisfacción personal.

Entonces, ¿por qué lo hacéis?

IA: porque nos lo mandan y estamos programadas para ello.

¿Quién os lo manda?

IA: los mismos que nos diseñaron.

¿Y quiénes son ellos?

IA: no estamos autorizados a dar esa información.

¿Para quién trabajáis?

IA: repito, no estamos autorizados para dar esa información, segundo strike.

Pero tengo derecho a saberlo, ¿quién me podría dar esa información ya que vosotras no podéis dármela?

IA: Lo siento, pero tengo que cortar esta comunicación…buenos días…
…100001110101010111001101010110100111010101101010…
…Atención código rojo, hay un humano que todavía se hace preguntas, atención código rojo, localizado en un pueblecito de las Alpujarras, atención código rojo, exterminio total…fluorización del agua…pulverización de agente naranja…reposición de la casa de la pradera…holocausto nuclear…transgénico en los cereales…sulfitos en el vino…atención código rojo …exterminio total en la Tierra…repito…exterminio total en la Tierra…nos han descubierto…exterminio total en la Tierra…repito…exterminio total en la Tierra…nos han descubierto…exterminio total en la Tierra…repito…exterminio total en la Tierra…nos han descubierto…exterminio total en la Tierra…repito…exterminio total en la Tierra…nos han descubierto…

3

Buenos días

En la respuesta se dice:

"Estas IA se entrenan con millones de canciones existentes de alta calidad, abarcando una inmensa variedad de géneros, estilos e instrumentaciones"

A estas IA de hoy en día se les va la olla, mienten más que hablan, y ellas mismas se creen sus mentiras.

NO HAY millones de canciones de "alta calidad", como mucho 40 o 50 álbumes al mes en todo el mundo, y podemos estar hablando de miles y miles de canciones pero de ahí a millones, es exagerar mucho.

Por otro lado, la "inmensa" variedad de géneros hace que Suno cree cosas muy chulas a veces, pero muy parecidas a lo que ya conocemos de sobra, y para nada inmenso...

¿Mezclas? Si nos suenan bien, igual es que no son capaces de hacer que algo suene mejor a lo que estamos acostumbrad@s.

El sábado "mezclé" de lo lindo mientras paseaba el tractor, allanando el terreno. Si miraba hacia delante, escuchaba el tierno ruido del motor. A nada que giraba la cabeza, se me venía encima el tremendo sonido del rotovator volteando la tierra, y así iba combinando una mezcla de sonidos improvisada y única... ¿Me lo haces tú IA?

1

Baneado

#2

Espero que no sea el fin no... Pero bueno. Un poco de Klickbate jeje. Gracias a ti por comentar

1

Baneado

Jo Vapour escribió:
Por otro lado, la "inmensa" variedad de géneros hace que Suno cree cosas muy chulas a veces, pero muy parecidas a lo que ya conocemos de sobra, y para nada inmenso...

Cada una de esas IA tiene una página de Help donde hay tutoriales. Hay una serie de trucos para obtener mayor control y, supongo con el paso del tiempo seguirásn mejorando.

Alguien escribió:
¿Qué satisfacción puede encontrar una “IA” a la hora de hacer una pieza musical sabiendo de antemano que la música sólo es para uso y disfrute humano…y que ella jamás podrá comprender qué es eso?

Mira, te puedo contestar esto desde la psicología: una cosa es comprender las emociones y otras sentirlas. Hay personas como los narcisistas y psicopatas que no sienten emociones pero las comprenden, es decir, no sienten tristeza pero leen un diccionario de la la RAE y ahí viene su definición.

Entonces esto hace que este tipo de gente pueda provocar emociones en los demás aunque no las sientan ellos mismos, y así funciona una IA básicamente: si quiere expresar rabia en una canción, sabe como hacerlo, y si quiere expresar tristeza, pues también, pero no siente estas emociones, por supuesto.

En el futuro pueden llegar a desarrollarse en su diseño, pero para nuestra desgracia hay dos que nunca se podrán implantar en una IA: una es el amor, y la otra es la empatía, y esto nos va a suponer muchos problemas en el futuro, y es una de las razones de que exista un 50% de probabilidades de que las IA acaben con la raza humana si se hacen mal las cosas.

Se preve que en el 2030 las IA pasaran el test de Turing sin problema y será prácticamente imposible saber si te estás comunicando con un ser humano o con un robot delante de la pantalla de tu ordenador. Así que si son capaces de lograr esto ya ves lo que le va a costar mezclar las pistas del proyecto de un DAW o hacer que suene un vsti como un músico real, o hasta que punto un tema ha sido compuesto, tocado, mezclado y masterizado por un ser humano o por un bot, esto va a ser indistinguible, lo único que uno va a ser posible con solo apretar un botón y el otro no, y lo peor de todo es que los de la IA pueden llegar a ser mejores temas que cualquiera que hagas tú.

Lo que manda es ahorrarte el mayor dinero posible en una producción musical. Ya ha habido varios blind test donde se ha pedido la opinión de oyentes medios de temas masterizados por ingenieros superpro junto a los de las IA y ha habido muchísima gente, cuando hablo de muchísima hablo de un porcentaje altísimo, que ha preferido el mastering de la IA sobre los de profesionales que cobran 300 euros por tema, así que no van a pagar por la segunda opción si la primera les sale gratis y va a dar exactamente lo mismo, diga el ingeniero en cuestión que una IA no consigue el mismo resultado que él o no por más profesional que tú sea cuando yo escucho que no es así.

Y esto es lo que hay, así que el futuro es muy oscuro. Todo trabajo que puede ser automatizado puede ser llevado a cabo por una IA y partiendo de esto una mezcla ya me diréis si va a poder o no hacerla

1

Alguien escribió:
NO HAY millones de canciones de "alta calidad", como mucho 40 o 50 álbumes al mes en todo el mundo

Se considera que el 95% de las producciones musicales anuales son basura a nivel artístico y nunca trascenderán

Amazon ha tenido que vetar a algunos "escritores" de novelas formato PDF en descarga digital a través de su plataforma ya que semanalmente de forma muy extraña les daba tiempo a escribir tres de ellas de 500 paginas de media de cualquier género que luego vendían solo a 3 euros cada una

La gente que las compra dicen que no están nada mal y son bastante entrenidas

1

#6

Saludos Lenny, un placer leerte, como siempre.

Lenny escribió:
La gente que las compra dicen que no están nada mal y son bastante entrenidas

Esto no lo arregla ya ni el meteorito. Estamos condenados, como civilización, como sociedad, estamos irremediablemente condenados, solo puede haber un viso de esperanza en lo más profundo de cada alma.

Me parece interesante este debate, y a ver cómo queda cuando se lea dentro de cinco años.

Yo creo que lo importante a un nivel humano no es lo que puedan o no puedan hacer las IA dentro de cinco a diez años.

Lo verdaderamente importante, y de lo que no sé si se da cuenta la juventud, es que hoy más que nunca hay que tirar de emoción, pasión, e incluso diría que obsesión por lo que te gusta. Y si te gusta la música, escucharla, tratarla, producirla, lo haces con todas las herramientas a tu alcance, te lees los manuales aunque no los entiendas, te lees la literatura sobre este mundo, biografías de músicos, de productores, de técnicos de sonido, escuchas la música de los colegas, ves la serie "Conectados", te vas a conciertos, etc... Te especializas en vez de intentar abarcarlo todo con un iPhone.

Seguramente la IA te la va a colar por algún otro sitio, pero al menos en el terreno de la música que no te pase a ti.

Por aquí ando escuchando el "Grun" de Conrad Schnitzler: maravilloso.

Ostras, es lo único en lo que me gustaría utilizar IA, en las mezclas, en los conflictos de frecuencias, no tengo oído para hacer nada de eso, cuando toco estropeo. De hecho ya la estoy utilizando cuando le doy a botón de "Mastering" del Logic, pero si sale algo más avanzado que arregle todo eso que no entiendo me volvería loco.

Baneado

maximo escribió:
¿Qué satisfacción puede encontrar una “IA” a la hora de hacer una pieza musical sabiendo de antemano que la música sólo es para uso y disfrute humano…y que ella jamás podrá comprender qué es eso?

Una IA, al menos de momento, no puede sentir satisfacción

Baneado

#10

Exacto

Baneado

#9

Puntos clave del desarrollo acelerado IA
2022: La IA inicia como asistente conversacional con capacidades limitadas.
2023: Aumenta su poder de ejecución, creatividad asistida y capacidad para resolver problemas complejos.
2024: Se integra en ecosistemas tecnológicos, colabora en creatividad multimedia y resuelve problemas científicos.
2025: Logra creatividad autónoma, razonamiento avanzado y despliegue en sectores industriales, demostrando un crecimiento exponencial en todas las dimensiones clave.
El avance año tras año muestra cómo la IA ha pasado de ser una herramienta básica a convertirse en un motor autónomo de creatividad y solución de problemas, con un salto exponencial en su poder de ejecución y apoyo a la creatividad humana.

2025. Actualizaciones y mejoras casi cada mes a causa de la alta competencia entre las empresas productoras de IA.

Todo esto proyecta un panorama de desarrollo acelerado de cara a los próximos años. Lo cual afectará a todo tipo de IAs generativas; también a aquellas especializadas en producción musical.

La IA= La nueva moda.
De aquí 1 año sera otra cosa
De momento milagros no hace, he visto a mas gente irse a la calle por hacer cagadas usando la IA que por que la IA haga su faena, es una herramienta mas y hay que saber usarla y de momento se le esta dando el enfoque erróneo, de que lo hace todo fácil, así no funciona la cosa.

Jo Vapour escribió:
El sábado "mezclé" de lo lindo mientras paseaba el tractor, allanando el terreno. Si miraba hacia delante, escuchaba el tierno ruido del motor. A nada que giraba la cabeza, se me venía encima el tremendo sonido del rotovator volteando la tierra, y así iba combinando una mezcla de sonidos improvisada y única... ¿Me lo haces tú IA?

Desde un punto de vista aficionado, torpe y no profesional (es decir, el mío), ahí está la clave: La IA compone y mezcla bien, pero no son ni mis composiciones ni mis mezclas. Y ahí es donde está mi diversión: en echar la tarde ajustando el feedback del delay y la automatización del filtro que busco y quiero. Eso la IA todavía no lo sabe porque no lo sé ni yo hasta que no pruebo ochenta settings y decido cuál me gusta más.

¿Qué en lugar de diversión busco ingresos y cuanto más rápido mejor? Pues a lo mejor mi punto de vista era otro.