WAV vs MP3 - Programa para hacer pruebas ciegas : Charla general

Buenas,

Hacía mucho que no me paseaba por aquí, pero hoy vengo a compartir un programa muy simple que he hecho.

El otro día vino un conocido al estudio y, entre otros, hablamos de la calidad del mp3, y si éste es perceptible comparado con el wav original. Le hice pruebas ciegas, al estilo de matrixhifi (los que aseguran que no hay diferencias, incluso en muestras a menos kbps), en las siguientes condiciones:

- WAV original a 16 bit / 44.1 kHz.
- MP3 derivado de ese wav, a 320 kbps fijos, con la mejor codificación posible (la lenta).
- Procurando que los audios sonaban al mismo volumen.
- Tarjeta SPL Crimson con cables balanceados Sommer Carbokab SW de 2.5 metros cada uno
- Monitores Yamaha MSP5 (tienen unos 6 o 7 años)
- Sala bastante absorvente, semi-irregular, con pocos rebotes.

Vimos (él seguro, yo no podía afirmarlo pues podía ser autosugestión), que sí se notaban diferencias, incluso con esos mp3, que estaban al máximo de calidad. Me describía que el sonido era más "delgado", y en los agudos faltaba un brillo o polvo, faltaba naturalidad.

Para descartar que yo no me autosugestionaba, los días siguientes programé una aplicación muy simple, para hacer pruebas ciegas uno mismo. La he probado y tengo que decir que prácticamente siempre acierto, cuándo no acierto es porqué dudo. Si uno se fija lo nota.

Así pues pulí el programa y lo he publicado, por si hay algún otro audiófilo que quiera usarlo. No gano absolutamente nada con él, simplemente quiero compartirlo. Tengo su ficha en sourceforge y un espejo en Dropbox. Aquí el artículo en mi blog embrionario:

https://saxarbadmt.wordpress.com/2017/02/03/wav-vs-mp3-oneself-blind-test/

Y aquí la entrada en Sourceforge:

https://sourceforge.net/projects/wav-vs-mp3-oneself-blind-test/

Se requiere Windows y .NET Framework 4 (en principio Windows ya se encargó en la mayoría de casos de colarlo). Está en C# y por la simplicidad de su código no lo he ofuscado. Eso quiere decir que si uno no está seguro, puede llegar a descompilar el programa y ver absolutamente todo lo que he escrito en él.

Así pues, animo a todos a darse cuenta que los formatos con pérdida están provocando el declive de la cultura del audio "hi-fi". Si alguien quiere hacer una aportación, se lo agradeceré.

Un saludo

Por cierto, dos apuntes: no sé si éste era el apartado adecuado para publicar el hilo. Y dos, he buscado igualmente hilos similares, pero los que he encontrado eran antiguos o no era un hilo específico.

1

Baneado

RaingodSpires escribió:
Vimos (él seguro, yo no podía afirmarlo pues podía ser autosugestión), que sí se notaban diferencias,

No lo dudo, en las pruebas ciegas hay orejas de oro que notan sutiles "diferencias" incluso al reproducir dos veces el mismo archivo.

1

Lo dicho, no necesito convencer a nadie de nada.
Quien quiera verlo está ahí.

#1 Está muy bien que hayas hecho esta aplicación y que la hayas compartido. Con espíritu constructivo quiero hacerte unos comentarios sobre tu blog:

- Creo que no deberías poner comentarios subjetivos, mucho menos cuando tú mismo no los tienes claros:

RaingodSpires escribió:
Vimos (él seguro, yo no podía afirmarlo pues podía ser autosugestión), que sí se notaban diferencias, incluso con esos mp3, que estaban al máximo de calidad. Me describía que el sonido era más "delgado", y en los agudos faltaba un brillo o polvo, faltaba naturalidad.

has puesto eso en tu blog... yo me limitaría a hablar de las prestaciones de la aplicación, sin hacer valoraciones de ese tipo, puesto que este es un tema discutido y precisamente te has dedicado a ofrecer una herramienta para que cada cual se forme su opinión basándose en su oído.

- Resulta extraño que tu blog esté en inglés, pues se nota a la legua que no es tu idioma materno (lo que se suele llamar "inglés de Calatayud", vamos, con respetos a la Dolores :mrgreen:

). Podrías ponerlo en castellano para todos esos que vienen por aquí pidendo ayuda porque no saben inglés :desdentado:

i també en català, com no.

#4 Agradezco tu comentario. No te falta razón. Si expando el programa voy a cambiar el readme.

El tema de hacerlo en inglés, básicamente es porqué es el idioma más hablado en internet, y aunque hable/escriba un inglés primitivo, todo el mundo podrá entenderlo. Tanto los spaninglish como yo, como los ingleses de pura cepa, auque éstos últimos se rian un rato. Y es que siempre hace gracia (en España con los guiris habrá quien lo haga más o menos, pero sigue siendo gracioso).

Aunque sí es verdad que no debería precondicionar al sujeto, pero tampoco es algo que me invente. Hay discotecas que no aceptan formatos con pérdida pues el sonido no tiene el mismo "peso". Y oye, si el sonido mp3 a la práctica es igual que wav, por qué los estudios de grabación, mezcla, mastering... no quieren ni oir hablar del mp3?

Y si debo confesarme, diré algo: personalmente voy a detectar SIEMPRE si es mp3 con un género que usa unos sonidos en concreto (siempre y cuando no reprogramen el algoritmo), porqué al sacrificar material, se delata y no sabe camuflar sus fallos (a 320 kbps igualmente). Pero no descarto, que en géneros más acústicos, y sobretodo, música que no conozca, me cueste mucho más (e incluso admita que "no se aprecian diferencias").

Pero si se trata de sonido muy concreto, el algoritmo falla y eso es innegable. Vaya, por lo menos yo lo noto, incluso sin tener que comparar (y dudo mucho que un oído entrenado no oiga esos chasquidos característicos del mp3... incluso a 320 kbps!).

Una vez más, gracias por tu tiempo.

Sé que ha pasado más de un año, pero ayer googleando otras cosas, por colisión (de rebote) encontré este hilo de fc.

Personalmente, ya no había dado más vueltas al tema, y aunque sé que está más gastado que la suela de los zapatos de un mozo de almacén de Amazon, volví a liarme. No tengo "cuneta" en ese foro, pero me leí el hilo de arriba abajo.

En primer lugar, reconozco que un mp3 bien cocinado a 320 kbps (codificación lenta/la mejor), y haciendo pruebas con música acústica (voces, guitarras, baterías acústicas, violines, etc.), soy incapaz de distinguirlo del wav/aiff. Supongo que el algoritmo se aseguró que funcionara más en este tipo de música, y no se pensó tanto en la electrónica, concretamente en géneros como (por ejemplo) el Trance Psicodélico. Llegué a esa conclusión hace meses al ver que el algoritmo fallaba con los picos de los bombos que se suelen usar, que son limpios y "de goma". No se si a ese ruido que hace el algoritmo se le llama glitch. Eso para mí es razón suficiente como para tener y escuchar la música de dicho genero en formatos sin pérdida.

Por otro lado, en el hilo que cito, se hablaba que los algoritmos han ido mejorando con los años. Bien, según wikipedia, la última actualización del sistema MPEG Layer 3, se hizo en 2008. Eso me dio por pensar que quizá, aunque mi samplitude sea posterior (pro x2, y la dejadez por parte de Magix en revisar el código del programa daría para otro hilo), no tenía el algoritmo actualizado o bien, como he corroborado hoy, sus parámetros no dejan jugar mucho. A la hora de convertir a mp3, puedo escoger a 320 kbps, y luego o "High Quality", o "Fast Quality". Eso en CBR. Por eso, y después de demostrarme a mi mismo 10/10 que con incluso una pieza actual del género, los podía distinguir (wav vs mp3 320kbps "HQ"), he buscado si en el ordenador del estudio tenía algún conversor y he dado con freac (Free Audio Converter). Ahí podía escoger hasta 10 posiciones creo recordar. La calificada como mejor era = 0. Me ha parecido que convertía mejor (siempre a 320 kbps CBR) porqué no notaba tanto el "gitch", pero no lo puedo asegurar porqué un factor que veo importante es la fatiga auditiva al cabo de una media hora. Con esta nueva conversión he fallado la última vez (9/10). ¿Haría falta un notario? ¿Puede seguir siendo suerte? Caóticamente sí, claro. Estoy pensando en el modo de poder hacer logs en el programa, con sumas de verificación u otro método que pueda corroborar/demostrar los resultados de los tests, sin que sea manipulable (¿posible aunque se descompile el programa?).

Bien, otra duda que me asaltó al leer el hilo, es el protocolo/metodología a la hora de hacer pruebas ciegas. Se cita allí hacer tests ABX. Googleando, a parte de los links que pasaban en el hilo, encontré esta web, muy interesante. Estoy bastante contento con los resultados (eso sí, entre otras, no tengo oído absoluto).
Por lo que vi, un test ABX funciona de la siguiente manera: Se identifica la muestra A (por ejemplo = mp3), y la muestra B = wav. Luego, sin poder comparar, se te presenta la muestra X, y tienes que decidir si es A o B. Eso ayer me hizo replantear el programa que hice hace un año. En mi programa puedo comparar tantas veces como quiera (no recuerdo si en matrixhifi* hacían un método que también aceptaba comparación). El hecho de poder comparar las dos muestras (no sabiendo cual es cual), he podido experimentar que algunas veces, básicamente cuando no presto atención, me ayuda a identificarlas. En otras palabras:

Me es más fácil decidir si A = mp3, o A = wav, si para eso puedo comparar con B (y que ésta puede ser = wav, o = mp3). Veo más complicado saber si X = A, o X = B, si no tengo acceso a la otra referencia (dependiendo así de la memoria un poco más lejana que con el otro método, en caso de no saber identificar la muestra en frío). ¿Debería implementar el método ABX? ¿El otro método (A=? y B=?) es menos riguroso? Cuando oigo claro los fallos del algoritmo del mp3, y al parecer más si lo he hecho con samplitude, algunas veces no necesito comparar. ¿Es perceptible? Sí ¿Siempre es tangible? No. ¿Por qué? Fatiga auditiva, no prestar atención a los detalles/desconcentrarse y tipo de sonido (repito, en música acústica y en general si no la conozco, admito que no los distingo o bien me cuesta más). Al fin y al cabo el mp3 se ideó para aprovecharse al máximo de las limitaciones del oído humano. También mi mente se plantea (y esto es pura hipótesis carente de fundamento, más apta para buscadores místicos/no-científicos), si, aunque la calidad, resolución y frecuencia de muestreo de un sonido sea sensorialmente imperceptible más allá de los límites del órgano, esta calidad extra acabe siendo información de peso que de algún modo, "estará en el aire" (y notaremos con los pelos de los cojones). No sé si me explico. ¿El sonido real de las olas del mar impacta igual que si sale de una pared de monitores con una respuesta corregida que "casi" emula la realidad?

Por otro lado, no se si leí bien, pero al parecer la industria se esmera cada vez más en que el master final, suene lo mejor posible en formatos con pérdida, eso supongo que es, que camufle los fallos previsibles del algoritmo ¿Es necesario actualmente llegar a este extremo? ¿Merece la pena el sacrificio? ¿Es evolución hacer másterings para altavoces de móvil/pc portátil?. Con la muestra que he probado hoy (si os interesa, es el remix de Vini Vici del tema "Free Tibet"), el sonido ya no es tan claro/limpio/simplificado (que no pulido/conseguido/imponente) como con pistas de hace 10-12 años, por no decir que el rango dinámico está totalmente aplastado. Mi álbum de referencia en el caso de pistas de 10-12 años atrás, sería "The Star Alliance vol I" (recopilatorio/coalición de varios artistas, de la mano de Ultravoice). Sé que a muchos estas referencias os sonarán a chino, y si encima las escucháis habrá quien, incluso, considere que eso no es música. De acuerdo (¿a siglo XXI, qué definimos por música?). En cualquier caso es el sonido que tengo de referencia y que más conozco, para a la hora de probar salas y monitores/auriculares; indiferentemente de que para nutrirme intente escuchar de todo, y me permita además disfrutar las joyas de todo tipo que encuentro.

*Algo que nunca he entendido de matrixhifi, es que muchos de los usuarios que hacían las pruebas ciegas, les era indiferente la música a utilizar, ya fuera conocida o no. No voy a hablar de si suenan los cables, DACs y otros temas que no conozco ni he tenido ocasión de "escuchar". En mi caso, claramente participaría (en un test lossy vs lossless) usando la música que conozco y dónde percibo que el algoritmo falla. ¿Eso es hacer trampa? ¿Soy un cuñado?

Saludos

mod

No creo que hagas trampa con eso, si el resto de participantes en el test escucha exactamente la misma música y responde a un cuestionario estandarizado. Si se reúnen suficientes muestras podrías tener un estudio estadístico interesante. Si todo se limita a la opinión subjetiva de una o varias personas, no se llegará a nada concluyente.

Estuve pensando un método para poder enviar los resultados sin necesidad de internet en el lugar de la prueba, ya que soy de esos que no quiere internet en el ordenador del estudio.

Básicamente haría que, después de haber realizado los tests, el programa comprobara su propia ubicación de ejecución, y efectuara varias sumas de verificación (MD5, SHA1, SHA256, Whirlpool, Tiger), que constarían en el archivo de resultados del test. Esto se haría para comprobar que el programa no ha sido modificado. Ese archivo de resultados, a su vez, sería cifrado por el programa con una contraseña pública. Cuando el usuario enviara el archivo cifrado de resultados a un servidor o correo, yo o el "organismo" que se ocupara de la investigación, podría descifrarlo con la contraseña privada y ver el resultado.

Sobre el hecho de usar en los tests la misma música, supongo que se podría hacer sin problema (haría que el programa también hiciera sumas de verificación de los archivos de audio).