Ajuste de modelos de difusión para la generación de audio

Fiorino, Santiago

Navegar

Documento Últimos publicados Autor Año Título Obtenido - Año Departamento - Año Director y Director Asistente Jurado Consejero de Estudios Palabras Clave

Colección

Datos Estadísticas

Tesis de Grado

Fiorino, Santiago. "Ajuste de modelos de difusión para la generación de audio" . (2025). Tesis de Grado, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.

Registro Resumen Abstract Citación Estadísticas

Registro:

Documento:	Tesis de Grado
Título:	Ajuste de modelos de difusión para la generación de audio
Título alternativo:	Fine-tuning diffusion models for audio generation
Autor:	Fiorino, Santiago
Editor:	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Publicación en la web:	2025-12-30
Fecha de defensa:	2025-05-12
Fecha en portada:	2025
Grado Obtenido:	Grado
Título Obtenido:	Licenciado en Ciencias de la Computación
Departamento Docente:	Departamento de Computación
Director:	Riera, Pablo Ernesto
Jurado:	Castro, Rodrigo Daniel; Pepino, Leonardo
Idioma:	Español
Palabras clave:	MUSICA; SINTESIS; DIFUSION; TRANSFORMERSMUSIC; SYNTHESIS; DIFFUSION; TRANSFORMERS
Formato:	PDF
Handle:	http://hdl.handle.net/20.500.12110/seminario_nCOM000844_Fiorino
PDF:	https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000844_Fiorino.pdf
Registro:	https://bibliotecadigital.exactas.uba.ar/collection/seminario/document/seminario_nCOM000844_Fiorino
Ubicación:	Dep.COM 000844
Derechos de Acceso:	Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Fiorino, Santiago. (2025). Ajuste de modelos de difusión para la generación de audio. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de http://hdl.handle.net/20.500.12110/seminario_nCOM000844_Fiorino

Resumen:

La música, una de las formas de expresión artística más antiguas de la humanidad, ha evolucionado junto con los avances tecnológicos, desde los instrumentos de percusión primitivos hasta las herramientas de síntesis de audio digital modernas. Hoy en día, la inteligencia artificial desempeña un papel central en la generación de música, utilizando las últimas arquitecturas de transformers y técnicas de difusión, siendo así capaz de generar canciones completas a partir de indicaciones en lenguaje natural. A pesar de los recientes avances en modelos privados, como los desarrollados por Udio y Suno AI, que demuestran gran potencial, su naturaleza cerrada limita la investigación científica. En junio de 2024, Stability AI lanzó Stable Audio Open (SAO), un modelo de síntesis de audio basado en difusión de código abierto, democratizando la investigación en este campo. Aunque SAO tiene gran calidad en la generación de efectos de sonido, sus capacidades musicales están limitadas debido a los pocos datos de entrenamiento musicales con licencias abiertas disponibles. Nuestra investigación se centra en mejorar las capacidades de generación musical de SAO mediante el re-entrenamiento, utilizando un conjunto de datos especializado. Abordamos limitaciones específicas, incluyendo la incapacidad del modelo para generar ciertos instrumentos, dificultades para adherirse a elementos musicales especificados e inconsistencias en parámetros técnicos como el tempo y la tonalidad. El trabajo incluye la creación de un pipeline personalizado para la generación del conjuntos de datos, sintetizando audio a partir de archivos MIDI, enriqueciendo metadatos mediante APIs como Spotify y LastFM, y generando indicaciones en lenguaje natural con modelos de lenguaje (LLMs). Utilizando este pipeline, se generó un conjunto de datos de 9 horas de música que abarca diversos géneros, tempos y tonalidades. Los resultados demostraron mejoras significativas en el modelo re-entrenado (“Instrumental Finetune”) en comparación con el SAO original, particularmente en calidad de sonido, precisión en la reproducción de instrumentos, adherencia a géneros y tempos, alcanzando un 95,3 % de precisión frente al 77,6 % del modelo original. La precisión del tono y la escala siguen siendo un desafío, pero las métricas basadas en representaciones, como KL-Passt y CLAP Score, indicaron que nuestro modelo ajustado iguala o supera el rendimiento tanto de SAO como del modelo comercial MusicGen, manteniendo capacidades de generalización a pesar de nuestra optimización específica del dominio.

Abstract:

Music, one of humanity’s oldest forms of artistic expression, has evolved alongside technological advancements, from primitive percussion instruments to modern digital audio synthesis tools. Today, artificial intelligence plays a pivotal role in music generation, leveraging state-of-the-art architectures like transformers and diffusion models capable of generating complete songs from natural language prompts. Despite recent advances in proprietary models, such as those developed by Udio and Suno AI, which demonstrate great potential, their closed nature limits scientific research. In June 2024, Stability AI released Stable Audio Open (SAO), an open-source diffusion-based audio synthesis model, democratizing research in this field. While SAO excels in sound effect generation, its musical capabilities are constrained by limited open-license training data. Our research focuses on enhancing SAO’s musical generation capabilities through fine-tuning on a specialized dataset. We address specific limitations including the model’s inability to generate certain instruments, difficulties in adhering to specified musical elements, and inconsistencies in following technical parameters such as tempo and tonality. The research involves creating a custom dataset-creation pipeline by synthesizing audio from MIDI files, enriching metadata using APIs like Spotify and LastFM, and generating natural language prompts via large language models (LLMs). Using our pipeline, a 9-hour music dataset was generated, spanning various musical genres, tempos and tonalities. Results demonstrate significant improvements in the fine-tuned model (“Instrumental Finetune”) compared to the original SAO, particularly in sound quality, instrument reproduction accuracy, genre adherence, and tempo adherence, where our model achieved 95.3 % accuracy, compared to 77.6 % in the original model. Tone and scale accuracy remained challenging, and embedding-based metrics such as KL-Passt and CLAP Score indicate that our fine-tuned model matches or exceeds the performance of both SAO and the commercial model MusicGen, maintaining generalization capabilities despite our domain-specific optimization.

Citación:

---------- APA ----------

Fiorino, Santiago. (2025). Ajuste de modelos de difusión para la generación de audio. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/seminario_nCOM000844_Fiorino

---------- CHICAGO ----------

Fiorino, Santiago. "Ajuste de modelos de difusión para la generación de audio". Tesis de Grado, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2025.https://hdl.handle.net/20.500.12110/seminario_nCOM000844_Fiorino

Estadísticas:

Descargas mensuales

Total de descargas desde :

https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000844_Fiorino.pdf