Registro:
| Documento: | Tesis de Grado |
| Título: | Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes |
| Título alternativo: | Efficient transfer learning for pre-trained speech models in speaker identification |
| Autor: | Ernst, Erik |
| Editor: | Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
| Fecha de defensa: | 2025-04-09 |
| Fecha en portada: | 2025 |
| Grado Obtenido: | Grado |
| Título Obtenido: | Licenciado en Ciencias de la Computación |
| Departamento Docente: | Departamento de Computación |
| Director: | Ferrer, Luciana |
| Director Asistente: | Pepino, Leonardo |
| Jurado: | Iarussi, Emmanuel; Sancinetti, Marcelo |
| Idioma: | Español |
| Palabras clave: | IDENTIFICACION DE HABLANTES; MODELOS PRE-ENTRENADOS DE HABLA; PROCESAMIENTO DEL HABLA; FINE-TUNING; TRANSFER LEARNING; TRANSFORMERSSPEAKER IDENTIFICATION; PRE-TRAINED SPEECH MODELS; SPEECH PROCESSING; FINE-TUNING; TRANSFER LEARNING; TRANSFORMERS |
| Formato: | PDF |
| Handle: |
http://hdl.handle.net/20.500.12110/seminario_nCOM000839_Ernst |
| PDF: | https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000839_Ernst.pdf |
| Registro: | https://bibliotecadigital.exactas.uba.ar/collection/seminario/document/seminario_nCOM000839_Ernst |
| Ubicación: | Dep.COM 000839 |
| Derechos de Acceso: | Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Ernst, Erik. (2025). Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de http://hdl.handle.net/20.500.12110/seminario_nCOM000839_Ernst |
Resumen:
En los últimos años, el avance acelerado del aprendizaje automático ha transformado el procesamiento de datos, ofreciendo modelos pre-entrenados capaces de capturar representaciones semánticas complejas. Sin embargo, esta evolución ha venido acompañada de un creciente costo computacional, centralización de recursos en pocas instituciones y un enfoque orientado a maximizar los resultados, dejando en segundo plano la comprensión de las razones detrás de muchas decisiones de diseño de la arquitectura y el entrenamiento de modelos. En esta tesis, exploramos técnicas eficientes de transfer learning aplicadas a modelos pre-entrenados de habla para la tarea de identificación de hablantes (Speaker Identification, SID). En este marco, nuestro objetivo principal fue comprender en profundidad el impacto de configuraciones clave en el diseño y entrenamiento de modelos. Primero, experimentamos con múltiples arquitecturas e hiperparámetros con el fin de encontrar el mejor modelo downstream utilizando WavLM Base+ como modelo upstream. En este proceso, analizamos factores como la tasa de aprendizaje, diferentes mecanismos de pooling y normalización. Entre nuestros hallazgos más significativos, demostramos que la incorporación de mecanismos de atención en el pooling temporal y de capas puede ofrecer ventajas significativas, alcanzando resultados estado del arte con una cantidad de parámetros ampliamente inferior. A su vez, investigamos técnicas de full fine-tuning y de fine-tuning eficientes en parámetros (Parameter Efficient Fine-Tuning, PEFT), en particular, LoRA y las ventajas que puede traer su uso.
Abstract:
In recent years, the rapid advancement of machine learning has transformed data processing, enabling pre-trained models to capture complex semantic representations. However, this progress has been accompanied by increasing computational costs, a centralization of resources within a few institutions, and a predominant focus on maximizing results, often at the expense of understanding the rationale behind many architectural and training design decisions. In this thesis, we explore efficient transfer learning techniques applied to pre-trained speech models for Speaker Identification (SID). Within this framework, our primary objective was to gain a deeper understanding of the impact of key configurations in model design and training. We conducted extensive experimentation with multiple architectures and hyperparameters to identify the optimal downstream model, using WavLM Base+ as the upstream model. In this process, we analyzed factors such as learning rate, different pooling mechanisms, and normalization techniques. Among our most significant findings, we demonstrated that the incorporation of attention mechanisms in temporal and layer-wise pooling can provide substantial benefits, achieving state-of-the-art results with a significantly smaller number of parameters. Furthermore, we investigated full fine-tuning techniques and Parameter-Efficient Fine-Tuning (PEFT) approaches, specifically LoRA, and explored the benefits it can offer.
Citación:
---------- APA ----------
Ernst, Erik. (2025). Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/seminario_nCOM000839_Ernst
---------- CHICAGO ----------
Ernst, Erik. "Democratizando el fine-tuning : transfer learning eficiente con modelos pre-entrenados de habla para identificación de hablantes". Tesis de Grado, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2025.https://hdl.handle.net/20.500.12110/seminario_nCOM000839_Ernst
Estadísticas:
Descargas mensuales
Total de descargas desde :
https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000839_Ernst.pdf
Distrubución geográfica