Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA

Defagot, Adrían Gabriel

Registro:

Documento:	Tesis de Grado
Título:	Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA
Autor:	Defagot, Adrían Gabriel
Editor:	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Publicación en la web:	2025-06-12
Fecha de defensa:	2018
Fecha en portada:	2018
Grado Obtenido:	Grado
Título Obtenido:	Licenciado en Ciencias de la Computación
Departamento Docente:	Departamento de Computación
Director:	Brusco, Pablo
Director Asistente:	Riera, Pablo Ernesto
Jurado:	Trevisan, Marcos Alberto; Turjanski, Pablo Guillermo
Idioma:	Inglés
Palabras clave:	DETECCION DE ESCENAS ACUSTICAS; T-SNE; EXTRACCION DE TOPICOS INTERPRETABLES; REDUCCION DE DIMENSIONALIDAD; VOCABULARIO ACUSTICOACOUSTIC SCENE RECOGNITION; T-SNE; INTERPRETABLE TOPIC EXTRACTION; DIMENSIONALITY REDUCTION; ACOUSTIC VOCABULARY
Formato:	PDF
Handle:	https://hdl.handle.net/20.500.12110/seminario_nCOM000627_Defagot
PDF:	https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000627_Defagot.pdf
Registro:	https://bibliotecadigital.exactas.uba.ar/collection/seminario/document/seminario_nCOM000627_Defagot
Ubicación:	COM 000627
Derechos de Acceso:	Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Defagot, Adrían Gabriel. (2018). Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/seminario_nCOM000627_Defagot

Resumen:

En este trabajo se propone la utilización del modelo de extracción de tópicos Latent Dirichlet Allocation (LDA) para el reconocimiento de escenas acústicas a partir de múltiples grabaciones realizadas en diferentes ambientes. A partir de atributos característicos de la señal de audio como sus MFCCs, experimentamos sobre la combinación de técnicas de segmentación, reducción de dimensionalidad (PCA y t-SNE), técnicas de clustering (PAM, K-Means) para construir diferentes diccionarios acústicos que permitiesen transformar sonidos en palabras. La experimentación fue llevada a cabo utilizando el dataset proveniente de la competencia de detección de escenas ac´usticas TUT Acoustic Scenes 2016 y la base de efectos de sonidos BBC Complete Sound Effects Library en donde nos preguntamos si ¿será posible generar un diccionario acústico útil a partir de los datos?, ¿al agrupar sonidos en una misma palabra acústica, es posible que se compartan características auditivas reconocibles por humanos?, ¿los tópicos obtenidos contienen suficiente información como para realizar una tarea de clasificación de escenas?, y ¿los tópicos obtenidos componen un conjunto intuitivo e interpretable de sonidos que caractericen una situación?. Los resultados muestran que si bien la extracción de tópicos no superó el estado del arte en la tarea de detección de escenas acústicas, obtuvimos resultados prometedores y consideramos que decidir sobre la interpretabilidad de dichos tópicos resulta una tarea no trivial en donde serán necesarios experimentos a medida. Finalmente, la utilización de t-SNE como herramienta principal para proyectar características del espacio de alta dimensión, permitió luego agrupaciones acústicas con propiedades rítmicas y tímbricas reconocibles.

Abstract:

In this work we propose the use of the unsupervised topic model technique Latent Dirichlet Allocation (LDA) in an Acoustic Scene Recognition task. Based features we extracted from the audio signal such as MFCCs, we run several experiments combining segmentation techniques, dimensionality reduction (PCA & t-SNE), and clustering techniques (PAM & K-Means) in order to generate multiple acoustic dictionaries used to encode sounds as words. Experiments were carried out using a dataset from the Detection and Classification of Acoustic Scenes and Events 2016 competition (DCASE 2016), and the BBC Complete Sound Effects Library. Some of the research questions we aim were: is it possible to generate a meaningful acoustic dictionary based on this type of data? Do the clustered sounds share some human recognizable acoustic properties? Do extracted topics contain some information that will be useful in an acoustic scene classification task? Are the words in each of the extracted topics a useful description for a given scene?. Our results showed that besides the fact that topic extraction did not surpass the state of the art results in the task of detecting the acoustic scene, promising classification results can be obtained. Deciding about the interpretability of a topic resulted in a non-trivial task that requires tailor made experiments. Finally, using t-SNE as the main technique of dimensionality reduction allowed us to obtain acoustic clusters with both temporal and timbric recognizable properties.

Citación:

---------- APA ----------

Defagot, Adrían Gabriel. (2018). Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/seminario_nCOM000627_Defagot

---------- CHICAGO ----------

Defagot, Adrían Gabriel. "Generación de vocabularios y extracción de tópicos para la detección de escenas acústicas mediante T-SNE y LDA". Tesis de Grado, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2018.https://hdl.handle.net/20.500.12110/seminario_nCOM000627_Defagot

Estadísticas:

Descargas mensuales

Total de descargas desde :

https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000627_Defagot.pdf

Navegar

Colección

Tesis de Grado