Sistema de identificación de idioma (LID) para grabaciones de entornos naturales bilingües en comunidades qom

Garber, Leandro Martín

Registro:

Documento:	Tesis de Maestría
Título:	Sistema de identificación de idioma (LID) para grabaciones de entornos naturales bilingües en comunidades qom
Título alternativo:	Language Identification system for bilingual natural environment recordings in Qom communities
Autor:	Garber, Leandro Martín
Editor:	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Lugar de trabajo:	CONICET. Centro Interdisciplinario de Investigaciones en Psicología Matemática y Experimental Dr. Horacio J.A Rimoldi (CIIPME)
Publicación en la Web:	2023-11-09
Fecha de defensa:	2022-12-19
Fecha en portada:	noviembre 2022
Grado Obtenido:	Maestría
Título Obtenido:	Magíster de la Universidad de Buenos Aires en el área de Explotación de Datos y Descubrimiento del Conocimiento
Departamento Docente:	Departamento de Computación
Director:	Riera, Pablo Ernesto
Director Asistente:	Alam, Florencia
Jurado:	Brusco, Pablo; Cúneo, Paola; Carrillo, Facundo
Idioma:	Español
Formato:	PDF
Handle:	https://hdl.handle.net/20.500.12110/tesis_n7374_Garber
PDF:	https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7374_Garber.pdf
Registro:	https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n7374_Garber
Ubicación:	DMI 007374
Derechos de Acceso:	Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Garber, Leandro Martín. (2022). Sistema de identificación de idioma (LID) para grabaciones de entornos naturales bilingües en comunidades qom. (Tesis de Maestría. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7374_Garber

Resumen:

Conocer la cantidad de habla que perciben bebés bilingües en cada idioma es fundamental para diseñar programas educativos que contemplen las características lingüísticas propias de este tipo de entornos y promover así mejores posibilidades de aprendizaje. Precisamente, en este trabajo obtengo una medición estimada de la cantidad de habla en qom y español en el entorno del hogar de 8 bebés que viven en contextos rurales indígenas qom a partir del desarrollo de un sistema de identificación de idioma (LID, spoken Language IDentification). Dicho sistema es entrenado con un conjunto de grabaciones en entornos naturales en comunidades rurales qom en Argentina. Este estudio se centra en tres ejes principales: el primero es la descripción de una heurística para codificar los datos de entrenamiento de manera eficiente, el segundo es una comparación de modelos usando técnicas de aprendizaje por transferencia (transfer learning) y el tercero es la cantidad de horas de habla en cada lengua para las 8 familias participantes en este experimento. La arquitectura estudiada es wav2vec 2.0 y se utilizan modelos pre-entrenados a los que se realiza ajuste fino (fine tuning). Los modelos son evaluados en su eficacia y capacidad de generalización. Para esto se presentan los resultados al evaluar los mismos con datos fuera de dominio y del mismo dominio. Para el primer caso se consiguió un EER de 0,37, un 21 % mejor que el modelo base. Para el segundo caso el EER es de 0,23, un 8 % mejor que el modelo base. La conclusión es que los modelos wav2vec 2.0 obtienen una eficacia superior y una muy marcada ventaja en capacidad de generalización pero no son tan robustos a la variabilidad de canal y necesitan ajuste fino. Por último, de las familias participantes se extrajeron 61 horas de habla de las cuales 46.57 (76 %) pudieron ser clasificadas con mayor certeza. El procedimiento revela que el entorno lingüístico de lxs niñxs participantes posee 55 % más habla en qom (28.34 horas) con respecto a español (18.22 horas). Estos resultados son un aporte fundamental a la psicolingüística en tanto que permiten el análisis de grandes corpus de datos de habla en contextos naturales de forma automática, análisis que resultaría muy costoso para ser realizado de forma manual.

Abstract:

Understanding the amount of speech perceived by bilingual babies in each language is essential to design educational programmes that take into account the linguistic characteristics of this type of environments and thus promote better learning possibilities. Precisely, in this paper I obtain an estimated measurement of the amount of speech in Qom and Spanish in the home environment of 8 infants living in rural indigenous Qom contexts by developing a language identification system (LID). This system is trained with a set of recordings in natural environments in rural Qom communities in Argentina. This study focuses on three main axes: the first one is the description of a heuristic to encode the training data efficiently, the second one is a comparison of models using transfer learning techniques and the third one is the number of hours of speech in each language for the 8 families participating in this experiment. The architecture studied is wav2vec 2.0 and pre-trained models are used and fine-tuned. The models are evaluated for their efficiency and generalisation capacity. For this purpose, the results are presented when evaluating with out-of-domain and in-domain data. For the first case an EER of 0.37 was achieved, 21% better than the base model. For the second case the EER is 0.23, 8 % better than the base model. The conclusion is that the wav2vec 2.0 models have a superior efficiency and a very marked advantage in generalisability but are not as robust to channel variability and need fine tuning. Finally, 61 hours of speech were extracted from the participating families, of which 46.57 (76 %) could be classified with greater certainty. The procedure reveals that the linguistic environment of the participating children has 55 % more speech in Qom (28.34 hours) than in Spanish (18.22 hours). These results are a fundamental contribution to psycholinguistics in that they allow for the analysis of large corpora of speech data in natural contexts automatically, an analysis that would be too costly to be done manually.

Citación:

---------- APA ----------

Garber, Leandro Martín. (2022). Sistema de identificación de idioma (LID) para grabaciones de entornos naturales bilingües en comunidades qom. (Tesis de Maestría. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7374_Garber

---------- CHICAGO ----------

Garber, Leandro Martín. "Sistema de identificación de idioma (LID) para grabaciones de entornos naturales bilingües en comunidades qom". Tesis de Maestría, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2022.https://hdl.handle.net/20.500.12110/tesis_n7374_Garber

Estadísticas:

Descargas totales desde :

Navegar

Colección

Tesis de Maestría