Registro:
Documento: | Tesis de Grado |
Título: | Inclusión léxica y sintáctica en modelos de etiquetado offline de transiciones de turno |
Título alternativo: | Lexical and syntactic inclusion in offline turn-taking labeling models |
Autor: | Scherman, Jonathan |
Editor: | Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
Publicación en la web: | 2025-06-12 |
Fecha de defensa: | 2024 |
Fecha en portada: | 2024 |
Grado Obtenido: | Grado |
Título Obtenido: | Licenciado en Ciencias de la Computación |
Departamento Docente: | Departamento de Computación |
Director: | Brusco, Pablo |
Jurado: | Estienne, Lautaro Nicolás; Turjanski, Pablo Guillermo |
Idioma: | Español |
Palabras clave: | MANEJO DE TURNOS; DIALOGO HABLADO; INGLES, ESPAÑOL; APRENDIZAJE AUTOMATICO; REDES NEURONALES; BERT; ATRIBUTOS LEXICOS; ATRIBUTOS SINTACTICOSTURN-TAKING; SPOKEN DIALOGUE; ENGLISH; SPANISH; MACHINE LEARNING; NEURAL NETWORKS; BERT; LEXICAL ATTRIBUTES; SYNTACTIC ATTRIBUTES |
Formato: | PDF |
Handle: |
http://hdl.handle.net/20.500.12110/seminario_nCOM000531_Scherman |
PDF: | https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000531_Scherman.pdf |
Registro: | https://bibliotecadigital.exactas.uba.ar/collection/seminario/document/seminario_nCOM000531_Scherman |
Ubicación: | Dep.COM 000531 |
Derechos de Acceso: | Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Scherman, Jonathan. (2024). Inclusión léxica y sintáctica en modelos de etiquetado offline de transiciones de turno. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de http://hdl.handle.net/20.500.12110/seminario_nCOM000531_Scherman |
Resumen:
En una conversación hablada entre dos personas, existe una noción implícita de manejo de turnos que permite un intercambio fluido de mensajes. Esto sucede a través de distintos tipos de señales (acústicas, prosódicas, léxicas e incluso gestuales) que los hablantes producen y que, de manera combinada, afectan la manera en la que se desarrollarán los turnos de la conversación. Por ejemplo, se ha estudiado cómo el uso de palabras de relleno (tales como “em...” o “este...”) suele indicar que el hablante tiene la intención de mantener el turno. Entender cuál es la dinámica del manejo de turnos y construir sistemas que puedan identificar y clasificar distintas transiciones de manera automática ha ganado mucha relevancia en las últimas décadas debido a las múltiples aplicaciones prácticas en el mundo real, siendo los sistemas de diálogo hablado (como Alexa o Siri) y el análisis de grandes volúmenes de datos sus principales aplicaciones. En particular, varios estudios han mostrado que, en adición a las características acústico-prosódicas, las características léxicas y sintácticas de la conversación contienen información relevante para entender la mecánica del manejo de turnos. En esta tesis, nos enfocamos en el desarrollo de una herramienta de etiquetado offline de transiciones de turno en conversaciones completas de tipo humano-humano, para lo cual construimos distintas variantes de modelos multimodales sobre un corpus compuesto por conversaciones diádicas orientadas a tareas, en inglés y español. Partimos de un modelo preexistente basado en redes neuronales recurrentes bidireccionales, que extendemos con atributos léxicos y sintácticos. Además, consideramos modelos alternativos basados en arquitecturas multiescala. Para cada uno de los modelos desarrollados, evaluamos la capacidad de generalización en conversaciones tanto en el mismo idioma en el que fueron entrenados como en otros. Los resultados obtenidos muestran que la inclusión de estos atributos otorgó mejoras para algunas de las variantes propuestas de hasta un 15 % relativo en el subconjunto de desarrollo y un 9 % relativo en el subconjunto de control al ser evaluados en conversaciones nuevas del mismo idioma, mientras que observamos disminuciones en el rendimiento al variar entre idiomas. Por su parte, no pudimos evidenciar mejoras en la propuesta multiescala, aunque creemos que tiene potencial para hacerlo.
Abstract:
During dyadic spoken conversations, there is an implicit notion of turn-taking that allows for a smooth exchange of messages between both speakers. This happens through different kinds of signals (acoustic, prosodic, lexical, and even gestural) that speakers produce and that, when combined, affect the way the turns of the conversation develop. For example, it is well known that the use of filler words (such as “um...” or “like...”) often indicates that the speaker intends to hold the floor. Understanding the dynamics of turn-taking and building systems that can automatically identify and classify different transitions has gained much relevance in recent decades due to the numerous practical real-world applications, being spoken dialogue systems (such as Alexa or Siri) and the analysis of large volumes of data its main applications. In particular, several studies have shown that, in addition to acoustic-prosodic cues, the lexical and syntactic characteristics of the speakers hold relevant information for understanding the mechanics of turn-taking. In this thesis, we focus on the development of an offline turn-taking transition labeling tool for processing human-human conversations end-to-end, for which we built different variants of multimodal models using a task-oriented corpus of dyadic conversations in english and spanish. We start from a pre-existing bidirectional recurrent neural network model, which we later extend by including lexical and syntactic features. Additionally, we consider alternative models based on multiscale architectures. For each of the developed models, we evaluate the generalization capabilities in conversations from the same language they were trained on and in others as well. The obtained results show that the inclusion of these features yields improvements of up to 15 % relative in the development subset and 9 % relative in control for some of the proposed variants in new conversations from the same language, while we observed performance decreases while switching between languages. Furthermore, we could not evidence improvements in the multiscale approach, although we believe it has the potential to do so.
Citación:
---------- APA ----------
Scherman, Jonathan. (2024). Inclusión léxica y sintáctica en modelos de etiquetado offline de transiciones de turno. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/seminario_nCOM000531_Scherman
---------- CHICAGO ----------
Scherman, Jonathan. "Inclusión léxica y sintáctica en modelos de etiquetado offline de transiciones de turno". Tesis de Grado, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2024.https://hdl.handle.net/20.500.12110/seminario_nCOM000531_Scherman
Estadísticas:
Descargas mensuales
Total de descargas desde :
https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000531_Scherman.pdf
Distrubución geográfica