Registro:
Documento: | Tesis Doctoral |
Título: | Estudio translingüístico de pistas del manejo de turnos en diálogos hablados |
Título alternativo: | A cross-linguistic study of Turn-taking cues in spoken dialogues |
Autor: | Brusco, Pablo |
Editor: | Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
Filiación: | Universidad de Buenos Aires - CONICET. Instituto de Investigación en Ciencias de la Computación (ICC)
|
Publicación en la Web: | 2022-03-29 |
Fecha de defensa: | 2021-03-16 |
Fecha en portada: | 2021 |
Grado Obtenido: | Doctorado |
Título Obtenido: | Doctor de la Universidad de Buenos Aires en el área de Ciencias de la Computación |
Director: | Gravano, Agustín |
Consejero: | Figueira, Santiago |
Jurado: | Turjanski, Pablo Guillermo; Shalom, Diego Edgar; Franco, Horacio |
Idioma: | Español |
Palabras clave: | DIALOGO; PROSODIA; ESLOVACO; INGLES; ESPAÑOL; APRENDIZAJE AUTOMATICO; EEG; TRANSICIONES DE TURNODIALOGUE; PROSODY; SLOVAK; ENGLISH; SPANISH; MACHINE LEARNING; EEG; TURN TRANSITIONS |
Formato: | PDF |
Handle: |
http://hdl.handle.net/20.500.12110/tesis_n6868_Brusco |
PDF: | https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n6868_Brusco.pdf |
Registro: | https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n6868_Brusco |
Ubicación: | Dep.COM 006868 |
Derechos de Acceso: | Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Brusco, Pablo. (2021). Estudio translingüístico de pistas del manejo de turnos en diálogos hablados. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de http://hdl.handle.net/20.500.12110/tesis_n6868_Brusco |
Resumen:
Cuando conversamos, los hablantes producimos una serie de indicios acústico-prosódicos, sintácticos e incluso gestuales que de manera combinada contribuyen al flujo y la naturalidad del manejo de turnos en las conversaciones. Por ejemplo, sabemos que la duración de una palabra en el final de una frase o el incremento abrupto del tono de voz unos milisegundos antes de una pausa, juegan un papel clave para determinar quién continuará hablando luego de una pequeña pausa en la conversación. A estos indicios se los conoce como pistas del manejo de turnos. El estudio de estas pistas constituye un tema de creciente interés en la comunidad del procesamiento del habla, siendo la principal razón su aplicación directa sobre los sistemas de diálogo hablado. Estos sistemas han sufrido enormes avances en su implementación y en su utilidad, permitiendo su popularización tanto en dispositivos móviles como en los, cada vez más cotidianos, asistentes virtuales. Sin embargo, aún es necesario avanzar sobre aspectos relacionados a la mejora en la naturalidad de las conversaciones, y en particular, a través del entendimiento de la percepción y la producción de patrones paralingüísticos, como puede ser el manejo del tono de voz para inducir respuestas específicas por parte de los usuarios. En esta tesis enfrentamos preguntas relacionadas al manejo de turnos en diálogos, a través de la utilización de tres conjuntos de datos tomados bajo el mismo diseño experimental, y en tres idiomas distintos: inglés norteamericano, eslovaco y español argentino. Mediante la aplicación de técnicas de visualización de datos, aprendizaje automático y registro de actividad cerebral, realizamos experimentos que permiten ampliar nuestro entendimiento sobre el funcionamiento de las pistas de manejo de turnos. Nuestros resultados sugieren que los tres idiomas, a pesar de pertenecer a familias lingüísticas distintas, comparten el uso general de un conjunto de atributos acústico-prosódicos en el manejo de turnos. Llegamos a la conclusión de que la explotación de atributos tales como la velocidad del habla, el alargamiento de palabras antes de una pausa, el tono de voz en los últimos 200 ms, la intensidad en los últimos 1000 ms y la relación ruido/armónicos (relacionada con la calidad de la voz) podría resultar útil para mejorar aún más la precisión de los módulos de manejo de turnos que se encuentran en los sistemas modernos de diálogo hablado. También nos interesa estudiar el tema desde una perspectiva neurolingüística. Para ello, realizamos experimentos de aprendizaje automático para clasificar automáticamente el tipo de transición de turno, en función de los atributos extraídos de la señal de electroencefalograma (EEG) de los participantes. Los resultados sugieren que la señal EEG del oyente contiene información útil para predecir si el hablante actual cederá el turno o continuará hablando. Estos resultados pueden conducir a nuevas herramientas valiosas para el desarrollo de interfaces cerebro-computadora. Por último, investigamos la factibilidad de construir una herramienta de etiquetado automático del tipo de transiciones de turno en grabaciones de conversaciones enteras, en modo offline. Para ello utilizamos herramientas del estado del arte, tales como redes neuronales recurrentes bidireccionales. Este tipo de sistemas puede contribuir a la creación de herramientas automatizadas de análisis de grandes volúmenes de conversaciones.
Abstract:
When having a conversation, speakers produce a series of acoustic-prosodic, syntactic and even gestural signals that in a combined way contribute to the flow and naturalness of turn management in conversations. We know for example that the duration of a word at the end of a sentence, or the abrupt increase in the voice pitch a few milliseconds before a pause play a key role in determining who will continue speaking after a small pause in the conversation. In the literature, these signals are known as turn-taking cues. Due to its direct application in spoken dialogue systems, the study of these cues is a topic of growing interest in the speech processing community. In the last decade, these systems have experienced enormous advances in their implementation and in their usefulness — which has allowed their popularization, both in mobile devices and in virtual assistants. However, it is still necessary to improve on aspects related to the naturalness of the conversational agents, and in particular through the understanding of the perception and production of paralinguistic patterns, such as the management of the voice pitch to induce specific responses by the users. In this thesis, we cover questions related to the management of turns in dialogues through the use of three datasets taken under the same experimental design in three different languages — American English, Slovak and Argentine Spanish. Through the application of data visualization techniques, machine learning and brain activity recordings, we carry out experiments that allow us to broaden our understanding of procedures related to turn management in conversation. These modern techniques open the doors to exploring characteristics of the conversation, which allow not only to capture aspects such as the dynamics of features over time, but also to compare directly different languages. Our results suggest that the three languages, despite their belonging to different linguistic families, share the general use of a set of acoustic-prosodic features in turn management. We conclude that the exploitation of features such as speech rate, phrase-final word lengthening, voice pitch over the last 200 ms, intensity over the last 1000 ms and noise-to-harmonic ratio (a feature related to voice quality) could be useful to further improve the accuracy of turn-management modules found in modern spoken dialogue systems. We are also interested in studying the subject from a neurolinguistic perspective. To do this, we conducted machine learning experiments for automatically classifying the type of turn transition based on attributes extracted from the participants’ electroencephalogram (EEG) signal. Our results suggest that the listener’s EEG signal contains useful information to predict whether the current speaker will continue or stop talking after a short pause. In the same way, from the speaker’s EEG signal, we were able to extract useful information to detect if the speaker will keep the floor or stop talking. These results can lead to new valuable tools for the development of brain-computer interfaces. Finally, we investigate the feasibility of building a tool for automatically labeling the type of turn transition in recordings of entire conversations (in offline mode). For this, we use state-of-the-art tools, such as bidirectional recurrent neural networks, applied to our datasets. This type of systems may contribute to the creation of automated analysis tools for large amounts of conversational data.
Citación:
---------- APA ----------
Brusco, Pablo. (2021). Estudio translingüístico de pistas del manejo de turnos en diálogos hablados. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n6868_Brusco
---------- CHICAGO ----------
Brusco, Pablo. "Estudio translingüístico de pistas del manejo de turnos en diálogos hablados". Tesis Doctoral, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2021.https://hdl.handle.net/20.500.12110/tesis_n6868_Brusco
Estadísticas:
Descargas totales desde :
Descargas mensuales
https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n6868_Brusco.pdf