Modelado computacional de mimetización prosódica entre hablantes para mejorar la interacción humano-computadora

Gálvez, Ramiro Heraclio

Registro:

Documento:	Tesis Doctoral
Título:	Modelado computacional de mimetización prosódica entre hablantes para mejorar la interacción humano-computadora
Título alternativo:	Computational modeling of acoustic-prosodic entrainment between speakers to improve human-computer interaction
Autor:	Gálvez, Ramiro Heraclio
Editor:	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Publicación en la Web:	2022-03-29
Fecha de defensa:	2021-03-02
Fecha en portada:	2021
Grado Obtenido:	Doctorado
Título Obtenido:	Doctor de la Universidad de Buenos Aires en el área de Ciencias de la Computación
Departamento Docente:	Departamento de Computación
Director:	Gravano, Agustín
Consejero:	Fernández Slezak, Diego
Jurado:	Amador, Ana; Martínez, María Vanina; Escudero Mancebo, David
Idioma:	Español
Palabras clave:	DIALOGOS; SISTEMAS DE DIALOGO HABLADO; ASISTENTES VIRTUALES; PROSODIA; MIMETIZACION PROSODICA; VARIABLES SOCIALES DE LOS DIALOGOS; CONFIANZA; SOCIOLINGÜISTICA; ACTOS DE DIALOGODIALOGUE; SPOKEN DIALOGUE SYSTEMS; VIRTUAL ASSISTANTS; PROSODY; PROSODIC ENTRAINMENT; DIALOGUE SOCIAL OUTCOMES; TRUST; SOCIOLINGUISTICS; DIALOG ACTS
Formato:	PDF
Handle:	https://hdl.handle.net/20.500.12110/tesis_n6867_Galvez
PDF:	https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n6867_Galvez.pdf
Registro:	https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n6867_Galvez
Ubicación:	COM 006867
Derechos de Acceso:	Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Gálvez, Ramiro Heraclio. (2021). Modelado computacional de mimetización prosódica entre hablantes para mejorar la interacción humano-computadora. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n6867_Galvez

Resumen:

Mejorar la interacción humano-computadora es un área de investigación que día a día adquiere mayor relevancia práctica. Una manera de llevar adelante dicho intercambio, y que cobra cada vez mayor protagonismo, es a través de sistemas de diálogo hablado (SDSs, por sus siglas en inglés). Por SDSs se hace referencia a sistemas computacionales que poseen la capacidad de entablar una conversación oral con sus usuarios. Dentro del área de estudio de los SDSs, una hipótesis que resulta razonable considerar como válida es la que afirma que a medida que aumenta la naturalidad del intercambio entre un SDS y sus usuarios, el sistema tendrá una mayor aceptación y eventualmente logrará ser más efectivo. En este contexto se entiende como un comportamiento natural a aquél que se espera siga un humano expuesto a un intercambio similar. De esta manera, esta hipótesis reconoce que para mejorar la eficacia de los SDSs resulta primordial entender cómo se produce la comunicación oral entre personas. El habla como mecanismo de transmisión de información consta de dos canales principales: el canal verbal y el canal vocal. El canal verbal incorpora el contenido lingüístico de lo que se dice (en términos simples, la secuencia de palabras dichas). El canal vocal transmite contenido paralingüístico principalmente a través de variaciones en la prosodia, término que hace referencia a la manera en que se produce el habla o, en otras palabras, a como se dicen las palabras. Por ejemplo, la prosodia engloba características tales como la velocidad/tasa del habla, el tono del habla, la intensidad/volumen del habla, las pausas entre palabras, o la calidad de la voz (e.g., susurros, ronquera, voz clara). Centrándonos en cómo se producen los diálogos humano-humano, un fenómeno documentado por la literatura previa es la tendencia que tienen los interlocutores a coordinar comportamientos en distintas dimensiones del habla; por ejemplo: el léxico y la sintaxis utilizada, el uso de marcadores del discurso o, en lo que hace foco esta tesis, la prosodia utilizada. Este fenómeno, al que comúnmente se lo llama mimetización (o entrainment, como se lo conoce en la literatura en inglés), ha sido asociado a variables sociales de los diálogos humano-humano tales como la percepción de competencia, inteligencia y agradabilidad de los interlocutores. Esta tesis tiene como objetivo investigar qué impacto tiene incorporar en SDSs políticas de mimetización prosódica. Con este fin se siguieron dos enfoques complementarios. En primer lugar, se llevaron adelante estudios de corpus con el fin de caracterizar mejor cómo se asocia la mimetización prosódica con distintas variables sociales en diálogos humano-humano. Por ejemplo, con cómo son percibidos los diálogos en términos de naturalidad, con qué tan satisfechos reportaron estar los interlocutores de un diálogo con el mismo, entre otros. En estos estudios se hizo hincapié en analizar corpus que contuviesen un gran volumen de diálogos naturales y que variasen en lo referido a idioma hablado (español e inglés), dominio y variables sociales medidas. También se hizo hincapié en utilizar y desarrollar técnicas modernas de análisis de datos con el fin de caracterizar asociaciones complejas entre la mimetización prosódica y distintas variables sociales de los diálogos. En segundo lugar, en esta tesis se diseñaron, implementaron y ejecutaron diversos experimentos conductuales de laboratorio en los cuales los participantes debieron interactuar con SDSs que adaptan sus atributos acústico-prosódicos a los de los usuarios. Estos experimentos se enfocaron en estudiar la relación existente entre distintas políticas de mimetización prosódica y la confianza de los usuarios en estos sistemas. Los experimentos variaron en lo referido a la tarea experimental llevada a cabo, idioma analizado y en lo referido a las políticas de mimetización implementadas (por ejemplo, mimetización a nivel global o mimetización a nivel de actos de diálogo). El objetivo final de esta segunda línea de trabajo es doble: evaluar si SDSs que siguen políticas de mimetización prosódica son preferidos por sobre SDSs que no lo hacen y caracterizar qué políticas de mimetización prosódica tienen efectos positivos y negativos sobre el desempeño de los SDSs. Los resultados de los estudios de corpus sugieren que la asociación entre la mimetización prosódica y las variables sociales de los diálogos es menos lineal que lo sugerido por la literatura previa. A modo de ejemplo, no necesariamente se observa que mayor mimetización prosódica se asocia a variables sociales positivas; también se observan asociaciones negativas y relaciones positivas pero con comportamientos m ́as complejos (e.g., con la antisincronía prosódica). Aun más, los resultados también sugieren que la caracterización de estas asociaciones varía entre los corpus estudiados. Los resultados de los experimentos de laboratorio sugieren que efectivamente la mimetización prosódica impacta sobre la confianza en los SDSs. Aun as ́ı, los mismos sugieren que este impacto es sumamente sutil y complejo de caracterizar. Por ejemplo, sugieren la existencia de interacciones al mimetizar sobre la base de distintas combinaciones de atributos prosódicos (e.g., el efecto observado de mimetizar en tasa del habla no es el mismo si los sistemas también mimetizan en tono e intensidad que si no lo hacen). Tomada en su conjunto, esta tesis presenta avances en lo que refiere a medir y entender el fenómeno de la mimetización prosódica en si, así como también en lo referido a los efectos que tiene incluir este comportamiento en SDSs.

Abstract:

Improving human-computer interaction is an active area of research that has acquired important practical relevance in recent times. One way in which humans and computers interact, that is gaining more and more prominence, is through spoken dialogue systems (SDSs): computer systems that have the ability to engage in oral conversations with their users. Within the area of study of SDSs, a hypothesis that is reasonable to consider as valid is the one that states that the higher the naturalness of an exchange between a SDS and its user, the more effective the interaction should be. In this context, a SDS is said to be natural if it behaves in a similar way as a human exposed to the same exchange is expected to behave. This hypothesis recognizes that in order to improve the effectiveness of SDSs it is essential to understand how human-human oral communication occurs. Speech as an information transmission mechanism consists of two main channels: the verbal channel and the vocal channel. The verbal channel incorporates the linguistic content of what is said (in simple terms, the sequence of spoken words). The vocal channel conveys paralinguistic content primarily through prosody. Prosody refers to the way speech is produced or, in other words, how words are said. For example, prosody encompasses speech characteristics such as speech rate, pitch, intensity/volume of speech, pauses between words, or voice quality (e.g., whispering, hoarseness, clear voice). Focusing on how human-human dialogues are produced, a phenomenon documented in previous literature is the tendency that interlocutors have to coordinate behaviors in different dimensions of their speech. For example: the lexicon and syntax used, the use of discourse markers, or, in what this thesis focuses, their prosody. This phenomenon, which is commonly called entrainment, has been associated with social outcomes in human-human dialogues such as the perception of competence, intelligence and agreeableness of the interlocutors. This thesis aims to investigate the impact of incorporating prosodic entrainment policies in SDSs. To this end, two complementary approaches were followed. In the first place, corpus studies were carried out in order to better characterize how prosodic entrainment is associated with different social outcomes (e.g., with how dialogues are perceived in terms of their naturalness or with the reported satisfaction of the interlocutors with the dialogue). In these studies, the emphasis was placed on analyzing corpora containing a large volume of natural dialogues; varying in terms of their spoken language (Spanish and English), domain, and associated social outcomes. Emphasis was placed on using and developing modern data analysis techniques to characterize complex associations between prosodic entrainment and different social outcomes. In the second place, various laboratory experiments were designed, implemented, and executed. These experiments focused on studying the relationship between prosodic entrainment in SDSs and users’ trust in the systems. The experiments varied in terms of the experimental task carried out, in terms of the language being analyzed, and in terms of the entrainment policies implemented (for example, entrainment at the global level or entrainment at the dialogue act level). Overall, these experiments had two main goals. First, to evaluate whether SDSs that follow prosodic entrainment policies are preferred over SDSs that do not. Second, to characterize which prosodic entrainment policies have positive and negative effects on the performance of the SDSs. Corpus studies results suggest that associations between prosodic entrainment and dialogues’ social outcomes are less linear than suggested by the previous literature. For example, it is not necessarily the case that greater prosodic entrainment is associated with positive social results; negative associations are also observed, as well as positive relationships but with more complex behaviors (e.g., with prosodic anti-synchrony). Furthermore, corpus analysis results also suggest that the characterization of these associations varies among corpora. On the other hand, the results of the laboratory experiments suggest that prosodic entrainment effectively impacts on users’ trust in SDSs. However, this impact is extremely subtle and complex to characterize. For example, the results suggest the existence of interactions when entraining on the basis of different combinations of prosodic attributes (e.g., the observed effect of entraining on speech rate is not the same if systems also entrain on tone and intensity compared to when they do not entrain on these two acoustic-prosodic features). Taken as a whole, this thesis presents advances in terms of how to measure and understand the phenomenon of prosodic entrainment itself, as well as on the effects of including this behavior in SDSs.

Citación:

---------- APA ----------

Gálvez, Ramiro Heraclio. (2021). Modelado computacional de mimetización prosódica entre hablantes para mejorar la interacción humano-computadora. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n6867_Galvez

---------- CHICAGO ----------

Gálvez, Ramiro Heraclio. "Modelado computacional de mimetización prosódica entre hablantes para mejorar la interacción humano-computadora". Tesis Doctoral, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2021.https://hdl.handle.net/20.500.12110/tesis_n6867_Galvez

Estadísticas:

Descargas totales desde :

Navegar

Colección

Tesis Doctoral