Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla

Assaneo, María Florencia

Registro:

Documento:	Tesis Doctoral
Título:	Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla
Título alternativo:	Modeling of the human vocal system and its application to studies of speech perception and production
Autor:	Assaneo, María Florencia
Editor:	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Lugar de trabajo:	Universidad de Buenos Aires - CONICET. Instituto de Física de Buenos Aires (IFIBA). Laboratorio de Sistemas Dinámicos
Publicación en la Web:	2014-12-15
Fecha de defensa:	2014-09-09
Fecha en portada:	2014-09-09
Grado Obtenido:	Doctorado
Título Obtenido:	Doctor de la Universidad de Buenos Aires en el área de Ciencias Físicas
Departamento Docente:	Departamento de Física
Director:	Trevisan, Marcos Alberto
Consejero:	Mindlin, Gabriel Bernardo
Jurado:	Balenzuela, Pablo; Fernández Slezak, Diego; Fraiman, Daniel
Idioma:	Español
Palabras clave:	PRODUCCION Y PERCEPCION DE VOZ; BIOLINGÜISTICA; MODELADO MATEMATICO; DINAMICA NOLINEAL; RESONANCIA MAGNETICA FUNCIONALSPEECH PERCEPTION AND PRODUCTION; BIOLINGUISTICS; MATHEMATICAL MODELLING; NONLINEAR DYNAMICS; FMRI
Tema:	física/dinámica física/biofísica
Formato:	PDF
Handle:	https://hdl.handle.net/20.500.12110/tesis_n5601_Assaneo
PDF:	https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n5601_Assaneo.pdf
Registro:	https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n5601_Assaneo
Ubicación:	FIS 005601
Derechos de Acceso:	Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Assaneo, María Florencia. (2014). Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n5601_Assaneo

Resumen:

Desde el punto de vista biológico el proceso del habla puede separarse endos etapas moduladas entre sí: la producción y la percepción. En este trabajonos ocupamos de ambas, concentrándonos especialmente en la primera. El sistema vocal humano está formado por dos grandes bloques: las cuerdasvocales y el tracto vocal. Las cuerdas vocales constituyen la fuente acústica,determinando la entonación del discurso, mientras que el contenido fonético (los sonidos propios de la lengua) es definido por la dinámica del tractovocal. En esta tesis presentamos un modelo completo de producción vocal,incluyendo el estudio dinámico de un modelo detallado de cuerdas vocales ysu adaptación a un modelo de baja dimensión del tracto vocal. Para evaluar la calidad de la voz sintetizada con el modelo, utilizamosuna combinación de test perceptuales y de resonancia magnética funcional,cuyos resultados muestran que la voz sintética es indistinguible de segmentosde voz real. Los sintetizadores basados en la física de la producción de vozpermiten además el estudio de la percepción de voz controlando parámetrosbiológicos. En particular, en este trabajo mostramos que la identidad de lavoz está codificada en términos de las dimensiones relativas entre las cuerdasvocales y el tracto vocal. Usamos este modelo de voz verificado experimentalmente para responderpreguntas de la biolingüística y la biomimética. En primer lugar, investigamosel rol de la física del aparato vocal en la formación de las onomatopeyas. A pesar de considerarse palabras vinculadas directamente con la imitación,es difícil establecer qué se preserva acústicamente entre los sonidos y susonomatopeyas. Utilizamos el modelo vocal para mostrar que las configuracionesdel tracto vocal que producen los sonidos más parecidos a los originalescorresponden a consonantes co-articuladas. Estos pares vocal-consonante secorresponden, además, con las sílabas más estables de las onomatopeyas endistintos idiomas, sugiriendo un mecanismo por el cual la imitación vocal permite asociar sonidos simples a estructuras de habla más complejas. Por otra parte, nos preguntamos cuál es la dimensionalidad del espaciomotor que gobierna la producción de habla. Para abordar este problema diseñamos un dispositivo experimental que permite monitorear tres puntos dela cavidad oral durante el discurso. Con esta herramienta, logramos una descripción discreta para las coordenadas motoras de las vocales y consonantesoclusivas del español, mostrando además la viabilidad de controlar el modelode producción vocal con variables anatómicas para la síntesis de voz entiempo real a partir de los gestos anatómicos producidos durante el habla.

Abstract:

From a biological point of view the ability of speaking can be split intwo intermodulated processes: production and perception. In this work weinvestigated both of them from a physical perspective, focusing on the firstone. The physical process associated with the production of voice rely on thevocal anatomy, composed of two main blocks: the vocal folds and the vocaltract. The folds are the acoustic source that specify the intonation of thespeech, while the phonetic content is determined by the vocal tract dynamics. In this thesis we developed a complete model of voice production, we studiedthe different dynamic regimes of a detailed mathematical model of the folds,and adjusted it to a low dimensional model of the tract. This model allowsto synthesize voice by controlling physical parameters of the vocal system. In order to evaluate the quality of the synthetic voices, we carried outa combination of perceptual and fMRI tests, showing that synthetic voicesare indistinguishable from real ones. Such an articulatory synthesizer, basedon the physics processes involved in the voice production, allows to studythe perceptual effects of precise variations in the anatomical parameters. Weused it to show that the voice identity is encoded in the relative dimensionsof the tract and the folds. Using this validated model, we addressed two specific questions. First,we investigated the role of imitation within the generation of onomatopoeias. Despite it is widely know that onomatopoeias are based on imitation, itremains unclear which are the acoustic features shared between the soundsand their onomatopoeias. Using our vocal model we show that co-articulated consonants are the sounds that best fit the original noises. This pairs ofvowel-consonant also are the more stable syllables within the onomatopoeiasacross languages, suggesting a mechanism through which vocal imitation associatessimple sounds with more complex speech structures. We also inquire about the dimension of the vocal motor space controllingthe production of speech, in order to study this problem we designed an experimentaldevice that allows monitoring 3 points of the upper vocal tractwhile speaking. Making use of this novel tool, we reach a discrete descriptionfor the motor coordinates of Spanish vowels and occlusive consonants. Thisresults show the plausibility to control the vocal model with direct anatomicalmeasures, synthesizing speech in real time from simple motor gesturesproduced during the vocalization.

Citación:

---------- APA ----------

Assaneo, María Florencia. (2014). Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n5601_Assaneo

---------- CHICAGO ----------

Assaneo, María Florencia. "Modelado del sistema vocal humano y su aplicación a estudios de percepción y producción de habla". Tesis Doctoral, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2014.https://hdl.handle.net/20.500.12110/tesis_n5601_Assaneo

Estadísticas:

Descargas totales desde :

Navegar

Colección

Tesis Doctoral