Respuesta a preguntas visuales en español : un enfoque para la asistencia a personas con discapacidad visual

Villalba, Clara Ofelia

Registro:

Documento:	Tesis de Maestría
Título:	Respuesta a preguntas visuales en español : un enfoque para la asistencia a personas con discapacidad visual
Título alternativo:	Visual question answering in spanish : an approach for assisting people with visual impairments
Autor:	Villalba, Clara Ofelia
Editor:	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Publicación en la Web:	2026-06-02
Fecha de defensa:	2025-10-08
Fecha en portada:	8 de octubre de 2025
Grado Obtenido:	Maestría
Título Obtenido:	Magíster de la Universidad de Buenos Aires en el área de Explotación de Datos y Descubrimiento del Conocimiento
Departamento Docente:	Departamento de Computación
Director:	Pérez, Juan Manuel
Director Asistente:	Buemi, María Elena
Jurado:	Gómez, Marcos Javier; Pedraza, Lucía; Cerdeiro, Manuela Ana
Idioma:	Español
Palabras clave:	RESPUESTA A PREGUNTAS VISUALES; VQA EN ESPAÑOL; CLIP; MODELOS DE ENSAMBLE; ACCESIBILIDAD; VIZWIZVISUAL QUESTION ANSWERING; SPANISH VQA; CLIP; ENSEMBLE MODELS; ACCESSIBILITY; VIZWIZ
Formato:	PDF
Handle:	https://hdl.handle.net/20.500.12110/tesis_n7848_Villalba
PDF:	https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7848_Villalba.pdf
Registro:	https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n7848_Villalba
Ubicación:	DMI 007848
Derechos de Acceso:	Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Villalba, Clara Ofelia. (2025). Respuesta a preguntas visuales en español : un enfoque para la asistencia a personas con discapacidad visual. (Tesis de Maestría. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7848_Villalba

Resumen:

La tarea de Respuesta a Preguntas Visuales (VQA, por sus siglas en inglés) consiste en desarrollar modelos de inteligencia artificial capaces de responder preguntas sobre una imagen. Si bien ha habido avances significativos en esta área, la mayoría de los modelos y datasets disponibles están en inglés, lo que limita su aplicabilidad en contextos de habla hispana. En este trabajo, se investiga el desempeño de diferentes enfoques de VQA en español utilizando una versión traducida del dataset VizWiz, con un enfoque particular en la asistencia a personas con discapacidad visual. Para abordar esta tarea, se experimentó con modelos de fusión tardía de características, modelos basados en CLIP adaptados a VQA y distintos métodos de ensamble, incluyendo votación mayoritaria, fusión de características y meta-clasificadores. Los resultados muestran que los ensambles basados en votación con modelos CLIP multilingües lograron el mejor desempeño, sugiriendo que estos modelos capturan mejor la representación conjunta de imagen y texto en español. Como parte de las contribuciones de este trabajo, se presenta el dataset VizWiz traducido al español para su uso en futuras investigaciones y se comparan distintos enfoques en un marco sistemático de evaluación. Estos hallazgos pueden servir como base para el desarrollo de sistemas más efectivos de VQA en español, con aplicaciones en accesibilidad y asistencia visual.

Abstract:

The task of Visual Question Answering (VQA) consists of developing artificial intelligence models capable of answering questions about an image. Although there have been significant advances in this area, most available models and datasets are in English, which limits their applicability in Spanish-speaking contexts. This work investigates the performance of different VQA approaches in Spanish using a translated version of the VizWiz dataset, with a particular focus on assisting people with visual impairments. To address this task, experiments were conducted with late-fusion feature models, CLIP-based models adapted for VQA, and various ensemble methods, including majority voting, feature fusion, and meta-classifiers. The results show that voting-based ensembles using multilingual CLIP models achieved the best performance, suggesting that these models better capture the joint representation of image and text in Spanish. As part of this work’s contributions, the VizWiz dataset translated into Spanish is presented for use in future research, and different approaches are compared within a systematic evaluation framework. These findings may serve as a foundation for the development of more effective VQA systems in Spanish, with applications in accessibility and visual assistance.

Citación:

---------- APA ----------

Villalba, Clara Ofelia. (2025). Respuesta a preguntas visuales en español : un enfoque para la asistencia a personas con discapacidad visual. (Tesis de Maestría. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7848_Villalba

---------- CHICAGO ----------

Villalba, Clara Ofelia. "Respuesta a preguntas visuales en español : un enfoque para la asistencia a personas con discapacidad visual". Tesis de Maestría, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2025.https://hdl.handle.net/20.500.12110/tesis_n7848_Villalba

Estadísticas:

Descargas totales desde :

Navegar

Colección

Tesis de Maestría