Registro:
| Documento: | Tesis de Maestría |
| Título: | Respuesta a preguntas visuales en español : un enfoque para la asistencia a personas con discapacidad visual |
| Título alternativo: | Visual question answering in spanish : an approach for assisting people with visual impairments |
| Autor: | Villalba, Clara Ofelia |
| Editor: | Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
| Fecha de defensa: | 2025-10-08 |
| Fecha en portada: | 8 de octubre de 2025 |
| Grado Obtenido: | Maestría |
| Título Obtenido: | Magíster de la Universidad de Buenos Aires en el área de Explotación de Datos y Descubrimiento del Conocimiento |
| Departamento Docente: | Departamento de Computación |
| Director: | Pérez, Juan Manuel |
| Director Asistente: | Buemi, María Elena |
| Jurado: | Gómez, Marcos Javier; Pedraza, Lucía; Cerdeiro, Manuela Ana |
| Idioma: | Español |
| Palabras clave: | RESPUESTA A PREGUNTAS VISUALES; VQA EN ESPAÑOL; CLIP; MODELOS DE ENSAMBLE; ACCESIBILIDAD; VIZWIZVISUAL QUESTION ANSWERING; SPANISH VQA; CLIP; ENSEMBLE MODELS; ACCESSIBILITY; VIZWIZ |
| Formato: | PDF |
| Handle: |
https://hdl.handle.net/20.500.12110/tesis_n7848_Villalba |
| PDF: | https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7848_Villalba.pdf |
| Registro: | https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n7848_Villalba |
| Ubicación: | DMI 007848 |
| Derechos de Acceso: | Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Villalba, Clara Ofelia. (2025). Respuesta a preguntas visuales en español : un enfoque para la asistencia a personas con discapacidad visual. (Tesis de Maestría. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7848_Villalba |
Resumen:
La tarea de Respuesta a Preguntas Visuales (VQA, por sus siglas en inglés) consiste en desarrollar modelos de inteligencia artificial capaces de responder preguntas sobre una imagen. Si bien ha habido avances significativos en esta área, la mayoría de los modelos y datasets disponibles están en inglés, lo que limita su aplicabilidad en contextos de habla hispana. En este trabajo, se investiga el desempeño de diferentes enfoques de VQA en español utilizando una versión traducida del dataset VizWiz, con un enfoque particular en la asistencia a personas con discapacidad visual. Para abordar esta tarea, se experimentó con modelos de fusión tardía de características, modelos basados en CLIP adaptados a VQA y distintos métodos de ensamble, incluyendo votación mayoritaria, fusión de características y meta-clasificadores. Los resultados muestran que los ensambles basados en votación con modelos CLIP multilingües lograron el mejor desempeño, sugiriendo que estos modelos capturan mejor la representación conjunta de imagen y texto en español. Como parte de las contribuciones de este trabajo, se presenta el dataset VizWiz traducido al español para su uso en futuras investigaciones y se comparan distintos enfoques en un marco sistemático de evaluación. Estos hallazgos pueden servir como base para el desarrollo de sistemas más efectivos de VQA en español, con aplicaciones en accesibilidad y asistencia visual.
Abstract:
The task of Visual Question Answering (VQA) consists of developing artificial intelligence models capable of answering questions about an image. Although there have been significant advances in this area, most available models and datasets are in English, which limits their applicability in Spanish-speaking contexts. This work investigates the performance of different VQA approaches in Spanish using a translated version of the VizWiz dataset, with a particular focus on assisting people with visual impairments. To address this task, experiments were conducted with late-fusion feature models, CLIP-based models adapted for VQA, and various ensemble methods, including majority voting, feature fusion, and meta-classifiers. The results show that voting-based ensembles using multilingual CLIP models achieved the best performance, suggesting that these models better capture the joint representation of image and text in Spanish. As part of this work’s contributions, the VizWiz dataset translated into Spanish is presented for use in future research, and different approaches are compared within a systematic evaluation framework. These findings may serve as a foundation for the development of more effective VQA systems in Spanish, with applications in accessibility and visual assistance.
Citación:
---------- APA ----------
Villalba, Clara Ofelia. (2025). Respuesta a preguntas visuales en español : un enfoque para la asistencia a personas con discapacidad visual. (Tesis de Maestría. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7848_Villalba
---------- CHICAGO ----------
Villalba, Clara Ofelia. "Respuesta a preguntas visuales en español : un enfoque para la asistencia a personas con discapacidad visual". Tesis de Maestría, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2025.https://hdl.handle.net/20.500.12110/tesis_n7848_Villalba
Estadísticas:
Descargas totales desde :
Descargas mensuales
https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7848_Villalba.pdf