Registro:
Documento: | Tesis de Grado |
Título: | Análisis y predicción de la búsqueda visual humana |
Título alternativo: | Analysis and prediction of human visual search |
Autor: | Sclar, Melanie |
Editor: | Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
Publicación en la web: | 2023-09-12 |
Fecha de defensa: | 2017-09-27 |
Fecha en portada: | Septiembre 2017 |
Grado Obtenido: | Grado |
Título Obtenido: | Licenciado en Ciencias de la Computación |
Departamento Docente: | Departamento de Computación |
Director: | Kamienkowski, Juan Esteban; Solovey, Guillermo |
Idioma: | Español |
Palabras clave: | BUSQUEDA VISUAL; VISION HUMANA; MAPA DE SALIENCIA; MODELOS BAYESIANOS; METRICAS DE COMPARACION DE SCANPATHSVISUAL SEARCH; HUMAN VISION; SALIENCY MAP; BAYESIAN MODELS; SCANPATH COMPARISON METRICS |
Formato: | PDF |
Handle: |
http://hdl.handle.net/20.500.12110/seminario_nCOM000475_Sclar |
PDF: | https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000475_Sclar.pdf |
Registro: | https://bibliotecadigital.exactas.uba.ar/collection/seminario/document/seminario_nCOM000475_Sclar |
Ubicación: | Dep.COM 000475 |
Derechos de Acceso: | Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Sclar, Melanie. (2017). Análisis y predicción de la búsqueda visual humana. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de http://hdl.handle.net/20.500.12110/seminario_nCOM000475_Sclar |
Resumen:
La búsqueda visual es una tarea clave en la vida diaria. Desde encontrar a un amigo entre una multitud hasta tomar una taza de café requieren de una exploración inteligente del espacio visual. Sin esta capacidad, no podríamos encontrar ningún objeto a menos que aparezca por azar frente a nuestros ojos. Pese a la importancia y aparente simpleza de la búsqueda visual, al día de hoy no existe un modelo capaz de predecir el recorrido de la mirada. En este trabajo nos proponemos estudiar los algoritmos y estrategias de la búsqueda visual humana en escenas naturales. Tendremos en cuenta tres aspectos: (i) la saliencia de los objetos en una imagen (indica regiones llamativas de la imagen por su contraste, color, orientación, etc.), estimada a partir del procesamiento de la imagen; (ii) expectativas o priors sobre la ubicación de los objetos (por ejemplo, es más probable a priori que una taza esté sobre la mesa que en el techo), estimada a partir del análisis visual y lingüístico de un corpus de imágenes; y (iii) las reglas con las que estos mapas de probabilidades de hallar el objeto se actualizan y dirigen la mirada. Con estos ingredientes se implementaron distintos modelos, algunos que solo tuvieron en cuenta los puntos (i) y (ii) (denominados estáticos) y otros que incorporaron el punto (iii) (denominados dinámicos). Entre ellos, un modelo normativo importante es el modelo de buscador óptimo, en el cual los ojos se mueven hacia la dirección que maximiza la probabilidad de encontrar el objeto buscado. Implementamos este modelo utilizando un mapa de probabilidad que toma en cuenta explícitamente los primeros dos aspectos mencionados, logrando un nivel de predicción hasta 40 % mejor que si se emplea como mapa inicial un modelo de saliencia del estado del arte. Para comparar los modelos de búsqueda visual se desarrollaron e implementaron distintas métricas con el objetivo de explorar y capturar distintos aspectos del recorrido de la mirada. Asimismo, fue necesario generar un conjunto de datos de búsqueda visual en escenas naturales, anotado con el reporte subjetivo de los observadores respecto de la posición del target y su confianza en la respuesta, y por observadores externos respecto del contenido de las imágenes. A lo largo de este trabajo también desarrollamos predicciones sobre las respuestas más probables del reporte subjetivo humano.
Abstract:
Visual search is a vital task in everyday life. From finding a friend among a crowd to having a cup of coffee, many tasks require a smart exploration of visual space. Without this ability, we would not find any object unless it appeared by chance before our eyes. Despite the importance and apparent simplicity of visual search, to date there is no model capable of predicting the path of the human gaze. In this work, we propose to study the algorithms and strategies of human visual search in natural scenes. We will take into account three aspects: (i) the salience of objects in an image (indicates conspicuous regions of the image by contrast, color, orientation, etc.), estimated from the image processing, (ii) expectations or priors on the location of objects (e.g., it is more likely that a cup is on the table than on the ceiling), estimated from the visual and linguistic analysis of a corpus of images, and (iii) the rules with which these maps of probabilities of finding the object are updated and direct the gaze. Different models were implemented combining these components, some of which only took into account points (i) and (ii) (called static) and others that incorporated point (iii) (called dynamic). Among them, an important normative model is the model of the ideal bayesian observer, in which the eyes move towards the direction that maximizes the probability of finding the object searched. We implemented this model using a probability map which explicitly takes into account the first two aspects mentioned, achieving a prediction level up to 40 % better than if a state-of-art salience model is used as the initial map. To compare visual search models, different metrics were developed and implemented with the goal of exploring and capturing different aspects of the gaze’s path. It was also necessary to produce a set of visual search data in natural scenes, annotated with the subjective report of the observers regarding the position of the target and the confidence in their answer, and by external observers regarding the content of the images. Throughout this paper we also develop predictions about the most likely responses of human subjective reporting.
Citación:
---------- APA ----------
Sclar, Melanie. (2017). Análisis y predicción de la búsqueda visual humana. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/seminario_nCOM000475_Sclar
---------- CHICAGO ----------
Sclar, Melanie. "Análisis y predicción de la búsqueda visual humana". Tesis de Grado, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2017.https://hdl.handle.net/20.500.12110/seminario_nCOM000475_Sclar
Estadísticas:
Descargas mensuales
Total de descargas desde :
https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000475_Sclar.pdf
Distrubución geográfica