Resumen:
Durante los últimos años, la cantidad de información visual que se produce a diario viene experimentando un fuerte crecimiento. Desde imágenes generadas por satélites, cámaras de vigilancia y hasta fotos obtenidas por cámaras digitales contribuyen a formar una masa de información que de a poco se vuelve inmanejable. A lo largo del tiempo, se han descripto las imágenes a través de texto (TBIR) y de sus características visuales (CBIR), pero estos enfoques aún presentan desventajas. En los últimos años se ha comenzado a estudiar sistemas híbridos que combinan ambas variantes buscando potenciar las virtudes de cada una. A diferencia de TBIR, CBIR es un área mucho menos madura y presenta numerosos desafíos, entre ellos la definición de descriptores e índices adecuados. En este trabajo utilizamos histogramas de color para describir a las imágenes y analizamos el uso de mapas auto-organizados (SOM) como índice, ya que permiten trabajar con descriptores de alta dimensionalidad (caso típico en CBIR). Proponemos una función de scoring para imágenes con la idea de descartar imágenes irrelevantes en los resultados y también una variante para los SOM que mejora los tiempos de entrenamiento y recuperación (ParBSOM). Además, aplicamos dichas técnicas en el contexto de un sistema híbrido y proveemos resultados empíricos para evaluar su desempeño. Por último, presentamos un software propio denominado Envision que aplica los métodos estudiados.
Abstract:
In the last few years there has been a dramatic increase in the visual information available. Images generated from satellites, surveillance cameras and even digital cameras produce a huge amount of information that gradually becomes more difficult to handle. Typically, images are described by their textual content (TBIR) or by their visual features (CBIR). However, these approaches still show many problems. Recently, it was introduced the hybrid approach which combines both characteristics to improve the benefits of using text and visual content separately. CBIR nowadays is still far from being as well-matured as TBIR and presents many challenges such as defining suitable descriptors and index structures. In this work we use color histograms to describe images and study how Self-Organizing Maps (SOM) can be used as an index in CBIR. SOM are an interesting alternative as they allow us to work with high-dimensional descriptors (typical case in CBIR). We propose a scoring function for images which eliminates irrelevant images from the results list and we also introduce a new SOM model that improves training and retrieval times (ParBSOM). In addition, we study how these techniques can be applied to the hybrid approach and provide computational results to assess their performance. Finally, we develop a system known as Envision, which implements all the studied methods.
Citación:
---------- APA ----------
Castro, Diego Adrián. (2009). Recuperación de imágenes basada en texto y contenido visual mediante redes neuronales. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/seminario_nCOM000334_Castro
---------- CHICAGO ----------
Castro, Diego Adrián. "Recuperación de imágenes basada en texto y contenido visual mediante redes neuronales". Tesis de Grado, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2009.https://hdl.handle.net/20.500.12110/seminario_nCOM000334_Castro
Estadísticas:
Descargas mensuales
Total de descargas desde :
https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000334_Castro.pdf
Distrubución geográfica