Registro:
| Documento: | Tesis de Grado |
| Título: | Efficient large-scale image search with a vocabulary tree |
| Título alternativo: | Búsqueda eficiente de objetos en imágenes mediante un árbol de vocabulario |
| Autor: | Uriza, Esteban |
| Editor: | Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
| Publicación en la web: | 2025-06-12 |
| Fecha de defensa: | 2016 |
| Fecha en portada: | 2016 |
| Grado Obtenido: | Grado |
| Título Obtenido: | Licenciado en Ciencias de la Computación |
| Departamento Docente: | Departamento de Computación |
| Director: | Gómez Fernández, Francisco Roberto |
| Director Asistente: | Rais, Martín Emilio |
| Jurado: | De Cristóforis, Pablo Esteban; Mejail, Marta Ester |
| Idioma: | Inglés |
| Palabras clave: | ARBOL DE VOCABULARIO; BUSQUEDA ESCALABLE; PROCESAMIENTO DE IMAGENES; VISION POR COMPUTADORA; RECONOCIMIENTO DE OBJETOS EN IMAGENES; BAG OF FEATURESVOCABULARY TREE; SCALABLE SEARCH; IMAGE PROCESSING; COMPUTER VISION; IMAGE OBJECT RECOGNITION; BAG OF FEATURES |
| Formato: | PDF |
| Handle: |
http://hdl.handle.net/20.500.12110/seminario_nCOM000670_Uriza |
| PDF: | https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000670_Uriza.pdf |
| Registro: | https://bibliotecadigital.exactas.uba.ar/collection/seminario/document/seminario_nCOM000670_Uriza |
| Ubicación: | Dep.COM 000670 |
| Derechos de Acceso: | Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Uriza, Esteban. (2016). Efficient large-scale image search with a vocabulary tree. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de http://hdl.handle.net/20.500.12110/seminario_nCOM000670_Uriza |
Resumen:
La tarea de buscar y reconocer objetos en imágenes se ha convertido en un importante tema de investigación en el área de procesamiento de imágenes y visión por computadora. Una solución general al problema que no puede aprovechar características particulares de un dominio específico en las imágenes de entrada, requiere procesar mucha información en la imagen. Si el reconocimiento se plantea sobre un número importante de imágenes, el volumen de datos crece muy rápido. Redes sociales en la web, aplicaciones en smart-phones, etc. plantean la necesidad de resolver este problema a gran escala ya que cada vez trabajan con volúmenes de datos más grandes que superan el orden de los millones de imágenes. Poder desarrollar métodos eficientes en términos de búsqueda e indexación, que devuelvan resultados correctos en tiempo real representa un desafío importante. En este trabajo se estudia el enfoque de Bag of Features, en particular la variante denominada vocabulary tree. En esta variante, métodos de clustering jerárquico son aplicados sobre descriptores locales de imágenes, para formar un vocabulario visual jerárquico. Para indexar las imágenes y crear el dataset de índices invertidos, los descriptores son cuantizados en términos del vocabulario para formar vectores esparsos, que permiten computar un ranking de similaridad entre imágenes de manera muy eficiente. Se incluyen también explicaciones detalladas del método con ejemplos que permiten un mejor entendimiento y reproducibilidad de los resultados. Se realiza además un análisis del impacto de la performance del método variando distintos factores tales como: los parámetros sobre la construcción del vocabulario y distintas técnicas de extracción de descriptores locales. Se observa que la performance de recuperación (retrieval) aumenta con un vocabulario más rico y decae muy lentamente a medida que el tamaño del dataset crece. Se muestra que los descriptores open source KAZE y AKAZE probaron tener resultados iguales o superiores a los métodos clásicos SIFT, SURF y ORB. Los experimentos realizados muestran que aplicar una reducción de dimensionalidad a los descriptores, usando técnicas como PCA, mejoran o igualan la calidad de la recuperación de imágenes, permitiendo reducir los requerimientos de memoria necesarios y brindando al método de una mayor escalabilidad aún. Finalmente se muestran diversas aplicaciones concretas para el método como búsqueda de objetos o escenas en videos, reconocimiento de billetes de banco o de etiquetas de vino, contando con una demo funcional online.
Abstract:
The task of searching for and recognizing objects in images has become an important research topic in the area of image processing and computer vision. A general solution to the problem that can not take advantage of particular characteristics of a specific domain in the input images, requires processing a considerable amount of information from the image. If the recognition is done on a large number of images, the volume of data to be processed grows very fast. Social networks on the web, applications on smart phones, etc. settle the need to solve this problem on a large scale as they have to work increasingly with larger volumes of data, exceeding the order of millions of images. Thus, being able to develop efficient methods, that return correct results in real time represents a major challenge. In this paper the Bag of Features approach is studied, in particular the variant called vocabulary tree. In this variant, hierarchical clustering methods are applied to local image descriptors to form a hierarchical visual vocabulary. In order to index the images and create the inverted indexes, the descriptors are quantized in terms of the vocabulary forming sparse vectors, which allows computing a ranking of similarity for images very efficiently. Detailed explanations of the method with examples that allow a better understanding and reproducibility of the results are included. The impact on method performance is analyzed varying different factors such as: the parameters on the vocabulary construction and different techniques of local descriptors extraction. It can be observed that the retrieval performance increases with a richer vocabulary and decays very slowly as the size of the dataset grows. New open-source descriptors KAZE and AKAZE proved to have results equal to or greater than the classic ones SIFT, SURF and ORB methods. The experiments also show that applying a reduction of dimensionality to the descriptors, using techniques such as PCA, improves or equals the quality of the image recovery, allowing to reduce the necessary memory requirements and giving to the method even greater scalability. Finally, several specific applications for the method are shown, such as searching for scenes in videos, recognition of bank notes or wine labels with a functional demo on-line.
Citación:
---------- APA ----------
Uriza, Esteban. (2016). Efficient large-scale image search with a vocabulary tree. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/seminario_nCOM000670_Uriza
---------- CHICAGO ----------
Uriza, Esteban. "Efficient large-scale image search with a vocabulary tree". Tesis de Grado, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2016.https://hdl.handle.net/20.500.12110/seminario_nCOM000670_Uriza
Estadísticas:
Descargas mensuales
Total de descargas desde :
https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000670_Uriza.pdf
Distrubución geográfica