Efficient large-scale image search with a vocabulary tree

Uriza, Esteban

Navegar

Documento Últimos publicados Autor Año Título Obtenido - Año Departamento - Año Director y Director Asistente Jurado Consejero de Estudios Palabras Clave

Colección

Datos Estadísticas

Tesis de Grado

Uriza, Esteban. "Efficient large-scale image search with a vocabulary tree" . (2016). Tesis de Grado, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.

Registro Resumen Abstract Citación Estadísticas

Registro:

Documento:	Tesis de Grado
Título:	Efficient large-scale image search with a vocabulary tree
Título alternativo:	Búsqueda eficiente de objetos en imágenes mediante un árbol de vocabulario
Autor:	Uriza, Esteban
Editor:	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Publicación en la web:	2025-06-12
Fecha de defensa:	2016
Fecha en portada:	2016
Grado Obtenido:	Grado
Título Obtenido:	Licenciado en Ciencias de la Computación
Departamento Docente:	Departamento de Computación
Director:	Gómez Fernández, Francisco Roberto
Director Asistente:	Rais, Martín Emilio
Jurado:	De Cristóforis, Pablo Esteban; Mejail, Marta Ester
Idioma:	Inglés
Palabras clave:	ARBOL DE VOCABULARIO; BUSQUEDA ESCALABLE; PROCESAMIENTO DE IMAGENES; VISION POR COMPUTADORA; RECONOCIMIENTO DE OBJETOS EN IMAGENES; BAG OF FEATURESVOCABULARY TREE; SCALABLE SEARCH; IMAGE PROCESSING; COMPUTER VISION; IMAGE OBJECT RECOGNITION; BAG OF FEATURES
Formato:	PDF
Handle:	http://hdl.handle.net/20.500.12110/seminario_nCOM000670_Uriza
PDF:	https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000670_Uriza.pdf
Registro:	https://bibliotecadigital.exactas.uba.ar/collection/seminario/document/seminario_nCOM000670_Uriza
Ubicación:	Dep.COM 000670
Derechos de Acceso:	Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Uriza, Esteban. (2016). Efficient large-scale image search with a vocabulary tree. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de http://hdl.handle.net/20.500.12110/seminario_nCOM000670_Uriza

Resumen:

La tarea de buscar y reconocer objetos en imágenes se ha convertido en un importante tema de investigación en el área de procesamiento de imágenes y visión por computadora. Una solución general al problema que no puede aprovechar características particulares de un dominio específico en las imágenes de entrada, requiere procesar mucha información en la imagen. Si el reconocimiento se plantea sobre un número importante de imágenes, el volumen de datos crece muy rápido. Redes sociales en la web, aplicaciones en smart-phones, etc. plantean la necesidad de resolver este problema a gran escala ya que cada vez trabajan con volúmenes de datos más grandes que superan el orden de los millones de imágenes. Poder desarrollar métodos eficientes en términos de búsqueda e indexación, que devuelvan resultados correctos en tiempo real representa un desafío importante. En este trabajo se estudia el enfoque de Bag of Features, en particular la variante denominada vocabulary tree. En esta variante, métodos de clustering jerárquico son aplicados sobre descriptores locales de imágenes, para formar un vocabulario visual jerárquico. Para indexar las imágenes y crear el dataset de índices invertidos, los descriptores son cuantizados en términos del vocabulario para formar vectores esparsos, que permiten computar un ranking de similaridad entre imágenes de manera muy eficiente. Se incluyen también explicaciones detalladas del método con ejemplos que permiten un mejor entendimiento y reproducibilidad de los resultados. Se realiza además un análisis del impacto de la performance del método variando distintos factores tales como: los parámetros sobre la construcción del vocabulario y distintas técnicas de extracción de descriptores locales. Se observa que la performance de recuperación (retrieval) aumenta con un vocabulario más rico y decae muy lentamente a medida que el tamaño del dataset crece. Se muestra que los descriptores open source KAZE y AKAZE probaron tener resultados iguales o superiores a los métodos clásicos SIFT, SURF y ORB. Los experimentos realizados muestran que aplicar una reducción de dimensionalidad a los descriptores, usando técnicas como PCA, mejoran o igualan la calidad de la recuperación de imágenes, permitiendo reducir los requerimientos de memoria necesarios y brindando al método de una mayor escalabilidad aún. Finalmente se muestran diversas aplicaciones concretas para el método como búsqueda de objetos o escenas en videos, reconocimiento de billetes de banco o de etiquetas de vino, contando con una demo funcional online.

Abstract:

The task of searching for and recognizing objects in images has become an important research topic in the area of image processing and computer vision. A general solution to the problem that can not take advantage of particular characteristics of a specific domain in the input images, requires processing a considerable amount of information from the image. If the recognition is done on a large number of images, the volume of data to be processed grows very fast. Social networks on the web, applications on smart phones, etc. settle the need to solve this problem on a large scale as they have to work increasingly with larger volumes of data, exceeding the order of millions of images. Thus, being able to develop efficient methods, that return correct results in real time represents a major challenge. In this paper the Bag of Features approach is studied, in particular the variant called vocabulary tree. In this variant, hierarchical clustering methods are applied to local image descriptors to form a hierarchical visual vocabulary. In order to index the images and create the inverted indexes, the descriptors are quantized in terms of the vocabulary forming sparse vectors, which allows computing a ranking of similarity for images very efficiently. Detailed explanations of the method with examples that allow a better understanding and reproducibility of the results are included. The impact on method performance is analyzed varying different factors such as: the parameters on the vocabulary construction and different techniques of local descriptors extraction. It can be observed that the retrieval performance increases with a richer vocabulary and decays very slowly as the size of the dataset grows. New open-source descriptors KAZE and AKAZE proved to have results equal to or greater than the classic ones SIFT, SURF and ORB methods. The experiments also show that applying a reduction of dimensionality to the descriptors, using techniques such as PCA, improves or equals the quality of the image recovery, allowing to reduce the necessary memory requirements and giving to the method even greater scalability. Finally, several specific applications for the method are shown, such as searching for scenes in videos, recognition of bank notes or wine labels with a functional demo on-line.

Citación:

---------- APA ----------

Uriza, Esteban. (2016). Efficient large-scale image search with a vocabulary tree. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/seminario_nCOM000670_Uriza

---------- CHICAGO ----------

Uriza, Esteban. "Efficient large-scale image search with a vocabulary tree". Tesis de Grado, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2016.https://hdl.handle.net/20.500.12110/seminario_nCOM000670_Uriza

Estadísticas:

Descargas mensuales

Total de descargas desde :

https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000670_Uriza.pdf