Registro:
Documento: | Tesis de Maestría |
Título: | Métodos de entrenamiento basados en agrupamiento para capas convolucionales en redes neuronales |
Título alternativo: | Clustering-Based Training Methods for Convolutional Layers in Neural Networks |
Autor: | Rabinovich, Federico Ezequiel |
Editor: | Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
Publicación en la Web: | 2024-04-19 |
Fecha de defensa: | 2023-12-12 |
Grado Obtenido: | Maestría |
Título Obtenido: | Magíster de la Universidad de Buenos Aires en el área de Explotación de Datos y Descubrimiento del Conocimiento |
Departamento Docente: | Departamento de Computación |
Director: | Quiroga, Facundo Manuel |
Director Asistente: | Ronchetti, Franco |
Jurado: | García, Mario A.; Cintas, Celia; Iarussi, Emmanuel |
Idioma: | Español |
Formato: | PDF |
Handle: |
http://hdl.handle.net/20.500.12110/tesis_n7470_Rabinovich |
PDF: | https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7470_Rabinovich.pdf |
Registro: | https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n7470_Rabinovich |
Ubicación: | DMI 007470 |
Derechos de Acceso: | Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Rabinovich, Federico Ezequiel. (2023). Métodos de entrenamiento basados en agrupamiento para capas convolucionales en redes neuronales. (Tesis de Maestría. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales). Recuperado de http://hdl.handle.net/20.500.12110/tesis_n7470_Rabinovich |
Resumen:
Durante el transcurso de la última década, las redes neuronales artificiales se han convertido en la punta de lanza del campo de la inteligencia artificial. Su capacidad para modelar funciones de altísima complejidad ha quedado demostrada una y otra vez con sus permanentes avances del estado del arte en prácticamente todos los dominios del área. Las redes convolucionales en particular, han revolucionado el campo de la visión artificial y han sido empleadas con éxito en problemáticas tan disímiles como el procesamiento de lenguaje natural y el modelado de series temporales. No obstante los inmensos avances producidos en tan pocos años, las redes neuronales artificiales continúan siendo, en muchos aspectos, misteriosas “cajas negras”. Debido a la cantidad de unidades de procesamiento que las conforman, la interpretación de los resultados (inferencias) que producen resulta extremadamente compleja. Adicionalmente, presentan problemas de eficiencia, particularmente durante su entrenamiento. Los recursos computacionales necesarios para entrenar una red de miles de millones de parámetros son inmensos, generando un impacto económico y ecológico significativos. Asimismo, esta ineficiencia actúa como limitante al libre acceso a esta tecnología. Este trabajo tiene el objetivo de comprender la codificación de los filtros convolucionales de la primera capa de las redes convolucionales, y proponer un nuevo método de entrenamiento para los filtros de esa capa. Se comenzó por realizar un análisis exploratorio de datos, tomando como punto de partida los filtros aprendidos sobre ImageNet por diversos modelos de redes convolucionales de alto rendimiento. Se indagó sobre las características del espacio de soluciones a las que los diferentes modelos arribaron y se exploraron posibles restricciones sobre este espacio producto del entrenamiento al que fueron expuestos. En el cuerpo principal del trabajo, se ensayaron dos metodologías para la obtención de filtros para una primera capa convolucional. Se aplicaron los algoritmos de agrupamiento K-Means y de reducción de dimensionalidad PCA para generar los filtros de la primera capa convolucional de una red convolucional, de forma no supervisada. El alcance de este trabajo se limitó a la búsqueda de métodos para entrenar únicamente la primera capa de la red, dejando para futuros trabajos la aplicación a capas subsiguientes. Para realizar los experimentos, se emplearon dos conjuntos de datos ampliamente utilizados en la literatura: CIFAR10 y Mnist-Fashion. Asimismo, se tomaron, a lo largo de todos los experimentos, dos modelos de redes convolucionales. Uno de ellos, SimpleConv, fue construido de forma ad-hoc por el tesista. El otro modelo utilizado es EfficientNet V2 Small, de amplia aceptación y utilización en la literatura. Se evaluaron los resultados de forma comparativa al método tradicional de entrenamiento por Descenso por Gradientes y Backpropagation para los dos conjuntos de datos y las dos arquitecturas mencionadas. Finalmente se realizó una serie de experimentos confirmatorios, llevando a cabo un análisis de los parámetros generados por los dos algoritmos alternativos de entrenamiento. Asimismo, se analizaron los cambios experimentados por los filtros durante el proceso de entrenamiento por Descenso por Gradientes y Backpropagation, condicionados a las características del algoritmo utilizado para su inicialización. Este trabajo aporta dos métodos novedosos de entrenamiento para la primera capa de filtros de una red convolucional. Los experimentos demuestran que ambos métodos producen filtros adecuados para una primera capa en la tarea de clasificación de imágenes sobre las configuraciones ensayadas. Bajo estas circunstancias, ambos métodos obtienen desempeños superiores a los obtenidos por el método tradicional de entrenamiento de descenso por gradientes.
Abstract:
During the course of the last decade, artificial neural networks have become the forefront of the field of artificial intelligence. Their ability to model highly complex functions has been repeatedly demonstrated through continuous state-of-the-art advancements across virtually all domains of the field. Convolutional networks, in particular, have revolutionized the field of computer vision and have been successfully employed in diverse problem domains such as natural language processing and time series modeling. However, despite the immense progress made in a short span of time, artificial neural networks remain, in many aspects, mysterious "black boxes." Due to the large number of processing units they consist of, interpreting the results (inferences) they produce is extremely complex. Additionally, they exhibit efficiency issues, particularly during training. The computational resources required to train a network with billions of parameters are immense, resulting in significant economic and ecological impacts. Moreover, this inefficiency acts as a barrier to the widespread accessibility of this technology. This work aims to understand the encoding of the convolutional filters in the first layer of convolutional networks and propose a novel training method for those filters. It begins with an exploratory data analysis, starting from the filters learned on ImageNet by various high-performance convolutional network models. The characteristics of the solution space reached by different models are investigated, and potential training-induced restrictions on this space are explored. In the main body of the work, two methodologies for obtaining filters for a first convolutional layer are tested. The K-Means clustering and Principal Component Analysis (PCA) algorithms are applied to generate the filters of the first convolutional layer of a convolutional network in an unsupervised manner. The scope of this work is limited to finding methods to train only the first layer of the network, leaving the application to subsequent layers for future research. Two widely-used datasets in the literature, CIFAR10 and Mnist-Fashion, were employed for the experiments. Additionally, two convolutional network models were used throughout all the experiments. One of them, SimpleConv, was ad-hoc constructed by the thesis author. The other model used is the widely accepted and utilized EfficientNet V2 Small. The results were evaluated comparatively to the traditional training method of Gradient Descent and Backpropagation for the two datasets and the two mentioned architectures. Finally, a series of confirmatory experiments were conducted, analyzing the parameters generated by the two alternative training algorithms. Additionally, the changes experienced by the filters during the Gradient Descent and Backpropagation training process were examined, conditioned by the characteristics of the algorithm used for their initialization. This work introduces two novel training methods for the first layer filters of a convolutional network. The experiments demonstrate that both methods produce suitable filters for a first layer in the image classification task on the tested configurations. Under these circumstances, both methods achieve superior performance compared to the traditional Gradient Descent training method.
Citación:
---------- APA ----------
Rabinovich, Federico Ezequiel. (2023). Métodos de entrenamiento basados en agrupamiento para capas convolucionales en redes neuronales. (Tesis de Maestría. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7470_Rabinovich
---------- CHICAGO ----------
Rabinovich, Federico Ezequiel. "Métodos de entrenamiento basados en agrupamiento para capas convolucionales en redes neuronales". Tesis de Maestría, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2023.https://hdl.handle.net/20.500.12110/tesis_n7470_Rabinovich
Estadísticas:
Descargas totales desde :
Descargas mensuales
https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7470_Rabinovich.pdf