Registro:
Documento: | Tesis de Maestría |
Título: | Aceleramiento computacional de procedimientos de clustering robusto |
Título alternativo: | Computational acceleration of robust clustering procedures |
Autor: | Carmona Guanipa, Douglas Alberto |
Editor: | Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
Publicación en la Web: | 2025-02-25 |
Fecha de defensa: | 2024-05-14 |
Fecha en portada: | 14 de mayo de 2024 |
Grado Obtenido: | Maestría |
Título Obtenido: | Magíster de la Universidad de Buenos Aires en el área de Estadística Matemática |
Departamento Docente: | Departamento de Matemáticas |
Director: | González, Juan Domingo |
Jurado: | Fernández Piana, Lucas Raúl; Yohai, Víctor J.; Farall, Andrés |
Idioma: | Español |
Formato: | PDF |
Handle: |
https://hdl.handle.net/20.500.12110/tesis_n7520_CarmonaGuanipa |
PDF: | https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7520_CarmonaGuanipa.pdf |
Registro: | https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n7520_CarmonaGuanipa |
Ubicación: | EST 007520 |
Derechos de Acceso: | Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Carmona Guanipa, Douglas Alberto. (2024). Aceleramiento computacional de procedimientos de clustering robusto. (Tesis de Maestría. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7520_CarmonaGuanipa |
Resumen:
Los métodos de clustering se utilizan para realizar particiones en los datos con el objetivo de encontrar estructuras ocultas. Existen procedimientos con enfoques diferentes para llevar a cabo esta tarea, sin embargo, el denominador común de muchos de ellos es que dependen de una estimación inicial donde K-Means es una de las técnicas mas usadas. Estudios teóricos, experimentación numérica y análisis de datos reales han demostrado que este procedimiento no es robusto, por lo que se han presentado varias propuestas para remediar este problema, donde destaca la propuesta denominada K-TAU, basado en una medida de escala robusta originalmente desarrollada por Yohai y Zamar en 1988. Los métodos derivados de esta alternativa fueron implementados en un paquete de R llamando ktaucenters. No obstante, el código fue escrito completamente en R y sin seguirlas recomendaciones usuales de desarrollo de paquetes para este lenguaje, por lo que se propone realizar una implementación computacional eficiente en lenguajes de programación compilados tanto para K-TAU como para el estimador de centros iniciales (ROBIN), poniéndolos a disposición de la comunidad científica y académica. Tanto la robustez como implementación del algoritmo se evalúan mediante estudios de simulación y datos reales. La nueva propuesta es dos órdenes de magnitud más rápida que la anterior y su tiempo de ejecución comparable al algoritmo tradicional, no robusto, K-Means. Una aplicación importante de este trabajo es acelerar otros procedimientos de clustering robustos de alcance más general como el Robust Model Based Clustering [1]. [1] Gonzalez, J. D., Maronna, R. A., Yohai, V. J., & Zamar, R. H. (2022). Robust Model-Based Clustering. Journal of Data Science, Statistics, and Visualisation, Volumen 2 (6), 1-29.
Abstract:
Clustering methods are used to partition data to find hidden patterns. There are procedures with different approaches to carry out this task, however, the common denominator of many of them is that they depend on an initial estimate where K-means is one of the most used techniques. Theoretical studies, numerical experimentation and real data analysis have shown that this procedure is not robust, therefore several proposals have been presented to remedy this problem, where an alternative called K-TAU stands out, based on a robust scale measure originally developed by Yohai and Zamar in 1988. The methods derived from this alternative were implemented in an R package called ktaucenters. However, the code was written completely in R and without following the usual package development recommendations for this programming language, so it is proposed to carry out an efficient computational implementation in compiled programming languages for both K-TAU and the initial center estimator (ROBIN), making them available to the scientific and academic community. Both the robustness and implementation of the algorithm are evaluated through simulation studies and real data. The new proposal is two orders of magnitude faster than the previous one and its execution time is comparable to the traditional, non-robust, K-means algorithm. An important application of this work is to facilitate other more general robust clustering procedures such as Robust Model Based Clustering [1]. [1] Gonzalez, J. D., Maronna, R. A., Yohai, V. J., & Zamar, R. H. (2022). Robust Model-Based Clustering. Journal of Data Science, Statistics, and Visualisation, Volume 2 (6), 1-29.
Citación:
---------- APA ----------
Carmona Guanipa, Douglas Alberto. (2024). Aceleramiento computacional de procedimientos de clustering robusto. (Tesis de Maestría. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7520_CarmonaGuanipa
---------- CHICAGO ----------
Carmona Guanipa, Douglas Alberto. "Aceleramiento computacional de procedimientos de clustering robusto". Tesis de Maestría, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2024.https://hdl.handle.net/20.500.12110/tesis_n7520_CarmonaGuanipa
Estadísticas:
Descargas totales desde :
Descargas mensuales
https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7520_CarmonaGuanipa.pdf