Registro:
Documento: | Tesis Doctoral |
Disciplina: | matematica |
Título: | Métodos de clustering robustos |
Título alternativo: | Robust clustering methods |
Autor: | González, Juan Domingo |
Editor: | Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
Filiación: | Instituto de Cálculo
|
Publicación en la Web: | 2019-10-31 |
Fecha de defensa: | 2019-03-15 |
Fecha en portada: | 2019 |
Grado Obtenido: | Doctorado |
Título Obtenido: | Doctor de la Universidad de Buenos Aires en el área de Ciencias Matemáticas |
Director: | Yohai, Víctor J. |
Jurado: | Rodríguez, Daniela; Forzani, Liliana; Prieto Fernández, Francisco |
Idioma: | Español |
Formato: | PDF |
Handle: |
http://hdl.handle.net/20.500.12110/tesis_n6652_Gonzalez |
PDF: | https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n6652_Gonzalez.pdf |
Registro: | https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n6652_Gonzalez |
Ubicación: | Dep.MAT 006652 |
Derechos de Acceso: | Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. González, Juan Domingo. (2019). Métodos de clustering robustos. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de http://hdl.handle.net/20.500.12110/tesis_n6652_Gonzalez |
Resumen:
Se tienen p variables medidas sobre n objetos. El problema de clustering, que se presenta en varias áreas del conocimiento, consiste en dividir el conjunto de n objetos en K grupos homogéneos, es decir de modo que en cada grupo las p variables tomen valores parecidos. Hay varios enfoques para este problema, uno de los más populares es "K-means", que consiste en minimizar la media de las distancias de los objetos a los centros de los grupos a los que pertenecen. Este procedimiento tiene la ventaja de ser conceptualmente y computacionalmente simple. Sin embargo, es muy sensible a la presencia de puntos atípicos. Se propone una alternativa robusta basada en minimizar una escala robusta de tipo tau de las distancias entre los puntos y los centros de los grupos a los que pertenecen. Simulaciones por el método de Monte Carlo muestran que este procedimiento no es mayormente afectado por puntos atípicos. Se muestra además que los centros de los grupos están bien definidos, y que son fuertemente consistentes. Otro enfoque para clustering es utilizar un modelo de mezcla de K distribuciones, donde cada distribución depende de varios parámetros. En este caso, el método usuales estimar los parámetros por máxima verosimilitud. En el caso de que las distribuciones son normales multivariadas, este estimador se calcula utilizando un algoritmo EM. Sin embargo, este procedimiento tampoco es robusto. En esta tesis se modifica el algoritmo EM de modo que la estimación de los parámetros sea robusta y consistente. Asímismo, se implementa el algoritmo y se realizan simulaciones de Monte Carlo, en donde se muestran las ventajas de la presente propuesta frente a otros estimadores clásicos y robustos de la literatura.
Abstract:
Suppose that p variables are measured on n objects. The clustering problem, which occurs in several areas of knowledge, consists in dividing the set of n objects into K homogeneous groups, so that in each group the p variables take similar values. There are several procedures to solve this problem, one of the most popular one is "K-means", which is based on minimizing the average distances between the objects and the centers of the groups to which they belong. This procedure has the advantage of being conceptually and computationally simple. However, it is very sensitive to the presence of outliers. In this work, a robust alternative based on minimizing a robust tau-type scale of the distances is proposed. Monte Carlo simulations show that this procedure is not mainly affected by outliers. It is also shown that the centers of groups are well defined and they are strongly consistent. Another approach to clustering is to use a mixture model of K distributions, where each distribution depends on several parameters. In this case, the usual method is to estimate the parameters by maximum likelihood. In the case that the distributions are normal multivariate, this estimator is traditionally computed using an EM algorithm. However, this procedure is not robust either. In this thesis the EM algorithm is modified in order to obtain robust and consistent parameters estimations. Likewise, the algorithm is implemented and Monte Carlo simulations are carried out, showing the advantages of the present proposal over other classic and robust estimators shown in the literature.
Citación:
---------- APA ----------
González, Juan Domingo. (2019). Métodos de clustering robustos. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n6652_Gonzalez
---------- CHICAGO ----------
González, Juan Domingo. "Métodos de clustering robustos". Tesis Doctoral, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2019.https://hdl.handle.net/20.500.12110/tesis_n6652_Gonzalez
Estadísticas:
Descargas totales desde :
Descargas mensuales
https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n6652_Gonzalez.pdf