Registro:
Documento: | Tesis Doctoral |
Título: | 𝑀-estimadores penalizados para regresión logística |
Título alternativo: | Penalized 𝑀-estimators for logistic regression |
Autor: | Chebi, Gonzalo |
Editor: | Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
Lugar de trabajo: | Universidad de Buenos Aires - CONICET. Instituto de Cálculo (IC)
|
Publicación en la Web: | 2022-03-29 |
Fecha de defensa: | 2019-12-20 |
Fecha en portada: | 2019 |
Grado Obtenido: | Doctorado |
Título Obtenido: | Doctor de la Universidad de Buenos Aires en el área de Ciencias Matemáticas |
Departamento Docente: | Departamento de Matemáticas |
Director: | Bianco, Ana María |
Director Asistente: | Boente Boente, Graciela Lina |
Jurado: | Groisman, Pablo José; Jiménez Gamero, Dolores; Maronna, Ricardo |
Idioma: | Español |
Palabras clave: | CLASIFICACION; M-ESTIMADORES; PENALIZACION; REGRESION LOGISTICA; ROBUSTEZCLASSIFICATION; M-ESTIMATORS; PENALIZATION; LOGISTIC REGRESSION; ROBUSTNESS |
Formato: | PDF |
Handle: |
http://hdl.handle.net/20.500.12110/tesis_n6891_Chebi |
PDF: | https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n6891_Chebi.pdf |
Registro: | https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n6891_Chebi |
Ubicación: | MAT 006891 |
Derechos de Acceso: | Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Chebi, Gonzalo. (2019). 𝑀-estimadores penalizados para regresión logística. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales). Recuperado de http://hdl.handle.net/20.500.12110/tesis_n6891_Chebi |
Resumen:
El modelo de regresión logística es ampliamente utilizado en problemas de clasificación cuando se tienen covariables que permiten explicar la pertenencia a alguno de los dos grupos en consideración. En estos modelos asegurar una buena clasificación e identificar variables con capacidad predictora es de suma importancia. En particular, el problema de selección de variables es relevante cuando el vector de coeficientes de regresión es ralo, es decir, cuando en el modelo verdadero unas pocas covariables son suficientes para poder predecir la variable respuesta. En el modelo de regresión lineal, un método efectivo para estimar modelos ralos consiste en agregar un término de penalización a la suma de cuadrados de los residuos a minimizar. En esta tesis, se aborda el problema de estimación y selección de variables en el modelo de regresión logística ralo mediante métodos robustos que resisten la presencia de datos atípicos. Más precisamente, consideramos un modelo de regresión logística en el cual se observan p covariables, pero sólo hay un número k (desconocido) de variables explicativas activas que se desean identificar. Además de seleccionar variables, nuestro inter ́es consiste en proveer inferencias estables cuando existe en la muestra un pequeño porcentaje de observaciones mal clasificadas que, si además corresponden a puntos de alta palanca, pueden tener una gran influencia. Para resolver estos problemas, se consideran versiones penalizadas y pesadas de los estimadores propuestos por Bianco y Yohai (1996). Por un lado, se muestra que la familia de pérdidas introducidas en dicho trabajo incluye otros estimadores considerados en la literatura. Por otra parte, se considera una amplia variedad de funciones de penalización y se propone la llamada penalidad Signo, que mejora sustancialmente el sesgo introducido por penalizaciones como Ridge o LASSO. Bajo condiciones de regularidad, se obtienen resultados de consistencia y expresiones para la distribución asintótica de los estimadores propuestos. Se deducen además resultados que aseguran que los estimadores seleccionan variables de manera consistente. Se analiza por separado el caso en que la cantidad de covariables p es fija y cuando p diverge a infinito junto con el tamaño de la muestran. Específicamente, en este ́ultimo escenario mostramos que, bajo ciertas condiciones sobre la distribución de covariables y la penalidad utilizada, los estimadores propuestos son consistentes si p/n → 0 y tienen la llamada propiedad oráculo si pk/n → 0, donde k es la cantidad de covariables activas en el modelo de regresión logística. Se propone un algoritmo que permite encontrar una solución aproximada de los problemas de minimización para las funciones de pérdida y penalización consideradas en la tesis. Se define además un procedimiento de convalidación cruzada robusto para elegir el parámetro de regularidad. Un extenso estudio de simulación permite investigar, para muestras finitas, el desempeño de los estimadores propuestos para distintas elecciones tanto de la función de pérdida como de la penalidad para conjuntos de observaciones con datos atípicos y sin ellos. En particular, los M−estimadores pesados con penalizaciones acotadas muestran sus ventajas bajo los diferentes esquemas de contaminación considerados. Finalmente, se aplican los métodos propuestos en esta tesis a conjuntos de datos reales.
Abstract:
The logistic regression model is widely used in classification problems where explanatory covariates with capability to explain the group membership are available. For these models, ensuring good classification properties and selecting a subset of variables with high prediction ability is a fundamental task. In particular, variable selection is specially important when the true underlying model has a sparse representation, i.e., when only a few explanatory variables are enough to predict the response variable. In the linear regression model, an effective method to estimate sparse models is to add a suitable penalization term to the residuals sum of squares that is minimized. In this thesis, we address the problem of estimating and selecting variables under a sparse logistic regression model through methods that are robust against the presence of outliers. To be more precise, we consider logistic regression models in which p covariates are observed, but only k of them are active. Both the quantity k and the subset of active covariates are unknown and need to be estimated. Besides selecting variables, we aim to provide stable procedures against a small proportion of observations wrongly classified. In particular, these observations may be extremely harmful when they correspond to high leverage points. To solve these problems, we consider penalized and weighted versions of the estimators proposed by Bianco and Yohai (1996). On the one hand, we show that the family of loss functions introduced in that paper includes other estimators in the literature. On the other one, we consider a wide range of penalization functions and we propose the so called Sign Penalty, which substantially improves the bias introduced by popular penalizations such as Ridge or LASSO. Under regularity conditions, we obtain consistency results and arrive to expressions for the asymptotic distribution of the proposed estimators. Moreover, we derive results ensuring that these estimators perform variable selection consistently. We separately analyse the case where the number of covariates p is fixed and the situation where p diverges to infinity with the sample size n. More precisely, in the latter scenario, we show that, under mild assumptions for the covariate distribution and the penalization function, the proposed estimators are consistent if p/n → 0 and have the oracle property if pk/n → 0, where k is the number of active covariates in the true logistic regression model. We propose an algorithm that allows to find an approximate solution of the minimization problem, for the loss and penalty functions considered here. Moreover, we define a robust cross-validation procedure to select the tuning parameter. An extensive numerical study allows to investigate the performance of the proposed estimators for different loss and penalty choices. We consider the case of clean samples following a logistic regression model and also that the situation where misclassified data are added according to different contamination scenarios. In particular, the obtained results show the advantages of using weighted M−estimators combined with bounded penalty functions, under the considered outlier schemes. Finally, the proposed methods are illustrated on some real data.
Citación:
---------- APA ----------
Chebi, Gonzalo. (2019). 𝑀-estimadores penalizados para regresión logística. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n6891_Chebi
---------- CHICAGO ----------
Chebi, Gonzalo. "𝑀-estimadores penalizados para regresión logística". Tesis Doctoral, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2019.https://hdl.handle.net/20.500.12110/tesis_n6891_Chebi
Estadísticas:
Descargas totales desde :
Descargas mensuales
https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n6891_Chebi.pdf