Resumen:
En esta tesis se investigan métodos robustos de clustering y técnicas de preprocesamiento de series de tiempo con valores atípicos y/o datos faltantes. Además, se analizan técnicas de extracción de características (feature extraction) de series temporales. La motivación del desarrollo de esta metodología es la identificación del área sembrada con distintos cultivos en Argentina, utilizando series de imágenes satelitales que proporcionan series de tiempo del índice de vegetación NDVI en el territorio agrícola. La metodología propuesta incluye el tratamiento de valores atípicos en múltiples series de tiempo del índice NDVI, la extracción de características y el uso de aprendizaje no supervisado robusto para la detección de patrones en las series temporales. Se estudian, en particular, el filtro de Hampel basado en el estimador MAD, y el algoritmo TCLUST como método de clustering robusto. El trabajo presenta los diferentes aspectos metodológicos junto con ejemplos con datos simulados. Finalmente, se aplica la metodología para realizar una predicción de la proporción de trigo cultivado en Argentina a escala departamental, para el año 2021. En el análisis realizado sobre un total de 220 departamentos, el error cuadrático ponderado por superficie obtenido con clustering no robusto para estimar las proporciones, comparado con las proporciones reales, fue de 7.2% rms . En contraste, al aplicar clustering robusto, este error se redujo a 5.9% rms, evidenciando una mejora sustancial en la precisión de las estimaciones. Como trabajo futuro, se propone extender esta metodología para predecir de manera más eficiente y viable las proporciones de otros cultivos de relevancia económica y alimentaria en el país, como la soja y el maíz.
Abstract:
This thesis investigates robust clustering methods and techniques for preprocessing time series with outliers and/or missing data. Additionally, it analyzes feature extraction techniques for time series. The motivation behind developing this methodology is to identify the area planted with different crops in Argentina, using time series of the NDVI vegetation index obtained from satellite images of the agricultural territory. The proposed methodology includes outlier treatment in multiple NDVI time series, feature extraction, and the use of robust unsupervised learning for pattern detection in time series. In particular, the Hampel filter based on the MAD estimator and the TCLUST algorithm as a robust clustering method are studied. The work presents various methodological aspects along with examples using simulated data. Finally, the methodology is applied to predict the proportion of wheat cultivated in Argentina at the departmental level for the year 2021. In the analysis conducted across a total of 220 departments, the surface-weighted mean square error obtained using non-robust clustering to estimate the proportions, compared to the actual proportions, was 7.2% rms. In contrast, applying robust clustering reduced this error to 5.9% rms, demonstrating a substantial improvement in the accuracy of the estimates. As future work, it is proposed to extend this methodology to predict more efficiently and viably the proportions of other crops of economic and food relevance in the country, such as soybeans and corn.
Citación:
---------- APA ----------
Castaño Cruz, Juan Sebastián. (2024). Métodos robustos para clustering de series de tiempo. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/seminario_nMAT001051_CastanoCruz
---------- CHICAGO ----------
Castaño Cruz, Juan Sebastián. "Métodos robustos para clustering de series de tiempo". Tesis de Grado, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2024.https://hdl.handle.net/20.500.12110/seminario_nMAT001051_CastanoCruz
Estadísticas:
Descargas mensuales
Total de descargas desde :
https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nMAT001051_CastanoCruz.pdf
Distrubución geográfica