Resumen:
Obtener y procesar datos demográficos y sociológicos fueron uno de los procesos más importantes para entender fenómenos que afectan a toda la población desde por lo menos el Siglo XVII [Fri06], y encontrar formas simples e intuitivas de visualizarlos tiene un gran impacto en nuestra manera de entender los datos [Min44, Sno55]. Formas comunes de obtener datos cuantitativos de estratificación económica usualmente involucran investigación de archivos o encuestas sociales [Bul77], y dependen de métodos estadísticos. Las operadoras de telecomunicaciones (“telcos”) tienen acceso a una gran cantidad de información sobre las comunicaciones y hábitos de sus usuarios [Huu03], pero la habilidad de guardar y procesar esos datos ha dado grandes pasos en los últimos años gracias a nuevas y más poderosas computadoras y técnicas de minería de datos. Lo mismo puede decirse sobre la información sociológica y económica contenida por bancos y tarjetas de crédito, y por la relación entre estas dos fuentes de datos. La minería de datos de telcos a gran escala es un área relativamente nueva que se usa principalmente para aplicaciones internas [HAK+02], pero la gran cantidad de información sociológica es de gran interés para temas académicos relacionados a la sociología. Esta tesis se basa en métodos usaros por Óskarsdottir et al. [ÓBV+16] y Singh et al. [SFLP13], además de una fuente de información de una telco y de un banco grande para encontrar que la distribución de ingresos de los usuarios sigue de manera cercana (pero no exacta) la distribución de ingresos de la población en general. Hay una fuerte homofilia entre los ingresos de contactos en la telco, que se usa junto con la distribución desigual de dinero en la población para crear una metodología, basada en estadística bayesiana, para inferir el nivel socioeconómico de un gran subconjunto de usuarios en la red sin información bancaria con AUC = 0.746. El método bayesiano es luego comparado con otros métodos basados en aprendizaje automático supervisado para probar que, aunque toma menos información de entrada, es un mejor predictor de características sociales en este tipo particular de red.
Abstract:
Obtaining and processing demographical and sociological data have been some of the most important processes for understanding population-wide phenomena since at least 17th century [Fri06], and finding simple and intuitive ways of visualizing them has a big impact in our ways of understanding the data [Min44, Sno55]. Common ways of obtaining useful qualitative data on socioeconomic stratification usually involved archival research or social surveys [Bul77], and rely on statistical methods. Telecommunication operators (“telcos”) have access to a wealth of information about their users’ communications and habits [Huu03], but the ability to store and process that data has taken large strides in the last few years thanks to new and more powerful computers and data mining techniques. The same can be said for sociological and economic information owned by banks and credit cards, and the relation between these two data sources. Large scale data mining of data from the telecommunications industry is a relatively new area that’s been so far mostly used for internal applications [HAK+02], but the gigantic wealth of real-time sociological data has been of interest for academic purposes related to sociology. This thesis builds on methods used by Óskarsdottir et al. [ÓBV+16] and Singh et al. [SFLP13], along with a large dataset of information for a certain telco and a large bank to find that the income distribution of the users follows closely (but not exactly) the income distribution of the whole population. We have observed a strong homophily between the incomes of contacts in the telco, which along with the uneven distribution of wealth in the population is leveraged to create a methodology, grounded in Bayesian statistics, to infer socioeconomic level of a large subset of users in the network without banking information which is very accurate at AUC = 0.746. The Bayesian method is later compared to several other methods based on supervised machine learning to prove that, even though it uses less input information, it is a better predictor of social features in this particular kind of network.
Citación:
---------- APA ----------
Fixman, Martín. (2018). Comparative study of methods for the inference of socioeconomic status in a communications graph. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/seminario_nCOM000476_Fixman
---------- CHICAGO ----------
Fixman, Martín. "Comparative study of methods for the inference of socioeconomic status in a communications graph". Tesis de Grado, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2018.https://hdl.handle.net/20.500.12110/seminario_nCOM000476_Fixman
Estadísticas:
Descargas mensuales
Total de descargas desde :
https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000476_Fixman.pdf
Distrubución geográfica