Registro:
Documento: | Tesis Doctoral |
Título: | Modelos para el análisis de la polarización a través de PLN |
Título alternativo: | Models for the analysis of polarization through NLP |
Autor: | Ortiz de Zárate, Juan Manuel |
Editor: | Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
Fecha de defensa: | 2024-08-09 |
Fecha en portada: | 2023 |
Grado Obtenido: | Doctorado |
Título Obtenido: | Doctor de la Universidad de Buenos Aires en el área de Ciencias de la Computación |
Departamento Docente: | Departamento de Computación |
Director: | Feuerstein, Esteban Zindel |
Consejero: | Fernández Slezak, Diego |
Jurado: | Diuk Wasser, Carlos Gregorio; Rosati, Germán Federico; Maguitman, Ana Gabriela |
Idioma: | Español |
Palabras clave: | POLARIZACION; PROCESAMIENTO DEL LENGUAJE NATURAL; REDES SOCIALES; PLN SOCIALPOLARIZATION; NATURAL LANGUAGE PROCESSING; SOCIAL NETWORKS; SOCIAL NLP |
Formato: | PDF |
Handle: |
http://hdl.handle.net/20.500.12110/tesis_n7594_OrtizdeZarate |
PDF: | https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7594_OrtizdeZarate.pdf |
Registro: | https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n7594_OrtizdeZarate |
Ubicación: | COM 007594 |
Derechos de Acceso: | Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Ortiz de Zárate, Juan Manuel. (2024). Modelos para el análisis de la polarización a través de PLN. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales). Recuperado de http://hdl.handle.net/20.500.12110/tesis_n7594_OrtizdeZarate |
Resumen:
La polarización, entendida como la intensificación de contrastes ideológicos y sociales, ha emergido con fuerza como un tema central de preocupación en el ámbito político y académico desde el comienzo del siglo XXI. Varios países han evidenciado este fenómeno, especialmente con el ascenso de regímenes post neoliberales. Estas divisiones, en algunos casos, han despertado inquietudes sobre una posible erosión de la democracia, ya que se teme que algunas facciones puedan optar por estructuras no democráticas en lugar de ceder el poder a un grupo rival. Por otro lado, diversos trabajos de la literatura señalan una posible influencia de las redes sociales en la polarización. Estas plataformas, mediante su diseño y algoritmos de recomendación, podrían crear “cámaras de eco”, donde las opiniones se refuerzan mutuamente, lo que podría potenciar la división y el aislamiento ideológico. Resultando en un potencial aumento de conflictos y malentendidos entre diferentes grupos sociales y políticos. A su vez, otros estudios indican la dificultad de poder hacer este análisis causal al mismo tiempo que sugieren que los motivos de la polarización podrían ser multicausales o incluso ajenos a las redes sociales. Por ello, es necesario contar con nuevas herramientas para analizar mejor este fenómeno complejo y aprovechar la masividad de datos digitales que estas plataformas nos brindan. Los avances recientes en el procesamiento del lenguaje natural (PLN), combinados con la digitalización de las discusiones a través de redes sociales, ofrecen un panorama prometedor para comprender y abordar la polarización desde una perspectiva computacional. Estas herramientas y técnicas avanzadas permiten un análisis más profundo de las conversaciones y discusiones, además nos brindan la oportunidad de diseñar intervenciones más informadas y efectivas, con el objetivo final de promover un mayor entendimiento y diálogo en nuestra sociedad contemporánea. En esta tesis, presento técnicas, modelos y herramientas innovadoras para analizar textualmente la polarización. Introduzco dos técnicas II únicas para cuantificar la polarización en discusiones basadas en el contenido de los posteos y las interacciones de los usuarios. Estas técnicas demuestran una eficiencia y precisión superiores a los métodos previos [83]. También, las aplico en un estudio comparativo entre EEUU y Argentina 5.1, para evaluar su efectividad en diferentes contextos culturales y políticos. Sin embargo, también existen usuarios que, aunque se encuentran en contextos polarizados, no se alinean estrictamente con ninguno de los principales grupos y actúan como “puentes”de entendimiento. Aplicando variantes de las técnicas de cuantificación sobre focus groups 7, identifico que estos usuarios alternan posturas según el tema y, basándome en un análisis cualitativo realizado junto a un grupo de sociólogos, determinamos que buscan una perspectiva más reflexiva y pluralista sobre los temas. Uno de los sectores más relevante en los contextos de polarización está dado por la clase política. Es por eso que también analizo 7.7 el comportamiento de los políticos en las principales redes sociales, destacando las diferencias de interacción y discusión entre Oficialismo y Oposición en Argentina, cómo utilizan distintas estrategias de comunicación dependiendo de la red social y evidenciando la relación entre toxicidad y repercusión en plataformas como Twitter. Si bien la polarización se basa en dos grandes grupos antagónicos, dentro de cada polo, existen matices ideológicos. Para analizar con mas precisión esto, desarrollo una técnica 8.4 para asignar puntajes a textos basándose en su inclinación ideológica. Encuentro una alta correlación entre nuestros resultados y los obtenidos por métodos previos [204] donde se utilizaron las interacciones. Además comparo la eficacia de dos tipos de embeddings, utilizando Fasttext y un modelos de lenguaje de gran tamaño (LLM), donde el último demostró ser superior. Nuestro método, al centrarse en el texto, ofrece una flexibilidad significativamente mayor al de las interacciones, permitiendo evaluar cualquier conjunto textual en varios espectros ideológicos, como posturas sobre el aborto o economía. Esta técnica aporta una nueva dimensión al análisis de polarización. Los LLMs están ganando terreno en aplicaciones, a menudo proporcionando opiniones subjetivas en sus respuestas, como se observa en ejemplos de DeepMind y Anthropic. En el último capítulo de mi tesis IV, utilizando la encuesta Latinobarómetro 2020 sobre la población argentina, examino tres LLMs (GPT, Cohere, Bard) y su alineación con las respuestas de la encuesta. Descubro que los LLMs reflejan opiniones del sector más masculinizado y politizado de Argentina, con Bard y GPT inclinándose hacia la población educada y adulta, y GPT mostrando afinidad con posturas de derecha. Estos hallazgos enfatizan la necesidad de ser conscientes de las inclinaciones de estos modelos al considerar sus opiniones en temas controvertidos o subjetivos. En esta tesis, presento técnicas computacionales innovadoras para analizar la polarización, colaborando estrechamente con expertos en ciencias sociales para validar nuestras herramientas. Concluyo que la polarización está fuertemente ligada al lenguaje, permitiéndonos cuantificarla y tomar medidas para abordarla. Mientras que algunos actores mantienen posturas ambivalentes, otros, como los políticos, adaptan sus estrategias según el público. También destacamos que las inteligencias artificiales, como los chatbots, presentan inclinaciones en debates contemporáneos, lo que subraya la necesidad de estar informados sobre sus posiciones.
Abstract:
Polarization, understood as the intensification of ideological and social contrasts, has forcefully emerged as a central concern in the political and academic spheres since the beginning of the 21st century. Various countries have witnessed this phenomenon, especially with the rise of post-neoliberal regimes. In some cases, these divisions have raised concerns about a potential erosion of democracy, as it is feared that some factions may opt for non-democratic structures rather than cede power to a rival group. On the other hand, many works in the literature point out a possible influence of social networks on polarization. These platforms, through their design and recommendation algorithms, could create “echo chambers”, where opinions reinforce each other, which could enhance division and ideological isolation. Resulting in a potential increase in conflicts and misunderstandings between different social and political groups. At the same time, other studies indicate the difficulty of being able to do this causal analysis while suggesting that the reasons for polarization could be multi-causal or even unrelated to social networks. Therefore, it is necessary to have new tools to better analyze this complex phenomenon and take advantage of the massive digital data that these platforms provide us. Recent advances in natural language processing (NLP), combined with the digitization of discussions through social networks, offer a promising outlook for understanding and addressing polarization from a computational perspective. These advanced tools and techniques allow for a deeper analysis of conversations and discussions, and also give us the opportunity to design more informed and effective interventions, with the ultimate goal of promoting greater understanding and dialogue in our contemporary society. In this thesis, I present innovative techniques, models, and tools for textually analyzing polarization. I introduce two unique techniques II for quantifying polarization in discussions based on the content of posts and user interactions, demonstrating efficiency and precision superior to previous methods [83] and applying them in a comparative study between the USA and Argentina 5.1. I also analyze the influence of polarization on the specific jargon of groups, developing a clustering method to identify and classify these groups and proposing strategies to adapt the model to the evolution of language. However, there are also users who, although they exist in polarized contexts, do not strictly align with any of the main groups and act as ’bridges’ of understanding. Applying variants of the quantification techniques to focus groups, I identify 7 that these users alternate stances depending on the topic and, based on a qualitative analysis with sociologists, we determine that they seek a more reflective and pluralistic perspective on issues. One of the most relevant sectors in contexts of polarization is politicians. That’s why I also analyze the behavior of politicians on major social networks 7.7, highlighting the differences in interaction and discussion between the Ruling Party and the Opposition in Argentina, how they use different communication strategies depending on the social network, and demonstrating the relationship between toxicity and impact on platforms like Twitter. Although polarization is based on two major antagonistic groups, within each pole, there are ideological nuances. To analyze this more precisely, I developed a technique for assigning scores to texts based on their ideological inclination 8.4. I found a high correlation between our results and those obtained by previous methods [204] where interactions were used. In addition, I compare the efficacy of two types of embeddings, using Fasttext and an LLM, with the latter proving to be superior. Our method, by focusing on the text, offers significantly greater flexibility than interactions, allowing the evaluation of any textual set on various ideological spectrums, such as stances on abortion or the economy. This technique adds a new dimension to the analysis of polarization. Large language models (LLMs) are gaining ground in applications, often providing subjective opinions in their responses, as observed in examples from DeepMind and Anthropic. In the last chapter of my thesis IV, using the Latinobarómetro 2020 survey on the Argentine population, I examined three LLMs (GPT, Cohere, Bard) and their alignment with the survey responses. I found that the LLMs reflect opinions from the more masculinized and politicized sector of Argentina, with Bard and GPT leaning towards the educated and adult population, and GPT showing affinity with right-wing stances. These findings emphasize the need to be aware of these models’ inclinations when considering their opinions on controversial or subjective topics. In this thesis, I have presented innovative computational techniques for analyzing polarization, working closely with social science experts to validate our tools. I concluded that polarization is strongly linked to language, allowing us to quantify it and take measures to address it. While some actors maintain ambivalent stances, others, such as politicians, adapt their strategies according to the audience. We also highlight that artificial intelligence, such as chatbots, present inclinations in contemporary debates, underscoring the need to be informed about their positions.
Citación:
---------- APA ----------
Ortiz de Zárate, Juan Manuel. (2024). Modelos para el análisis de la polarización a través de PLN. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7594_OrtizdeZarate
---------- CHICAGO ----------
Ortiz de Zárate, Juan Manuel. "Modelos para el análisis de la polarización a través de PLN". Tesis Doctoral, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2024.https://hdl.handle.net/20.500.12110/tesis_n7594_OrtizdeZarate
Estadísticas:
Descargas totales desde :
Descargas mensuales
https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7594_OrtizdeZarate.pdf