Registro:
| Documento: | Tesis de Maestría |
| Título: | Estimación de sesgos en textos con pointwise mutual information (PMI) |
| Título alternativo: | Estimation of biases in texts with pointwise mutual information (PMI) |
| Autor: | Valentini, Francisco Tomás |
| Editor: | Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
| Lugar de trabajo: | Universidad Nacional del Sur - CONICET. Instituto de Ciencias e Ingeniería de la Computación (ICIC)
|
| Fecha de defensa: | 2025-08-28 |
| Fecha en portada: | 28 de agosto de 2025 |
| Grado Obtenido: | Maestría |
| Título Obtenido: | Magíster de la Universidad de Buenos Aires en el área de Explotación de Datos y Descubrimiento del Conocimiento |
| Departamento Docente: | Departamento de Computación |
| Director: | Altszyler Lemcovich, Edgar Jaim |
| Director Asistente: | Rosati, Germán Federico |
| Jurado: | Alonso Alemany, Laura; Teruel, Milagro; Bianchi, Bruno |
| Idioma: | Español |
| Formato: | PDF |
| Handle: |
https://hdl.handle.net/20.500.12110/tesis_n7839_Valentini |
| PDF: | https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7839_Valentini.pdf |
| Registro: | https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n7839_Valentini |
| Ubicación: | DMI 007839 |
| Derechos de Acceso: | Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Valentini, Francisco Tomás. (2025). Estimación de sesgos en textos con pointwise mutual information (PMI). (Tesis de Maestría. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7839_Valentini |
Resumen:
En los últimos años se ha extendido el uso de los word embeddings para medir sesgos y estereotipos sociales en textos. Las métricas basadas en word embeddings han demostrado su eficacia en la detección de una amplia variedad de sesgos pero carecen de transparencia e interpretabilidad. En esta tesis introducimos y analizamos una métrica alternativa basada en Pointwise Mutual Information (PMI) para medir sesgos en textos. Mostramos que esta métrica, a diferencia de las métricas basadas en word embeddings: (1) puede expresarse como una función de probabilidades condicionales, lo que proporciona una interpretación sencilla en términos de coocurrencias de palabras, y (2) permite estimar intervalos de confianza y la significación estadística de los resultados paramétricamente. Realizamos un conjunto de experimentos para comparar la métrica basada en PMI con las métricas basadas en word embeddings en tres dimensiones: estimación de la variabilidad, correlación con el juicio humano e interpretabilidad. Los resultados sirven para ilustrar las ventajas del método basado en PMI, así como también la diferencia fundamental en el tipo de asociaciones semánticas que capturan. El código usado para realizar esta tesis está disponible en https://github.com/ftvalentini/tesis-SesgoPMI.
Abstract:
In recent years, the use of word embeddings to measure social biases and stereotypes in texts has become widespread. Metrics based on word embeddings have been shown to be effective in detecting a wide variety of biases but lack transparency and interpretability. In this thesis we introduce and analyse an alternative metric based on Pointwise Mutual Information (PMI) to measure bias in texts. We show that this metric, unlike metrics based on word embeddings: (1) can be expressed as a conditional probability function, which provides a simple interpretation in terms of word co-occurrences, and (2) allows estimating confidence In recent years, the use of word embeddings to measure social biases and stereotypes in texts has become widespread. Metrics based on word embeddings have been shown to be effective in detecting a wide variety of biases but lack transparency and interpretability. In this thesis we introduce and analyse an alternative metric based on Pointwise Mutual Information (PMI) to measure bias in texts. We show that this metric, unlike metrics based on word embeddings: (1) can be expressed as a conditional probability function, which provides a simple interpretation in terms of word co-occurrences, and (2) allows estimating confidence intervals and the statistical significance of the results parametrically. We conducted a set of experiments to compare PMI-based metrics with metrics based on word embeddings along three dimensions: variability estimation, correlation with human judgement, and interpretability. The results serve to illustrate the advantages of the PMI-based method, as well as the fundamental difference in the type of semantic associations they capture. The code used for this thesis is available at https:// github.com/ftvalentini/tesis-SesgoPMI.
Citación:
---------- APA ----------
Valentini, Francisco Tomás. (2025). Estimación de sesgos en textos con pointwise mutual information (PMI). (Tesis de Maestría. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7839_Valentini
---------- CHICAGO ----------
Valentini, Francisco Tomás. "Estimación de sesgos en textos con pointwise mutual information (PMI)". Tesis de Maestría, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2025.https://hdl.handle.net/20.500.12110/tesis_n7839_Valentini
Estadísticas:
Descargas totales desde :
Descargas mensuales
https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7839_Valentini.pdf