Estimación de sesgos en textos con pointwise mutual information (PMI)

Valentini, Francisco Tomás

Navegar

Documento Últimos publicados Autor Año Título Obtenido - Año Departamento - Año Maestría y Doctorado Director y Director Asistente Jurado Consejero de Estudios

Colección

Datos Estadísticas

Tesis de Maestría

Valentini, Francisco Tomás. "Estimación de sesgos en textos con pointwise mutual information (PMI)" . (2025). Tesis de Maestría, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.

Registro Resumen Abstract Citación Estadísticas

Registro:

Documento:	Tesis de Maestría
Título:	Estimación de sesgos en textos con pointwise mutual information (PMI)
Título alternativo:	Estimation of biases in texts with pointwise mutual information (PMI)
Autor:	Valentini, Francisco Tomás
Editor:	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Lugar de trabajo:	Universidad Nacional del Sur - CONICET. Instituto de Ciencias e Ingeniería de la Computación (ICIC)
Fecha de defensa:	2025-08-28
Fecha en portada:	28 de agosto de 2025
Grado Obtenido:	Maestría
Título Obtenido:	Magíster de la Universidad de Buenos Aires en el área de Explotación de Datos y Descubrimiento del Conocimiento
Departamento Docente:	Departamento de Computación
Director:	Altszyler Lemcovich, Edgar Jaim
Director Asistente:	Rosati, Germán Federico
Jurado:	Alonso Alemany, Laura; Teruel, Milagro; Bianchi, Bruno
Idioma:	Español
Formato:	PDF
Handle:	https://hdl.handle.net/20.500.12110/tesis_n7839_Valentini
PDF:	https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7839_Valentini.pdf
Registro:	https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n7839_Valentini
Ubicación:	DMI 007839
Derechos de Acceso:	Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Valentini, Francisco Tomás. (2025). Estimación de sesgos en textos con pointwise mutual information (PMI). (Tesis de Maestría. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7839_Valentini

Resumen:

En los últimos años se ha extendido el uso de los word embeddings para medir sesgos y estereotipos sociales en textos. Las métricas basadas en word embeddings han demostrado su eficacia en la detección de una amplia variedad de sesgos pero carecen de transparencia e interpretabilidad. En esta tesis introducimos y analizamos una métrica alternativa basada en Pointwise Mutual Information (PMI) para medir sesgos en textos. Mostramos que esta métrica, a diferencia de las métricas basadas en word embeddings: (1) puede expresarse como una función de probabilidades condicionales, lo que proporciona una interpretación sencilla en términos de coocurrencias de palabras, y (2) permite estimar intervalos de confianza y la significación estadística de los resultados paramétricamente. Realizamos un conjunto de experimentos para comparar la métrica basada en PMI con las métricas basadas en word embeddings en tres dimensiones: estimación de la variabilidad, correlación con el juicio humano e interpretabilidad. Los resultados sirven para ilustrar las ventajas del método basado en PMI, así como también la diferencia fundamental en el tipo de asociaciones semánticas que capturan. El código usado para realizar esta tesis está disponible en https://github.com/ftvalentini/tesis-SesgoPMI.

Abstract:

In recent years, the use of word embeddings to measure social biases and stereotypes in texts has become widespread. Metrics based on word embeddings have been shown to be effective in detecting a wide variety of biases but lack transparency and interpretability. In this thesis we introduce and analyse an alternative metric based on Pointwise Mutual Information (PMI) to measure bias in texts. We show that this metric, unlike metrics based on word embeddings: (1) can be expressed as a conditional probability function, which provides a simple interpretation in terms of word co-occurrences, and (2) allows estimating confidence In recent years, the use of word embeddings to measure social biases and stereotypes in texts has become widespread. Metrics based on word embeddings have been shown to be effective in detecting a wide variety of biases but lack transparency and interpretability. In this thesis we introduce and analyse an alternative metric based on Pointwise Mutual Information (PMI) to measure bias in texts. We show that this metric, unlike metrics based on word embeddings: (1) can be expressed as a conditional probability function, which provides a simple interpretation in terms of word co-occurrences, and (2) allows estimating confidence intervals and the statistical significance of the results parametrically. We conducted a set of experiments to compare PMI-based metrics with metrics based on word embeddings along three dimensions: variability estimation, correlation with human judgement, and interpretability. The results serve to illustrate the advantages of the PMI-based method, as well as the fundamental difference in the type of semantic associations they capture. The code used for this thesis is available at https:// github.com/ftvalentini/tesis-SesgoPMI.

Citación:

---------- APA ----------

Valentini, Francisco Tomás. (2025). Estimación de sesgos en textos con pointwise mutual information (PMI). (Tesis de Maestría. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7839_Valentini

---------- CHICAGO ----------

Valentini, Francisco Tomás. "Estimación de sesgos en textos con pointwise mutual information (PMI)". Tesis de Maestría, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2025.https://hdl.handle.net/20.500.12110/tesis_n7839_Valentini

Estadísticas:

Descargas totales desde :