Generación automática de contra-narrativas utilizando información argumentativa para combatir mensajes de odio

Furman, Damián Ariel

Registro:

Documento:	Tesis Doctoral
Título:	Generación automática de contra-narrativas utilizando información argumentativa para combatir mensajes de odio
Título alternativo:	Automatic generation of counter-narratives using argumentative information to fight hate speech online
Autor:	Furman, Damián Ariel
Editor:	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Lugar de trabajo:	Universidad de Buenos Aires - CONICET. Instituto de Investigación en Ciencias de la Computación (ICC)
Publicación en la Web:	2026-06-02
Fecha de defensa:	2025-06-04
Fecha en portada:	2024
Grado Obtenido:	Doctorado
Título Obtenido:	Doctor de la Universidad de Buenos Aires en el área de Ciencias de la Computación
Departamento Docente:	Departamento de Computación
Director:	Martínez, María Vanina
Director Asistente:	Alonso Alemany, Laura
Consejero:	Schapachnik, Fernando Pablo
Jurado:	Soto, Axel Juan; Chiruzzo Alonso, Luis Hernán; Pérez, Diana Inés
Idioma:	Español
Palabras clave:	CONTRA-NARRATIVAS; ARGUMENTACION; DISCURSO DE ODIO; GRANDES MODELOS DE LENGUAJE; EVALUACION DE TEXTO GENERADOCOUNTER-NARRATIVES; ARGUMENTATION; HATE SPEECH; LARGE LANGUAGE MODELS; EVALUATION OF OPEN TEXT GENERATION
Formato:	PDF
Handle:	https://hdl.handle.net/20.500.12110/tesis_n7754_Furman
PDF:	https://bibliotecadigital.exactas.uba.ar/download/tesis/tesis_n7754_Furman.pdf
Registro:	https://bibliotecadigital.exactas.uba.ar/collection/tesis/document/tesis_n7754_Furman
Ubicación:	COM 007754
Derechos de Acceso:	Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Furman, Damián Ariel. (2025). Generación automática de contra-narrativas utilizando información argumentativa para combatir mensajes de odio. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7754_Furman

Resumen:

En el siguiente trabajo elaboramos un dataset de tweets de odio anotados con componentes argumentativos generales y específicos del dominio y con tipos distintos de contra-narrativas definidas según estrategias basadas en estos componentes, con el objetivo de utilizarlos para mejorar el rendimiento de distintos modelos de lenguaje en la tarea de generación automática de contra-narrativas para combatir la xenofobia. Mostramos que se puede obtener un nivel aceptable de acuerdo entre anotadores, a pesar de la naturaleza subjetiva de la tarea, al utilizar un manual de anotación definido a través de un proceso iterativo que involucra a los anotadores y que los componentes argumentativos propuestos pueden ser identificados, luego, de manera automática con un rendimiento satisfactorio. Estudiamos y desarrollamos las falencias que tienen las métricas utilizadas para realizar evaluaciones automáticas de generación de texto en la tarea de generación de contra-narrativas, tanto aquellas basadas en superposición de n-gramas como aquellas basadas en comparación de embeddings y proponemos categorías de evaluación que permiten definir una metodología para asignar puntajes numéricos a las contra-narrativas a la vez que se explicitan las características deseables que deben tener y definen qué significa que una contra-narrativa sea aceptable o buena. Con esta herramienta realizamos una evaluación con anotadores humanos a través de la cual concluimos que para la familia de modelos Flan-T5 el factor que aumenta en mayor medida el rendimiento de los modelos es el ajuste fino a un conjunto de datos de calidad, en comparación a aumentar el tamaño del modelo o incluso a utilizar la información argumentativa. La información argumentativa no mejora el rendimiento de los modelos de manera significativa con la excepción de aquellos que se ajustan utilizando un solo tipo de contra-narrativa y la información argumentativa en la que basan su estrategia. Finalmente, utilizamos la evaluación humana para entrenar modelos para realizar evaluaciones automáticas y evaluamos así la generación realizada por distintos Grandes Modelos de Lenguaje con múltiples configuraciones de generación.

Abstract:

In the following work, we develop a dataset of hate tweets annotated with general and domain-specific argumentative components, as well as different types of counter-narratives defined based on strategies derived from these components. The goal is to use them to improve the performance of various language models in the task of automatic counter-narrative generation to fight online xenophobia. We show that it is possible to achieve an acceptable level of inter-annotator agreement, despite the subjective nature of the task, by using an annotation manual defined through an iterative process involving the annotators. Furthermore, we show that the proposed argumentative components can subsequently be identified automatically with satisfactory performance. We study and address the shortcomings of metrics used for automatic evaluations of text generation in the counter-narrative generation task, including those based on n-gram overlap and embedding comparisons. We propose evaluation categories that define a methodology for assigning numerical scores to counter-narratives, explicitly stating the desirable characteristics they should possess and defining what it means for a counter-narrative to be acceptable or good. Using this tool, we conduct an evaluation with human annotators through which we conclude that, for the Flan-T5 family of models, the factor that most significantly improves model performance is fine-tuning on a high-quality dataset, compared to increasing model size or even using argumentative information. Argumentative information does not significantly improve model performance except in cases where models are fine-tuned using a single type of counter-narrative and the argumentative information underpinning its strategy. Finally, we use human evaluations to train models for conducting automated evaluations and use them to assess the generations produced by various Large Language Models under multiple generation configurations.

Citación:

---------- APA ----------

Furman, Damián Ariel. (2025). Generación automática de contra-narrativas utilizando información argumentativa para combatir mensajes de odio. (Tesis Doctoral. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/tesis_n7754_Furman

---------- CHICAGO ----------

Furman, Damián Ariel. "Generación automática de contra-narrativas utilizando información argumentativa para combatir mensajes de odio". Tesis Doctoral, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2025.https://hdl.handle.net/20.500.12110/tesis_n7754_Furman

Estadísticas:

Descargas totales desde :

Navegar

Colección

Tesis Doctoral