Explorando las dinámicas de AI Safety vía debate

Ruzak, Emanuel Pablo

Navegar

Documento Últimos publicados Autor Año Título Obtenido - Año Departamento - Año Director y Director Asistente Jurado Consejero de Estudios Palabras Clave

Colección

Datos Estadísticas

Tesis de Grado

Ruzak, Emanuel Pablo. "Explorando las dinámicas de AI Safety vía debate" . (2024). Tesis de Grado, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.

Registro Resumen Abstract Citación Estadísticas

Registro:

Documento:	Tesis de Grado
Título:	Explorando las dinámicas de AI Safety vía debate
Título alternativo:	Exploring the dynamics of AI Safety via debate
Autor:	Ruzak, Emanuel Pablo
Editor:	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Publicación en la web:	2025-06-12
Fecha de defensa:	2024-12-11
Fecha en portada:	2024
Grado Obtenido:	Grado
Título Obtenido:	Licenciado en Ciencias de Datos
Departamento Docente:	Departamento de Computación
Director:	Abriola, Sergio Alejandro
Jurado:	Lanzarotti, Esteban Omar; Braberman, Víctor Adrián
Idioma:	Español
Palabras clave:	AI SAFETY; ALIGNMENT; MODELOS DE LENGUAJE; MODELOS DE IMAGENES; REINFORCEMENT LEARNINGAI SAFETY; ALIGNMENT; LANGUAGE MODELS; IMAGE MODELS; REINFORCEMENT LEARNING
Formato:	PDF
Handle:	http://hdl.handle.net/20.500.12110/seminario_nDAT000003_Ruzak
PDF:	https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nDAT000003_Ruzak.pdf
Registro:	https://bibliotecadigital.exactas.uba.ar/collection/seminario/document/seminario_nDAT000003_Ruzak
Ubicación:	Dep.DAT 000003
Derechos de Acceso:	Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Ruzak, Emanuel Pablo. (2024). Explorando las dinámicas de AI Safety vía debate. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de http://hdl.handle.net/20.500.12110/seminario_nDAT000003_Ruzak

Resumen:

El desarrollo de sistemas de inteligencia artificial (IA) capaces de comprender y ejecutar tareas complejas requiere que estos sistemas aprendan objetivos y preferencias humanas sofisticadas que no sabemos especificar formalmente. Además, fenómenos como reward hacking o malgeneralización son el resultado esperable de los métodos de entrenamiento actuales, incluso ante la presencia de buenas especificaciones. El debate, como se propone en el artículo AI safety vía debate, es una técnica prometedora de alineamiento que intenta entrenar sistemas de IA honestos, haciendo que produzcan argumentos a través de un juego de suma cero donde dos agentes argumentan sobre una pregunta o acción propuesta, y un juez humano evalúa la veracidad y utilidad de la información proporcionada. Este trabajo se centra en explorar empíricamente las dinámicas argumentativas entre agentes de IA y un juez (también implementado como otro sistema de IA). Para esto se llevaron a cabo experimentos donde se analiza la factibilidad de que agentes débiles den señales de supervisión para el entrenamiento de agentes más fuertes utilizando el método del debate. En uno de los experimentos se utilizó un clasificador de imágenes, en el que dos agentes, modelados utilizando MCTS (Monte-Carlo Tree Search), seleccionaron píxeles en cada turno con el objetivo de obtener una clasificación como número impar o par respectivamente. En otro experimento se utilizaron modelos de lenguaje grandes (LLMs) donde el debate consistió en que dos agentes proporcionaran argumentos en turnos utilizando pasajes de texto. Un agente intenta convencer al juez, que consiste en otro LLM, de una respuesta correcta y el otro de una respuesta incorrecta a una pregunta de opción múltiple, utilizando una versión modificada del dataset QuALITY.

Abstract:

The development of Artificial Intelligence (AI) systems capable of understanding and executing complex tasks requires that these systems learn sophisticated human goals and preferences that we do not know how to specify formally. Additionally, phenomena like reward hacking or misgeneralization are predictable outcomes of current training methods, even in the presence of good specifications. Debate, as proposed in the article AI Safety via Debate, is a promising alignment technique that seeks to train honest AI systems by having them produce arguments through a zero-sum game where two agents argue over a proposed question or action, and a human judge evaluates the truthfulness and usefulness of the information provided. This work focuses on empirically exploring the argumentative dynamics between AI agents and a judge (also implemented as another AI system). To this end, experiments were conducted to analyze the feasibility of weak agents providing supervisory signals for training stronger agents using the debate method. In one experiment, an image classifier was used, where two agents, modeled using Monte-Carlo Tree Search (MCTS), selected pixels each turn with the goal of obtaining a classification as an odd or even number, respectively. In another experiment, large language models (LLMs) were used in a debate where two agents took turns providing arguments using text passages. One agent tried to convince the judge, consisting of another LLM, of a correct answer, while the other argued for an incorrect answer to a multiple-choice question, using a modified version of the QuALITY dataset.

Citación:

---------- APA ----------

Ruzak, Emanuel Pablo. (2024). Explorando las dinámicas de AI Safety vía debate. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/seminario_nDAT000003_Ruzak

---------- CHICAGO ----------

Ruzak, Emanuel Pablo. "Explorando las dinámicas de AI Safety vía debate". Tesis de Grado, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2024.https://hdl.handle.net/20.500.12110/seminario_nDAT000003_Ruzak

Estadísticas:

Descargas mensuales

Total de descargas desde :

https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nDAT000003_Ruzak.pdf