Registro:
Documento: | Tesis de Grado |
Título: | Explorando las dinámicas de AI Safety vía debate |
Título alternativo: | Exploring the dynamics of AI Safety via debate |
Autor: | Ruzak, Emanuel Pablo |
Editor: | Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
Publicación en la web: | 2025-06-12 |
Fecha de defensa: | 2024-12-11 |
Fecha en portada: | 2024 |
Grado Obtenido: | Grado |
Título Obtenido: | Licenciado en Ciencias de Datos |
Departamento Docente: | Departamento de Computación |
Director: | Abriola, Sergio Alejandro |
Jurado: | Lanzarotti, Esteban Omar; Braberman, Víctor Adrián |
Idioma: | Español |
Palabras clave: | AI SAFETY; ALIGNMENT; MODELOS DE LENGUAJE; MODELOS DE IMAGENES; REINFORCEMENT LEARNINGAI SAFETY; ALIGNMENT; LANGUAGE MODELS; IMAGE MODELS; REINFORCEMENT LEARNING |
Formato: | PDF |
Handle: |
http://hdl.handle.net/20.500.12110/seminario_nDAT000003_Ruzak |
PDF: | https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nDAT000003_Ruzak.pdf |
Registro: | https://bibliotecadigital.exactas.uba.ar/collection/seminario/document/seminario_nDAT000003_Ruzak |
Ubicación: | Dep.DAT 000003 |
Derechos de Acceso: | Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Ruzak, Emanuel Pablo. (2024). Explorando las dinámicas de AI Safety vía debate. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de http://hdl.handle.net/20.500.12110/seminario_nDAT000003_Ruzak |
Resumen:
El desarrollo de sistemas de inteligencia artificial (IA) capaces de comprender y ejecutar tareas complejas requiere que estos sistemas aprendan objetivos y preferencias humanas sofisticadas que no sabemos especificar formalmente. Además, fenómenos como reward hacking o malgeneralización son el resultado esperable de los métodos de entrenamiento actuales, incluso ante la presencia de buenas especificaciones. El debate, como se propone en el artículo AI safety vía debate, es una técnica prometedora de alineamiento que intenta entrenar sistemas de IA honestos, haciendo que produzcan argumentos a través de un juego de suma cero donde dos agentes argumentan sobre una pregunta o acción propuesta, y un juez humano evalúa la veracidad y utilidad de la información proporcionada. Este trabajo se centra en explorar empíricamente las dinámicas argumentativas entre agentes de IA y un juez (también implementado como otro sistema de IA). Para esto se llevaron a cabo experimentos donde se analiza la factibilidad de que agentes débiles den señales de supervisión para el entrenamiento de agentes más fuertes utilizando el método del debate. En uno de los experimentos se utilizó un clasificador de imágenes, en el que dos agentes, modelados utilizando MCTS (Monte-Carlo Tree Search), seleccionaron píxeles en cada turno con el objetivo de obtener una clasificación como número impar o par respectivamente. En otro experimento se utilizaron modelos de lenguaje grandes (LLMs) donde el debate consistió en que dos agentes proporcionaran argumentos en turnos utilizando pasajes de texto. Un agente intenta convencer al juez, que consiste en otro LLM, de una respuesta correcta y el otro de una respuesta incorrecta a una pregunta de opción múltiple, utilizando una versión modificada del dataset QuALITY.
Abstract:
The development of Artificial Intelligence (AI) systems capable of understanding and executing complex tasks requires that these systems learn sophisticated human goals and preferences that we do not know how to specify formally. Additionally, phenomena like reward hacking or misgeneralization are predictable outcomes of current training methods, even in the presence of good specifications. Debate, as proposed in the article AI Safety via Debate, is a promising alignment technique that seeks to train honest AI systems by having them produce arguments through a zero-sum game where two agents argue over a proposed question or action, and a human judge evaluates the truthfulness and usefulness of the information provided. This work focuses on empirically exploring the argumentative dynamics between AI agents and a judge (also implemented as another AI system). To this end, experiments were conducted to analyze the feasibility of weak agents providing supervisory signals for training stronger agents using the debate method. In one experiment, an image classifier was used, where two agents, modeled using Monte-Carlo Tree Search (MCTS), selected pixels each turn with the goal of obtaining a classification as an odd or even number, respectively. In another experiment, large language models (LLMs) were used in a debate where two agents took turns providing arguments using text passages. One agent tried to convince the judge, consisting of another LLM, of a correct answer, while the other argued for an incorrect answer to a multiple-choice question, using a modified version of the QuALITY dataset.
Citación:
---------- APA ----------
Ruzak, Emanuel Pablo. (2024). Explorando las dinámicas de AI Safety vía debate. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/seminario_nDAT000003_Ruzak
---------- CHICAGO ----------
Ruzak, Emanuel Pablo. "Explorando las dinámicas de AI Safety vía debate". Tesis de Grado, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2024.https://hdl.handle.net/20.500.12110/seminario_nDAT000003_Ruzak
Estadísticas:
Descargas mensuales
Total de descargas desde :
https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nDAT000003_Ruzak.pdf
Distrubución geográfica