Registro:
| Documento: | Tesis de Grado |
| Título: | Meta aprendizaje de la señal de entrenamiento para entornos con refuerzos dispersos |
| Autor: | Pappalardo, Octavio |
| Editor: | Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
| Lugar de trabajo: | Universidad Nacional de Hurlingham
|
| Publicación en la web: | 2025-08-04 |
| Fecha de defensa: | 2024-09-09 |
| Fecha en portada: | Julio 2024 |
| Grado Obtenido: | Grado |
| Título Obtenido: | Licenciado en Ciencias Físicas |
| Departamento Docente: | Departamento de Física |
| Director: | Santos, Juan Miguel |
| Director Asistente: | Ramele, Rodrigo |
| Idioma: | Español |
| Formato: | PDF |
| Handle: |
http://hdl.handle.net/20.500.12110/seminario_nFIS000216_Pappalardo |
| PDF: | https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nFIS000216_Pappalardo.pdf |
| Registro: | https://bibliotecadigital.exactas.uba.ar/collection/seminario/document/seminario_nFIS000216_Pappalardo |
| Ubicación: | Dep.FIS 000216 |
| Derechos de Acceso: | Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Pappalardo, Octavio. (2024). Meta aprendizaje de la señal de entrenamiento para entornos con refuerzos dispersos. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de http://hdl.handle.net/20.500.12110/seminario_nFIS000216_Pappalardo |
Resumen:
El aprendizaje por refuerzo ha encontrado muchos éxitos en la última década. Sin embargo, aún quedan muchos problemas por resolver para que pueda ser aplicado en más dominios. Algunas de las principales líneas donde se busca mejorarlo son las que corresponden a su pobre eficiencia de datos, su capacidad de generalización y su debilidad en aprender con problemas donde los refuerzos son dispersos; para los cuales generalmente se requiere el diseño humano de un refuerzo denso. El meta aprendizaje ha surgido como una posibilidad para ayudar a lidiar con estas cuestiones al aprender partes del algoritmo de RL para que cumpla con características deseadas. Por otro lado, el uso de refuerzos intrínsecos es ampliamente estudiado en la búsqueda de mejorar las propiedades de exploración de los algoritmos. En este trabajo se estudia como el meta aprendizaje puede mejorar la calidad de la señal de entrenamiento recibida por agentes de RL. En particular, el foco principal está puesto en el meta aprendizaje de refuerzos intrínsecos sin el uso de meta gradientes. Este enfoque es comparado con métodos de RL estándar, con métodos establecidos de meta RL y con el meta aprendizaje de una función de ventaja. Se analizan las ventajas y desventajas que presentan cada uno de ellos. Los algoritmos desarrollados fueron evaluados en distribuciones de tareas de control continuo con variaciones paramétricas y no paramétricas, dónde en las tareas de evaluación solo hay acceso a recompensas dispersas.
Citación:
---------- APA ----------
Pappalardo, Octavio. (2024). Meta aprendizaje de la señal de entrenamiento para entornos con refuerzos dispersos. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/seminario_nFIS000216_Pappalardo
---------- CHICAGO ----------
Pappalardo, Octavio. "Meta aprendizaje de la señal de entrenamiento para entornos con refuerzos dispersos". Tesis de Grado, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2024.https://hdl.handle.net/20.500.12110/seminario_nFIS000216_Pappalardo
Estadísticas:
Descargas mensuales
Total de descargas desde :
https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nFIS000216_Pappalardo.pdf
Distrubución geográfica