Registro:
| Documento: | Tesis de Grado |
| Título: | Aprendizaje por refuerzo en robots autónomos para el problema de seguimiento de objetivos móviles y su aplicación en formaciones |
| Autor: | Bendersky, Diego Ariel |
| Editor: | Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
| Publicación en la web: | 2025-06-12 |
| Fecha de defensa: | 2003 |
| Fecha en portada: | 2003 |
| Grado Obtenido: | Grado |
| Título Obtenido: | Licenciado en Ciencias de la Computación |
| Departamento Docente: | Departamento de Computación |
| Director: | Santos, Juan Miguel |
| Idioma: | Español |
| Formato: | PDF |
| Handle: |
http://hdl.handle.net/20.500.12110/seminario_nCOM000792_Bendersky |
| PDF: | https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000792_Bendersky.pdf |
| Registro: | https://bibliotecadigital.exactas.uba.ar/collection/seminario/document/seminario_nCOM000792_Bendersky |
| Ubicación: | Dep.COM 000792 |
| Derechos de Acceso: | Esta obra puede ser leída, grabada y utilizada con fines de estudio, investigación y docencia. Es necesario el reconocimiento de autoría mediante la cita correspondiente. Bendersky, Diego Ariel. (2003). Aprendizaje por refuerzo en robots autónomos para el problema de seguimiento de objetivos móviles y su aplicación en formaciones. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de http://hdl.handle.net/20.500.12110/seminario_nCOM000792_Bendersky |
Resumen:
La tarea de seguimiento de objetivos móviles (target following) consiste en detectar un objeto que se mueve con una trayectoria desconocida y mantener acotada la distancia al mismo a lo largo del tiempo. En este trabajo estudiamos este problema en el contexto de robots autónomos con sensado local. La complejidad de la tarea depende en gran medida de la capacidad de sensado del robot: en nuestro caso, trabajamos con robots dotados únicamente de sensores infrarrojos de muy corto alcance, lo que hace que el problema sea difícil de resolver. Analizamos tres técnicas para la s´ıntesis de comportamientos y vimos que todas son difíciles de aplicar a la tarea de seguimiento con estas restricciones en el sensado: el grado de error de los sensores es muy grande y depende de variables externas, no es sencillo generar un modelo del sistema a partir de los valores de los sensores, el espacio de situaciones y acciones es demasiado grande y su exploración se ve dificultada por el reducido alcance de los sensores y, por último, la cantidad de acciones buenas asociadas a cada situación es muy baja. Para solucionar este problema, presentamos un método de síntesis de comportamientos que nos permite aplicar técnicas de aprendizaje por refuerzo y obtener comportamientos en tiempos de aprendizaje muy cortos. Este método está basado en: 1) la divisi´on de la tarea de seguimiento a partir de la transformación del espacio de acciones, 2) el aprendizaje de las subtareas con el objetivo detenido, 3) la ejecuci´on simult´anea de las acciones de ambos sub comportamientos a partir de su combinación en una única acción y 4) la superposición de los ciclos de control. Utilizamos también un método de clustering basado en redes neuronales artificiales para la representación ix del espacio de situaciones, acciones y utilidad (valores q), preservando el amplio rango de valores posibles de los distintos espacios. Los comportamientos de seguimiento generados fueron aplicados con éxito en un grupo de robots para el desarrollo de formaciones de distintas configuraciones geométricas (en columna y en diagonal). Las mismas fueron obtenidas en forma emergente, sin comunicación entre los robots, sin control centralizado y sin sensores externos. Para lograr formaciones con distintas configuraciones geométricas, se modificó únicamente la función de refuerzo, sin alterar el método de aprendizaje. Esto último nos permite verificar la generalidad del método presentado y la posibilidad de utilizarlo en otras tareas relacionadas con la navegación.
Abstract:
The target-following behavior implies the detection of a mobile target and the maintenance of a bounded distance from it over time. In this work, we study this problem in the context of autonomous robots with local sensing. The difficulty to synthesize such a behavior depends on the sensing capabilities of the robot. In our case, we have used robots that have proximity sensors with a limited detection range. This fact turns the synthesis problem into a hard one compared to those cases where the robot has information about the absolute location of the target or about the relative location of the target but without range limit. We analyze three behavior synthesis techniques and we found that all of them are difficult to apply in this problem: the sensors are imprecise and its data varies with external variables, it is difficult to build a model of the system from the sensors data, the situation/action space is big and hard to explore, and the number of good actions associated with each state is low. x To solve this problem, we propose a behavior synthesis method based on Reinforcement Learning that allows us to obtain the required behavior in short time lapses. The method consists in 1) a task decomposition technique based on an action space transformation, 2) the learning of the subtasks in limited environments, with the target stopped, 3) the concurrent execution of the subtasks and the combination of their actions, and 4) the overlapping of the control loops. We also use a clustering technique, based on Artificial Neural Networks for the representation of the situations, actions and q-values. The resulting behaviors were successfully applied to a group of robots to build formations with different shapes. The formations were obtained without inter-robot communication, centralized control or global sensors. In order to achieve formations with shapes other than columns, we changed the reinforcement function only, leaving the learning method unmodified. This last experiment gives us feedback over the generality of this method and the possibility to use it in the synthesis of other navigational behaviors.
Citación:
---------- APA ----------
Bendersky, Diego Ariel. (2003). Aprendizaje por refuerzo en robots autónomos para el problema de seguimiento de objetivos móviles y su aplicación en formaciones. (Tesis de Grado. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales.). Recuperado de https://hdl.handle.net/20.500.12110/seminario_nCOM000792_Bendersky
---------- CHICAGO ----------
Bendersky, Diego Ariel. "Aprendizaje por refuerzo en robots autónomos para el problema de seguimiento de objetivos móviles y su aplicación en formaciones". Tesis de Grado, Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales, 2003.https://hdl.handle.net/20.500.12110/seminario_nCOM000792_Bendersky
Estadísticas:
Descargas mensuales
Total de descargas desde :
https://bibliotecadigital.exactas.uba.ar/download/seminario/seminario_nCOM000792_Bendersky.pdf
Distrubución geográfica