Browsing by Subject "APRENDIZAJE POR REFUERZO"
Now showing 1 - 7 of 7
Results Per Page
Sort Options
proyecto final de grado.listelement.badge Aprendizaje por refuerzo con opciones y función de refuerzo universal(2020-12) Bruno Cilla, Diego; Heimann, Matías; Scaglioni, Giuliano; Santos, Juan Miguel"El objetivo de los algoritmos de aprendizaje por refuerzo es maximizar las recompensas acumuladas a lo largo del tiempo para hallar un comportamiento objetivo. De esta forma, para aprender distintos comportamientos, la variable a cambiar sería la función de refuerzo dada para ese problema. El objetivo de este trabajo es explorar una alternativa en la cual se puedan adquirir distintos comportamientos, manteniendo siempre la misma función de refuerzo, siendo que la variable sea los distintos entornos en los que se realiza el aprendizaje."proyecto final de grado.listelement.badge Contribución al relevamiento y estado del arte en aprendizaje por refuerzo(2020-04-24) Emery, Lucas; Santos, Juan Miguel"Este informe es el resultado del trabajo realizado en el relevamiento, estudio y análisis sobre métodos de aprendizaje por refuerzo y aprendizaje por refuerzo profundo, y fue realizado pensando en constituirse en un recurso para la formación de los interesados en el área."ponencia en congreso.listelement.badge Discovering sensing capability in multi-agent systems(2010) Parpaglione, María Cristina; Santos, Juan Miguel"What should be the sensing capabilities of agents in a Multi-Agent System be to solve a problem efficiently, quickly and economicly? This question often appears when trying to solve a problem using Multi-Agent Systems. This paper introduces a method to find these sensing capabilities in order to solve a given problem. To achieve this, the sensing capability of an agent is modeled by a parametrized function and then Genetic Algorithms are used to find the parameters’ values. The individual behavior of the agents are found with Reinforcement Learning."proyecto final de grado.listelement.badge Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos(2020-12-21) Delgado, Francisco; Santos, Juan Miguel"El siguiente informe es el resultado del trabajo de relevamiento, estudio y desarrollo de métodos de aprendizaje por refuerzo principalmente enfocados al esquema Actor-Crítico. A lo largo del texto, se introducen los conceptos base de la teoría y se plasman los fundamentos y teoría no solo de el esquema Actor-Crítico, sino también su predecesor REINFORCE, donde se introduce el concepto de optimización de políticas. El esquema Actor-Crítico es instanciado mediante la implementación de Proximal Policy Optimization (PPO) el cual utiliza redes neuronales artificiales(RNA) como estimador de función no lineal. Para el ajuste de los pesos de las RNAs se evaluaron tres variantes del gradiente estocástico las cuales incluyen Momentum, RMSProp y ADAM. Se diseñaron una serie de experimentos con el propósito de comparar el esquema Actor-Crítico con REINFORCE y sus resultados permiten establecer las diferencias de eficiencia entre ambos. Estos experimentos se hacen en base al problema del péndulo invertido en un ambiente dinámico. Finalmente, para demostrar la robustez y flexibilidad de los métodos de Actor-Crítico toma como caso de estudio un problema de control complejo en donde un agente debe aprender a caminar. Dicho agente es una criatura artificial semejante a una hormiga de cuatro patas, con dos rotores por pata que aplican torque sobre las mismas. La evaluación del desempeño del agente se realiza midiendo la longitud de la trayectoria recorrida hacia un objetivo en una cantidad de tiempo."ponencia en congreso.listelement.badge Learning by knowledge sharing in autonomous intelligent systems(2006) García Martínez, Ramón; Borrajo, Daniel; Maceri, Pablo; Britos, Paola Verónica"Very few learning systems applied to problem solving have focused on learning operator definitions from the interaction with a completely unknown environment. In order to achieve better learning convergence, several agents that learn separately are allowed to interchange each learned set of planning operators. Learning is achieved by establishing plans, executing those plans in the environment, analyzing the results of the execution, and combining new evidence with prior evidence. Operators are generated incrementally by combining rote learning, induction, and a variant of reinforcement learning. The results show how allowing the communication among individual learning (and planning) agents provides a much better percentage of successful plans, plus an improved convergence rate than the individual agents alone."proyecto final de grado.listelement.badge Training a gaming agent on brainwaves online: using brain signals as feedback for reinforcement learning(2020-12-12) Abelenda, Marcos; Vázquez, Agustín Ignacio; Manganaro Bello, Santiago; Ramele, Rodrigo"This thesis replicates and proposes an alternative method to train reinforcement learning algorithms with ErrP signals, captured through EEG, and validate the effectiveness of its use in a prototype application."proyecto final de grado.listelement.badge Training an agent on brainwaves: using brain signals as feedback for reinforcement learning(2019) Moreno, Juan; Bartolomé, Francisco; Navas, Natalia; Vitali, José; Ramele, Rodrigo"This thesis replicates and proposes an alternative method to train reinforcement learning algorithms with ErrP signals, captured through EEG, and validate the effectiveness of its use in a prototype application."