Proyectos finales (grado)
Permanent URI for this collection
Browse
Browsing Proyectos finales (grado) by Subject "APRENDIZAJE POR REFUERZO"
Now showing 1 - 5 of 5
Results Per Page
Sort Options
proyecto final de grado.listelement.badge Aprendizaje por refuerzo con opciones y función de refuerzo universal(2020-12) Bruno Cilla, Diego; Heimann, Matías; Scaglioni, Giuliano; Santos, Juan Miguel"El objetivo de los algoritmos de aprendizaje por refuerzo es maximizar las recompensas acumuladas a lo largo del tiempo para hallar un comportamiento objetivo. De esta forma, para aprender distintos comportamientos, la variable a cambiar sería la función de refuerzo dada para ese problema. El objetivo de este trabajo es explorar una alternativa en la cual se puedan adquirir distintos comportamientos, manteniendo siempre la misma función de refuerzo, siendo que la variable sea los distintos entornos en los que se realiza el aprendizaje."proyecto final de grado.listelement.badge Contribución al relevamiento y estado del arte en aprendizaje por refuerzo(2020-04-24) Emery, Lucas; Santos, Juan Miguel"Este informe es el resultado del trabajo realizado en el relevamiento, estudio y análisis sobre métodos de aprendizaje por refuerzo y aprendizaje por refuerzo profundo, y fue realizado pensando en constituirse en un recurso para la formación de los interesados en el área."proyecto final de grado.listelement.badge Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos(2020-12-21) Delgado, Francisco; Santos, Juan Miguel"El siguiente informe es el resultado del trabajo de relevamiento, estudio y desarrollo de métodos de aprendizaje por refuerzo principalmente enfocados al esquema Actor-Crítico. A lo largo del texto, se introducen los conceptos base de la teoría y se plasman los fundamentos y teoría no solo de el esquema Actor-Crítico, sino también su predecesor REINFORCE, donde se introduce el concepto de optimización de políticas. El esquema Actor-Crítico es instanciado mediante la implementación de Proximal Policy Optimization (PPO) el cual utiliza redes neuronales artificiales(RNA) como estimador de función no lineal. Para el ajuste de los pesos de las RNAs se evaluaron tres variantes del gradiente estocástico las cuales incluyen Momentum, RMSProp y ADAM. Se diseñaron una serie de experimentos con el propósito de comparar el esquema Actor-Crítico con REINFORCE y sus resultados permiten establecer las diferencias de eficiencia entre ambos. Estos experimentos se hacen en base al problema del péndulo invertido en un ambiente dinámico. Finalmente, para demostrar la robustez y flexibilidad de los métodos de Actor-Crítico toma como caso de estudio un problema de control complejo en donde un agente debe aprender a caminar. Dicho agente es una criatura artificial semejante a una hormiga de cuatro patas, con dos rotores por pata que aplican torque sobre las mismas. La evaluación del desempeño del agente se realiza midiendo la longitud de la trayectoria recorrida hacia un objetivo en una cantidad de tiempo."proyecto final de grado.listelement.badge Training a gaming agent on brainwaves online: using brain signals as feedback for reinforcement learning(2020-12-12) Abelenda, Marcos; Vázquez, Agustín Ignacio; Manganaro Bello, Santiago; Ramele, Rodrigo"This thesis replicates and proposes an alternative method to train reinforcement learning algorithms with ErrP signals, captured through EEG, and validate the effectiveness of its use in a prototype application."proyecto final de grado.listelement.badge Training an agent on brainwaves: using brain signals as feedback for reinforcement learning(2019) Moreno, Juan; Bartolomé, Francisco; Navas, Natalia; Vitali, José; Ramele, Rodrigo"This thesis replicates and proposes an alternative method to train reinforcement learning algorithms with ErrP signals, captured through EEG, and validate the effectiveness of its use in a prototype application."