Proyecto final de Grado:
Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos

dc.contributor.advisorSantos, Juan Miguel
dc.contributor.authorDelgado, Francisco
dc.date.accessioned2021-02-12T13:40:28Z
dc.date.available2021-02-12T13:40:28Z
dc.date.issued2020-12-21
dc.description.abstract"El siguiente informe es el resultado del trabajo de relevamiento, estudio y desarrollo de métodos de aprendizaje por refuerzo principalmente enfocados al esquema Actor-Crítico. A lo largo del texto, se introducen los conceptos base de la teoría y se plasman los fundamentos y teoría no solo de el esquema Actor-Crítico, sino también su predecesor REINFORCE, donde se introduce el concepto de optimización de políticas. El esquema Actor-Crítico es instanciado mediante la implementación de Proximal Policy Optimization (PPO) el cual utiliza redes neuronales artificiales(RNA) como estimador de función no lineal. Para el ajuste de los pesos de las RNAs se evaluaron tres variantes del gradiente estocástico las cuales incluyen Momentum, RMSProp y ADAM. Se diseñaron una serie de experimentos con el propósito de comparar el esquema Actor-Crítico con REINFORCE y sus resultados permiten establecer las diferencias de eficiencia entre ambos. Estos experimentos se hacen en base al problema del péndulo invertido en un ambiente dinámico. Finalmente, para demostrar la robustez y flexibilidad de los métodos de Actor-Crítico toma como caso de estudio un problema de control complejo en donde un agente debe aprender a caminar. Dicho agente es una criatura artificial semejante a una hormiga de cuatro patas, con dos rotores por pata que aplican torque sobre las mismas. La evaluación del desempeño del agente se realiza midiendo la longitud de la trayectoria recorrida hacia un objetivo en una cantidad de tiempo."es
dc.description.notesProyecto final Ingeniería Informática (grado) - Instituto Tecnológico de Buenos Aires, Buenos Aires, 2020es
dc.identifier.urihttp://ri.itba.edu.ar/handle/123456789/3396
dc.language.isoeses
dc.subjectAPRENDIZAJE POR REFUERZOes
dc.subjectALGORITMOSes
dc.subjectREDES NEURONALESes
dc.titleEsquema actor-crítico en aprendizaje por refuerzo con espacios continuoses
dc.typeProyecto final de Gradoes
dspace.entity.typeProyecto final de Grado
itba.description.filiationFil: Delgado, Francisco. Instituto Tecnológico de Buenos Aires; Argentina.
itba.description.filiationFil: Santos, Juan Miguel. Instituto Tecnológico de Buenos Aires; Argentina.
Archivos
Bloque original
Mostrando1 - 1 de 1
Miniatura
Nombre:
Informe_Proyecto_Final_Francisco_Delgado.pdf
Tamaño:
1.16 MB
Formato:
Adobe Portable Document Format
Descripción:
Proyecto_Final_Delgado
Bloque de licencias
Mostrando1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
1.6 KB
Formato:
Item-specific license agreed upon to submission
Descripción: