proyecto final de grado.page.titleprefix Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos
dc.contributor.advisor | Santos, Juan Miguel | |
dc.contributor.author | Delgado, Francisco | |
dc.date.accessioned | 2021-02-12T13:40:28Z | |
dc.date.available | 2021-02-12T13:40:28Z | |
dc.date.issued | 2020-12-21 | |
dc.description.abstract | "El siguiente informe es el resultado del trabajo de relevamiento, estudio y desarrollo de métodos de aprendizaje por refuerzo principalmente enfocados al esquema Actor-Crítico. A lo largo del texto, se introducen los conceptos base de la teoría y se plasman los fundamentos y teoría no solo de el esquema Actor-Crítico, sino también su predecesor REINFORCE, donde se introduce el concepto de optimización de políticas. El esquema Actor-Crítico es instanciado mediante la implementación de Proximal Policy Optimization (PPO) el cual utiliza redes neuronales artificiales(RNA) como estimador de función no lineal. Para el ajuste de los pesos de las RNAs se evaluaron tres variantes del gradiente estocástico las cuales incluyen Momentum, RMSProp y ADAM. Se diseñaron una serie de experimentos con el propósito de comparar el esquema Actor-Crítico con REINFORCE y sus resultados permiten establecer las diferencias de eficiencia entre ambos. Estos experimentos se hacen en base al problema del péndulo invertido en un ambiente dinámico. Finalmente, para demostrar la robustez y flexibilidad de los métodos de Actor-Crítico toma como caso de estudio un problema de control complejo en donde un agente debe aprender a caminar. Dicho agente es una criatura artificial semejante a una hormiga de cuatro patas, con dos rotores por pata que aplican torque sobre las mismas. La evaluación del desempeño del agente se realiza midiendo la longitud de la trayectoria recorrida hacia un objetivo en una cantidad de tiempo." | es |
dc.description.notes | Proyecto final Ingeniería Informática (grado) - Instituto Tecnológico de Buenos Aires, Buenos Aires, 2020 | es |
dc.identifier.uri | http://ri.itba.edu.ar/handle/123456789/3396 | |
dc.language.iso | es | es |
dc.subject | APRENDIZAJE POR REFUERZO | es |
dc.subject | ALGORITMOS | es |
dc.subject | REDES NEURONALES | es |
dc.title | Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos | es |
dc.type | Proyecto final de Grado | es |
dspace.entity.type | Proyecto final de Grado | |
itba.description.filiation | Fil: Delgado, Francisco. Instituto Tecnológico de Buenos Aires; Argentina. | |
itba.description.filiation | Fil: Santos, Juan Miguel. Instituto Tecnológico de Buenos Aires; Argentina. |
Files
Original bundle
1 - 1 of 1
Loading...
- Name:
- Informe_Proyecto_Final_Francisco_Delgado.pdf
- Size:
- 1.16 MB
- Format:
- Adobe Portable Document Format
- Description:
- Proyecto_Final_Delgado
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.6 KB
- Format:
- Item-specific license agreed upon to submission
- Description: