Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos

Delgado, Francisco

proyecto final de grado.page.titleprefix
Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos

dc.contributor.advisor	Santos, Juan Miguel
dc.contributor.author	Delgado, Francisco
dc.date.accessioned	2021-02-12T13:40:28Z
dc.date.available	2021-02-12T13:40:28Z
dc.date.issued	2020-12-21
dc.description.abstract	"El siguiente informe es el resultado del trabajo de relevamiento, estudio y desarrollo de métodos de aprendizaje por refuerzo principalmente enfocados al esquema Actor-Crítico. A lo largo del texto, se introducen los conceptos base de la teoría y se plasman los fundamentos y teoría no solo de el esquema Actor-Crítico, sino también su predecesor REINFORCE, donde se introduce el concepto de optimización de políticas. El esquema Actor-Crítico es instanciado mediante la implementación de Proximal Policy Optimization (PPO) el cual utiliza redes neuronales artificiales(RNA) como estimador de función no lineal. Para el ajuste de los pesos de las RNAs se evaluaron tres variantes del gradiente estocástico las cuales incluyen Momentum, RMSProp y ADAM. Se diseñaron una serie de experimentos con el propósito de comparar el esquema Actor-Crítico con REINFORCE y sus resultados permiten establecer las diferencias de eficiencia entre ambos. Estos experimentos se hacen en base al problema del péndulo invertido en un ambiente dinámico. Finalmente, para demostrar la robustez y flexibilidad de los métodos de Actor-Crítico toma como caso de estudio un problema de control complejo en donde un agente debe aprender a caminar. Dicho agente es una criatura artificial semejante a una hormiga de cuatro patas, con dos rotores por pata que aplican torque sobre las mismas. La evaluación del desempeño del agente se realiza midiendo la longitud de la trayectoria recorrida hacia un objetivo en una cantidad de tiempo."	es
dc.description.notes	Proyecto final Ingeniería Informática (grado) - Instituto Tecnológico de Buenos Aires, Buenos Aires, 2020	es
dc.identifier.uri	http://ri.itba.edu.ar/handle/123456789/3396
dc.language.iso	es	es
dc.subject	APRENDIZAJE POR REFUERZO	es
dc.subject	ALGORITMOS	es
dc.subject	REDES NEURONALES	es
dc.title	Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos	es
dc.type	Proyecto final de Grado	es
dspace.entity.type	Proyecto final de Grado
itba.description.filiation	Fil: Delgado, Francisco. Instituto Tecnológico de Buenos Aires; Argentina.
itba.description.filiation	Fil: Santos, Juan Miguel. Instituto Tecnológico de Buenos Aires; Argentina.
itba.infoadministrador	CRC
itba.infoclasificacion	Pública
itba.infocustodio	Director CRC
itba.infodisponibilidad	Disponibilidad-N1
itba.infointegridad	Integridad-N1
itba.infoperdida	Tipo 2-PBA1
itba.infopropietario	Rectorado
itba.inforesponsable	Rectorado
itba.infoutilidad	Tipo 6-USa6

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Informe_Proyecto_Final_Francisco_Delgado.pdf
Size:: 1.16 MB
Format:: Adobe Portable Document Format
Description:: Proyecto_Final_Delgado

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.6 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Proyectos finales (grado)

proyecto final de grado.page.titleprefix Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos

Files

Original bundle

License bundle

Collections

proyecto final de grado.page.titleprefix
Esquema actor-crítico en aprendizaje por refuerzo con espacios continuos