Seminario de Matemáticas

Fecha: 19 Julio del 2022, 01:00:pm

Resumen: Los Procesos de Decisión de Markov (MDPs) modelan el problema de Aprendizaje por reforzamiento, en el cual un agente interactúa con un ambiente a través de acciones, estados y recompensas a fin de maximizar su recompensa o equivalentemente, minimizar su lamento. Bajo este paradigma, algoritmos tales como DQN, A3C o PPO han ganado gran popularidad por sus aplicaciones en juegos y robótica. En esta charla, nos centramos en algoritmos con garantías teóricas tales como UCRL o LSVI-UCB que en el caso de estructuras lineales brindan, con alta probabilidad, cotas superiores sobre el lamento de un agente e introducimos nuevos algoritmos que nos permiten además garantizar privacidad de una manera estadística (privacidad diferencial).

 

Fecha: 19 de julio de 2022
Hora: 13:00 -14:00 hrs.
Transmisión en vivo vía Zoom:  

https://pucp.zoom.us/j/96037889014?pwd=Q2lzQVNHK05hWGZhMUxqQ3RaYXVIQT09

ID de Reunión: 960 3788 9014.
Código de acceso: 873107.