Skip to content

MathFoundationRL

简介

西湖大学的课程,内容浅显易懂而且涉及到较为详细的推导,个人认为很适合用来作为强化学习的入门课。

视频链接

Github 链接

框架

  • MDP 定义
  • Bellman 方程
  • 需要完整 model 的 DP(包括值迭代和策略迭代)
  • 到无需完整 model 的 MC
  • 引入 TD, Sarsa, Q-learning
  • 当状态空间过大无法使用表格表示时,使用函数近似方法(如 DQN)
  • 最后是直接优化策略的策略梯度方法和结合值函数与策略优化的 Actor-Critic 方法

我的笔记

https://github.com/Tenshi0x0/MathFoundationRL/tree/master/my%20notes/pdfs