Q-Learning
Q-Learning
Q-Learing 学习最优动作价值函数
,训练DQN的算法就是Q-Learning
Sarsa VS Q-Learning
Sarsa
  • Sarsa是训练动作价值函数
  • TD target:
  • 用Sarsa更新价值网络(critic)
Q-Learning
  • Q-learning 是训练最优动作价值函数
  • TD target :
    ,对Q求最大化
  • 用Q-learning 训练DQN
个人总结区别在于Sarsa动作是随机采样的,而Q-learning是取期望最大值
Derive TD target
之前证明了这个等式:
把最优策略记作
,上述公式对其也成立:
通常把
记作
,都可以表示最优动作价值函数,于是便得到:
处理期望中的
,将其写成最大化形式:
  • 因为
    ,一定是最大化
    的那个动作
  • 因此
    是最优动作,可以最大化
  • 带入期望得到:
  • 做蒙特卡洛近似:
    称为TD target
表格形式:
  • 观测一个transition
  • TD target: