Q-Learning
Q-Learning
Sarsa VS Q-Learning
Derive TD target
表格形式:
DQN形式
Q-Learning
Q-Learing 学习最优动作价值函数
,训练DQN的算法就是Q-Learning
Sarsa VS Q-Learning
Sarsa
Sarsa是训练动作价值函数
TD target:
用Sarsa更新价值网络(critic)
Q-Learning
Q-learning 是训练最优动作价值函数
TD target :
,对Q求最大化
用Q-learning 训练DQN
个人总结区别在于Sarsa动作是随机采样的,而Q-learning是取期望最大值
Derive TD target
之前证明了这个等式:
把最优策略记作
,上述公式对其也成立:
通常把
记作
,都可以表示最优动作价值函数,于是便得到:
处理期望中的
,将其写成最大化形式:
因为
,一定是最大化
的那个动作
因此
,
是最优动作,可以最大化
带入期望得到:
做蒙特卡洛近似:
称为TD target
表格形式:
观测一个transition
TD target: