Q-Learning

Q-Learning​
Q-Learing 学习最优动作价值函数​
​，训练DQN的算法就是Q-Learning​
Sarsa VS Q-Learning​
Sarsa​
Sarsa是训练动作价值函数​
​​
TD target: ​
​​
用Sarsa更新价值网络(critic)​
Q-Learning​
Q-learning 是训练最优动作价值函数​
​​
TD target :​
​，对Q求最大化​
用Q-learning 训练DQN​
个人总结区别在于Sarsa动作是随机采样的，而Q-learning是取期望最大值​
Derive TD target​
之前证明了这个等式：​
​​
把最优策略记作​
​,上述公式对其也成立：​
​
​​
通常把​
​记作​
​，都可以表示最优动作价值函数，于是便得到：​
​
​​
处理期望中的​
​，将其写成最大化形式：​
因为​
​ ,一定是最大化​
​的那个动作​
因此​
​，​
​是最优动作，可以最大化​
​​
带入期望得到：​
​​
做蒙特卡洛近似：​
​称为TD target​
​​
表格形式：​
观测一个transition ​
​​
TD target: ​
​​
​
​
​