飞书云文档

Actor-Critic​
Actor 是策略网络，用来控制agent运动，可以看做是运动员。critic 是价值网络，用来给动作打分，看作是裁判。Actor Critic 是把价值学习和策略学习结合起来​
价值网络与策略网络构建​
状态价值函数：​
​
​(离散)​
它是动作价值函数​
​的期望，​
​策略函数控制agent做运动，​
​价值函数评价动作好坏。但是上述这两个函数我们都不知道，但是可以分别用一个神经网络来近似这两个函数，然后用Actor&Critic方法来同时学习这两个网络。​
​​
策略网络(actor)：用网络​
​来近似​
​，​
​是网络参数​
价值网络(critic)：用网络​
​来近似​
​，​
​是网络参数​
actor是一个体操运动员，她可以自己做动作，她想要做的更好，但是不知道怎么改进，这就需要裁判给她打分，这样运动员就知道什么样动作的分数高，什么样动作的分数低，这样就能改进自己，让分数越来越高。​
这样：​
​​
Actor搭建​
输入：状态 s​
输出：可能的动作分布​
​
​是动作集，如​
​​
​
​​
​
​
​
Critic搭建​
输入：状态 s 和动作 a​
输出：近似的动作价值函数(scalar)​
​
​
​
动作如果是离散的，可以用one-hot coding来表示，比如向左为[1,0,0]，向右为[0,1,0] ······ 分别用卷积层与全连接层从输入中提取特征，得到两个特征向量，然后把这两个特征向量拼接起来，得到一个更高的特征向量，最后用一个全连接层输出一个实数，这个实数就是裁判给运动员打的分数。这个动作说明，处在状态 s 的情况下，做出动作 a 是好还是坏。这个价值网络可以与策略网络共享卷积层参数，亦可以跟策略网络完全独立。​
Actor-Critic Method​