Actor 是策略网络,用来控制agent运动,可以看做是运动员。critic 是价值网络,用来给动作打分,看作是裁判。Actor Critic 是把价值学习和策略学习结合起来
它是动作价值函数
的期望,
策略函数控制agent做运动,
价值函数评价动作好坏。但是上述这两个函数我们都不知道,但是可以分别用一个神经网络来近似这两个函数,然后用Actor&Critic方法来同时学习这两个网络。 策略网络(actor):用网络
来近似
,
是网络参数 价值网络(critic):用网络
来近似
,
是网络参数 actor是一个体操运动员,她可以自己做动作,她想要做的更好,但是不知道怎么改进,这就需要裁判给她打分,这样运动员就知道什么样动作的分数高,什么样动作的分数低,这样就能改进自己,让分数越来越高。
动作如果是离散的,可以用one-hot coding来表示,比如向左为[1,0,0],向右为[0,1,0] ······ 分别用卷积层与全连接层从输入中提取特征,得到两个特征向量,然后把这两个特征向量拼接起来,得到一个更高的特征向量,最后用一个全连接层输出一个实数,这个实数就是裁判给运动员打的分数。这个动作说明,处在状态 s 的情况下,做出动作 a 是好还是坏。这个价值网络可以与策略网络共享卷积层参数,亦可以跟策略网络完全独立。