绿色健康小清新

耐得住寂寞,守得住繁华

主要介绍由策略梯度和时序差分学习组合的Actor-Critic方法用于强化学习,也就是A2C,还介绍了A3C(Asynchronous Advantage Actor-Critic)。还介绍了Pathwise Derivative Policy Gradient,这个方法和GAN有点相似之处。

阅读全文 »