基底神经节强化学习的Actor-Critic模型:从自然大鼠到人工大鼠--animat方法；TD学习；Actor-Critic模型；S-R任务；分类单元导航-[数学建模与神经计算]

基底神经节强化学习的Actor-Critic模型:从自然大鼠到人工大鼠

Actor–Critic Models of Reinforcement Learning in the Basal Ganglia: From Natural to Artificial Rats

Mehdi Khamassi^1,2, Loïc Lachèze¹, Benoît Girard^1,2, Alain Berthoz², Agnès Guillot¹

¹AnimatLab, LIP6, Paris, France

²LPPA, CNRS–Collège de France, Paris, France

（Song Jian，translate）

自1995年以来，许多针对强化学习的Actor-Critic架构被提出作为大鼠基底神经节类多巴胺强化学习机制的模型。然而，这些模型通常在不同的任务中进行测试，因此很难比较它们对自主“动作规划者”（animat）的效率。在这里，我们将比较一个“动作规划者”中的四个架构，因为它执行相同的“奖励-寻找”（reward-seeking）任务。这将说明不同的假设对不同的Actor子模块和Critic单元的管理的后果，以及它们或多或少自主决定的协调。我们说明了，“专家”混合协调模块的经典方法，根据每个模块的性能，不允许解决我们的任务。然后，我们讨论了如何有效地应用哪种原理来组合这些单元。最后从我们的Psikharpax项目的角度讨论了Critic模型的改进和自然任务的Actor-Critic模型的准确性。该项目是一只人工老鼠，必须在不可预测的环境中自主生存。

翻译稿件【基底神经节强化学习的Actor-Critic模型:从自然大鼠到人工大鼠】

翻译原件【Actor–Critic Models of Reinforcement Learning in the Basal Ganglia: From Natural to Artificial Rats】