基底神经节强化学习的Actor-Critic模型:从自然大鼠到人工大鼠
Actor–Critic Models of Reinforcement Learning in the Basal Ganglia: From Natural to Artificial Rats
Mehdi Khamassi1,2, Loïc Lachèze1, Benoît Girard1,2, Alain Berthoz2, Agnès Guillot1
1AnimatLab, LIP6, Paris, France
2LPPA, CNRS–Collège de France, Paris, France
(Song Jian,translate)
自1995年以来,许多针对强化学习的Actor-Critic架构被提出作为大鼠基底神经节类多巴胺强化学习机制的模型。然而,这些模型通常在不同的任务中进行测试,因此很难比较它们对自主“动作规划者”(animat)的效率。在这里,我们将比较一个“动作规划者”中的四个架构,因为它执行相同的“奖励-寻找”(reward-seeking)任务。这将说明不同的假设对不同的Actor子模块和Critic单元的管理的后果,以及它们或多或少自主决定的协调。我们说明了,“专家”混合协调模块的经典方法,根据每个模块的性能,不允许解决我们的任务。然后,我们讨论了如何有效地应用哪种原理来组合这些单元。最后从我们的Psikharpax项目的角度讨论了Critic模型的改进和自然任务的Actor-Critic模型的准确性。该项目是一只人工老鼠,必须在不可预测的环境中自主生存。
翻译稿件【基底神经节强化学习的Actor-Critic模型:从自然大鼠到人工大鼠】
翻译原件【Actor–Critic Models of Reinforcement Learning in the Basal Ganglia: From Natural to Artificial Rats】