欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
Nature论文Human-level control through deep reinforcement learning
来源:一起赢论文网     日期:2023-05-08     浏览数:332     【 字体:
 
强化学习理论提供了一种规范的解释,它深深植根于动物行为的心理学和神经科学视角,说明了行为体如何优化对环境的控制。然而,为了在接近现实世界复杂性的情况下成功地使用强化学习,智能体面临着一个困难的任务:它们必须从高维感官输入中获得环境的有效表示,并使用这些来将过去的经验推广到新的情况。值得注意的是,人类和其他动物似乎通过强化学习和分层感觉处理系统的和谐结合来解决这个问题,前者的证据是大量的神经数据,揭示了多巴胺能神经元发出的相位信号和时间差异强化学习算法之间的显著相似之处。虽然强化学习智能体在各种领域取得了一些成功,但它们的适用性以前仅限于可以手工制作有用特征的领域,或者具有完全观察到的低维状态空间的领域。
 
在这里,我们利用训练深度神经网络的最新进展[9 - 11]来开发一种新的人工智能体,称为深度q -网络,它可以使用端到端强化学习直接从高维感官输入中学习成功的策略。我们在经典的雅达利2600游戏中测试了这个代理。我们证明了深度q网络代理,只接收像素和游戏分数作为输入,能够超越所有以前的算法的性能,并在使用相同的算法、网络架构和超参数的情况下,在一组49个游戏中达到与专业人类游戏测试人员相当的水平。这项工作弥合了高维感官输入和行动之间的鸿沟,从而产生了第一个能够学习并擅长各种具有挑战性任务的人工智能体。
 
在这项工作中,我们证明了一个单一的架构可以在一系列不同的环境中成功地学习控制策略,只需要非常少的先验知识,只接收像素和游戏分数作为输入,并在每个游戏中使用相同的算法、网络架构和超参数,只了解人类玩家可能拥有的输入。与之前的工作相比24,26,我们的方法结合了“端到端”强化学习,使用奖励在卷积网络中不断塑造表征,以促进价值估计的环境显著特征。这一原理基于神经生物学证据,即在感知学习过程中,奖励信号可能会影响灵长类动物视觉皮层内表征的特征27,28。值得注意的是,强化学习与深度网络架构的成功集成在很大程度上取决于我们对重播算法的整合,该算法涉及最近经历的转换的存储和表示。越来越多的证据表明,海马体可能支持物理在哺乳动物大脑中实现这样一个过程,在离线期间(例如,清醒休息),最近经历的轨迹的时间压缩重新激活提供了一种假定的机制,通过与基底神经节的相互作用,价值函数可以有效地更新。在未来,探索将经验重放的内容偏向突出事件的潜在用途将是很重要的,这是一种以经验观察到的海马重放为特征的现象29,并且与强化学习中的“优先清扫”概念30有关。总之,我们的工作说明了利用最先进的机器学习技术和生物学启发机制来创建能够学习掌握各种具有挑战性任务的代理的力量。
 
[返回]
上一篇: 结合注意力CNN与GNN的信息融合推荐方法
下一篇:全息凝视雷达系统技术与发展应用综述