基于目标导向行为和空间拓扑记忆的视觉导航方法_阮晓钢 - SCI期刊论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

SCI期刊论文

当前位置：首页 > SCI期刊论文

基于目标导向行为和空间拓扑记忆的视觉导航方法_阮晓钢

来源：一起赢论文网日期：2021-11-07 浏览数：1995 【字体：大中小】

第４４卷第３期２０２１年３月计算机学报ＣＨＩＮＥＳＥＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳＶｏｌ．４４Ｎｏ．３Ｍａｒ． ２０２１基于目标导向行为和空间拓扑记忆的视觉导航方法阮晓钢李鹏朱晓庆刘鹏飞（北京工业大学信息学部北京１００１２４）（计算智能与智能系统北京市重点实验室北京１００１２４）摘要针对在具有动态因素且视觉丰富环境中的导航问题，受路标机制空间记忆方式启发，提出一种可同步学习目标导向行为和记忆空间结构的视觉导航方法．首先，为直接从原始输人中学习控制策略，以深度强化学习为基本导航框架，同时添加碰撞预测作为模型辅助任务；然后，在智能体学习导航过程中，利用时间相关性网络祛除冗余观测及寻找导航节点，实现通过情景记忆递增描述环境结构；最后，将空间拓扑地图作为路径规划模块集成到模型中，并结合动作网络用于获取更加通用的导航方法．实验在３Ｄ仿真环境ＤＭｌａｂ中进行，实验结果表明，本文方法可从视觉输人中学习目标导向行为，在所有测试环境中均展现出更高效的学习方法和导航策略，同时减少构建地图所需数据量；而在包含动态堵塞的环境中，该模型可使用拓扑地图动态规划路径，从而引导绕路行为完成导航任务，展现出良好的环境适应性．关键词目标导向行为；深度强化学习；碰撞预测；时间相关性网络；空间拓扑地图；动作网络中图法分类号ＴＰ１８ＤＯＩ号１０． １１８９７／ＳＰ． Ｊ．１０１６．２０２１． ００５９４ＡＶｉｓｕａｌＮａｖｉｇａｔｉｏｎＭｅｔｈｏｄＢａｓｅｄｏｎＧｏａｌ－ＤｒｉｖｅｎＢｅｈａｖｉｏｒａｎｄＳｐａｃｅＴｏｐｏｌｏｇｉｃａｌ ＭｅｍｏｒｙＲＵＡＮ ＸｉａｏＧａｎｇＬＩＰｅｎｇＺＨＵＸｉａｏＱｉｎｇＬＩＵＰｅｎｇＦｅｉ（．Ｆａｕｌｔｙ ｏｆ Ｉｎｆｏｒｍａｔｉｏｎ Ｔｅｃｈｎｏｌｏｇｙ？，ＢｅｉｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ ？，Ｂｅｉｊｉｎｇ１００１２４）（Ｂｅｉｊｉｎｇ ＫｅｙＬａｂｏｒａｔｏｒｙ ｏｆ ＣｏｍｐｕＬａＬｉｏｎａｌ Ｉｎｔｅｌｌｉｇｅｎｃｅ ａｎｄ ＩｎＬｅｌｌｉｇｅｎＬ Ｓｙｓｔｅｍ ？，Ｂｅｉｊｉｎｇ１００１２４）ＡｂｓｔｒａｃｔＥｖｅｒｙｏｎｅｋｎｏｗｓ ｉｔ ｉｓ ｉｍｐｏｓｓｉｂｌｅｆｏｒ ａｇｅｎｔｓ ｔｏ ｒｅａｃｈｔｈｅｇｏａｌｅｆｆｉｃｉｅｎｔｌｙｕｎｔｉｌｉｔｈａｓｓｕｆｆｉｃｉｅｎｔｌｙ ｅｘｐｌｏｒｅｄｔｈｅｅｎｖｉｒｏｎｍｅｎｔｏｒｃｏｎｓｔｒｕｃｔｅｄｃｏｇｎｉｔｉｖｅｍｏｄｅｌｏｆ ｔｈｅｗｏｒｌｄ，ｂｕｔｔｈｅｅｓｓｅｎｔｉａｌ ｑｕｅｓｔｉｏｎ ｉｓｈｏｗ ｔｏｇｅｎｅｒａｔｅ ｇｏａｌｄｒｉｖｅｎ ｂｅｈａｖｉｏｕｒ．Ｏｒｇａｎｉｓｍｓ ｃａｎ ｓｐｏｎｔａｎｅｏｕｓｌｙｅｘｐｌｏｒｅｔｈｅｅｎｖｉｒｏｎｍｅｎｔｗｉｔｈ ｒａｒｅｏｒ ｄｅｃｅｐｔｉｖｅｒｅｗａｒｄａｎｄｂｕｉｌｄｍａｐｌｉｋｅｒｅｐｒｅｓｅｎｔａｔｉｏｎｔｏ ｓｕｐｐｏｒｔｓｕｂｓｅｑｕｅｎｔａｃｔｉｏｎｓ，ｓｕｃｈａｓ ｆｉｎｄｉｎｇ ｆｏｏｄ， ｓｈｅｌｔｅｒｓ ｏｒ ｍａｔｅｓ．Ｗｈａｔｗｅ ｗａｎｔｔｏ ｋｎｏｗｉｓ ｗｈｅｔｈｅｒｔｈｅｒｏｂｏｔｃａｎｉｍｉｔａｔｅｓｕｃｈｃｏｇｎｉｔｉｖｅｍｅｃｈａｎｉｓｍｔｏｃｏｍｐｌｅｔｅｎａｖｉｇａｔｉｏｎａｌ ｔａｓｋｓ ？Ｏｂｖｉｏｕｓｌｙ，ｒｅｌｙｉｎｇ ｏｎｈｉｇｈｐｒｅｃｉｓｉｏｎ ｓｅｎｓｏｒｓ  ａｓ ａ ｓｏｕｒｃｅ  ｔｏ ｒｅｃａｌｌ ｔｈｅ  ｓｔｒｕｃｔｕｒｅ ｏｆ ｅｎｖｉｒｏｎｍｅｎｔ ｉｓ ｎｏｔ ｐｒａｃｔｉｃａｌｉｎ ｒｅａｌｗｏｒｌｄ， ｓｏ ｗｅ ｐｅｒｃｅｉｖｅ ｔｈｅ  ｓｔａｔｅ ｓｐａｃｅ ａｎｄ ｌｅａｒｎｃｏｎｔｒｏｌｐｏｌｉｃｙ ｗｉｔｈ ｖｉｓｕａｌｉｎｐｕｔｓ． Ａｎｄｔｏｄｅａｌｗｉｔｈｔｈｅｐｒｏｂｌｅｍｓ ｓｔｅｍｆｒｏｍｄｉｍｅｎｓｉｏｎｄｉｓａｓｔｅｒ，ｔｈｅ ｄｅｅｐ ｌｅａｒｎｉｎｇ ｉｓａｌｓｏ ｕｓｅｄ ｉｎｏｕｒｍｅｔｈｏｄ．Ｔｈｅ ｎａｖｉｇａｔｉｏｎｓｙｓｔｅｍｓ ｄｅｖｅｌｏｐｅｄｉｎ ｒｏｂｏｔｉｃｓ ｃａｎ ｔｙｐｉｃａｌｌｙｂｅ ｄｉｖｉｄｅｄ ｉｎｔｏ ｔｗｏｃｌａｓｓｅｓ： ｏｎｅ ｒｅａｃｈｔｈｅｇｏａｌｂｙｅｎｃｏｄｉｎｇ ｔｈｅｓｔｒｕｃｔｕｒｅｏｆ ｅｎｖｉｒｏｎｍｅｎｔ， ｉｔｃａｎｕｔｉｌｉｚｅｍｕｌｔｉｐｌｅｓｅｎｓｏｒ ｉｎｆｏｒｍａｔｉｏｎ ａｓｉｎｐｕｔａｎｄｐｒｏｖｉｄｅ ｈｉｇｈｑｕａｌｉｔｙｅｎｖｉｒｏｎｍｅｎｔｍａｐｓ； ａｎｄ ｔｈｅ ｏｔｈｅｒ ｏｎｅ ｉｓｍａｐｌｅｓｓ ａｐｐｒｏａｃｈ， ｗｈｉｃｈｍａｉｎｔａｉｎａ ｃｏｎｔｒｏｌ ｐｏｌｉｃｙｉｎｔｈｅｌｅａｒｎｉｎｇ ｐｒｏｃｅｓｓ ａｎｄｕｓｅ  ｉｔ ｔｏ ｆｉｎｉｓｈｇｏａｌｒｅａｃｈｉｎｇ ｔａｓｋｓ，ｅａｃｈｏｆｔｈｅｍｈａｓｔｈｅｉｒ ｐｒｏｓ ａｎｄ ｃｏｎｓ． Ｉｎ ｔｈｉｓ ｐａｐｅｒ，ｗｅ ｐｒｏｐｏｓｅｄ ａ ｖｉｓｕａｌｎａｖｉｇａｔｉｏｎｍｅｔｈｏｄ ｗｈｉｃｈｃａｎｌｅａｒｎｇｏａｌｄｒｉｖｅｎ ｂｅｈａｖｉｏｒａｎｄｅｎｃｏｄｅｓｐａｃｅｓｔｒｕｃｔｕｒｅｓｙｎｃｈｒｏｎｏｕｓｌｙ． Ｆｉｒｓｔｌｙ，ｉｎｏｒｄｅｒ ｔｏ ｌｅａｒｎ收稿日期：２０２００５０２；在线发布日期：２０２０ｌｌ０７．本课题得到国家自然科学基金（６１７７３０２７）、北京市自然科学基金（４２０２００５）、北京市教育委员会科技计划一般项目（ＫＭ２０１８１０００５０２８）资助．阮晓钢，博士，教授，主要研究领域为自动控制、人工智能及智能机器人．Ｅｍａｉｌ：ａｄｒｘｇ＠ｂｊｕｔ． ｅｄｕ． ｃｎ．李鹏，博士研究生，主要研究方向为深度强化学习及机器人导航．朱晓庆（通信作者），博士，讲师，主要研究方向为智能机器人及机器学习．Ｅｍａｉｌ： ａｌｅｘ． ｚｈｕｘｑ＠ｂｊｕｔ． ｅｄｕ． ｃｎ．刘鹏飞，硕士研究生，主要研究方向为人工智能及机器人导航．阮晓钢等：基于目标导向行为和３期 空间拓扑记忆的视觉导航方法 ５９ ５ｃｏｎｔｒｏｌ ｐｏｌｉｃｙｆｒｏｍｒａｗｖｉｓｕａｌｉｎｆｏｒｍａｔｉｏｎ，ｗｅｔａｋｅｄｅｅｐ ｒｅｉｎｆｏｒｃｅｍｅｎｔ ｌｅａｒｎｉｎｇａｓ ｂａｓｉｃｎａｖｉｇａｔｉｏｎｆｒａｍｅｗｏｒｋ，ｉｔｐｒｏｖｉｄｅｓ ａｎｅｎｄ－ｔｏ－ｅｎｄｆｒａｍｅｗｏｒｋ ａｎｄａｌｌｏｗｏｕｒ ａｐｐｒｏａｃｈ ｄｉｒｅｃｔｌｙ ｐｒｅｄｉｃｔｃｏｎｔｒｏｌｓｉｇｎａｌ ｆｒｏｍｈｉｇｈ－ｄｉｍｅｎｓｉｏｎａｌ ｓｅｎｓｏｒｙｉｎｐｕｔｓ． Ｍｅａｎｗｈｉｌｅ？ｄｕｅ ｔｏｔｈｅ ｅｎｖｉｒｏｎｍｅｎｔ ｃｏｎｔａｉｎｓ ａ ｍｕｃｈｗｉｄｅｒ ｖａｒｉｅｔｙｏｆ ｐｏｓｓｉｂｌｅ ｔｒａｉｎｉｎｇｓｉｇｎａｌｓ，ａｎａｕｘｉｌｉａｒｙｔａｓｋｎａｍｅｄ ｃｏｌｌｉｓｉｏｎｐｒｅｄｉｃｔｉｏｎ ｉｓ ａｄｄｅｄ ｔｏｔｈｅｍｏｄｅｌ．Ｔｈｅｎ，ｉｎ ｔｈｅｐｒｏｃｅｓｓ ｏｆ  ｅｘｐｌｏｒａｔｉｏｎ，ｔｈｅ ａｇｅｎｔ ｔｈｒｏｕｇｈｏｕｔ ｔｈｅ ｅｎｖｉｒｏｎｍｅｎｔ ｎｕｍｅｒｏｕｓｔｉｍｅｓ  ａｎｄｏｂｓｅｒｖｅ ａ ｌｏｔｏｆ ｓｔａｔｅｓ，ｂｕｔ ｍｕｃｈｏｆ ｔｈｅｍａｒｅ ｒｅｐｅｔｉｔｉｖｅ，ｔｈｅ ｔｅｍｐｏｒａｌｃｏｒｒｅｌａｔｉｏｎｎｅｔｗｏｒｋ ｉｓｕｓｅｄｔｏｒｅｍｏｖｅｔｈｅｓｅｒｅｄｕｎｄａｎｔｏｂｓｅｒｖａｔｉｏｎａｎｄｓｅａｒｃｈｆｏｒｗａｙｐｏｉｎｔｓ．Ｂｅｃａｕｓｅｔｈｅｖａｒｉｏｕｓｐｅｒｓｐｅｃｔｉｖｅｏｆ ａｇｅｎｔ，ｉｎｓｔｅａｄ ｏｆ ｕｓｉｎｇｈａｎｄ－ｄｅｓｉｇｎｅｄ ｆｅａｔｕｒｅｓ， ｗｅｕｓｅｔｅｍｐｏｒａｌ ｄｉｓｔａｎｃｅ，ｗｈｉｃｈｏｎｌｙｒｅｌａｔｅｄ ｔｏ ｅｎｖｉｒｏｎｍｅｎｔ ｓｔｅｐｓｔｏｃｏｍｐｕｔｅ ｔｈｅ ｓｉｍｉｌａｒｉｔｙｂｅｔｗｅｅｎｓｔａｔｅｓ．Ａｎｄｉｎｓｐｉｒｅｄｂｙｔｈｅ ｒｅｓｅａｒｃｈｅｓ ａｂｏｕｔ ｃｏｇｎｉｔｉｖｅｍｅｃｈａｎｉｓｍ ｏｆａｎｉｍａｌｓ？ｗｅ ｌｅａｒｎｅｄｔｈａｔ ｍａｎｙｍａｍｍａｌｓ ａｒｅ ａｂｌｅｔｏｕｔｉｌｉｚｅａｎ ｏｂｓｅｒｖａｔｉｏｎ，ｅｓｐｅｃｉａｌｌｙ ｔｈｅ ｏｎｅｉｎｃｌｕｄｅｌａｎｄｍａｒｋｓ，ｔｏ ｒｅｐｒｅｓｅｎｔ ａｎｅｉｇｈｂｏｒｉｎｇｓｔａｔｅｓｐａｃｅ，ｔｈｕｓ  ｅｎｃｏｄｉｎｇｔｈｅｅｎｖｉｒｏｎｍｅｎｔ ｉｎａ ｓｉｍｐｌｅｒ ａｎｄｅｆｆｉｃｉｅｎｔ ｗａｙ．Ｓｏｗｅ ｕｓｅｗａｙｐｏｉｎｔｓ，ｗｈｉｃｈｄｉｓｃｏｖｅｒｅｄｉｎｅｘｐｌｏｒａｔｉｏｎ ｓｅｑｕｅｎｃｅｓ  ａｎｄ ｃａｎｒｅｐｒｅｓｅｎｔ ａｎ ａｄｊａｃｅｎｔ ｓｔａｔｅ ｓｐａｃｅ ｔｈａｔ ｗｉｔｈｉｎ ａ ｃｅｒｔａｉｎｔｅｍｐｏｒａｌ ｄｉｓｔａｎｃｅ，ｔｏｄｅｓｃｒｉｂｅｔｈｅｓｔｒｕｃｔｕｒｅｏｆｅｎｖｉｒｏｎｍｅｎｔ ｇｒａｄｕａｌｌｙ．Ｆｉｎａｌｌｙ，ｔｈｅｓｐａｃｅｔｏｐｏｌｏｇｉｃａｌｍａｐｉｓｉｎｔｅｇｒａｔｅｄｉｎｔｏｔｈｅｍｏｄｅｌａｓａｐａｔｈｐｌａｎｎｉｎｇｍｏｄｕｌｅ，ａｎｄｃｏｍｂｉｎｅｓｗｉｔｈｌｏｃｏｍｏｔｉｏｎｎｅｔｗｏｒｋ ｔｏｏｂｔａｉｎａ ｍｏｒｅｇｅｎｅｒａｌｎａｖｉｇａｔｉｏｎｍｅｔｈｏｄ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｗａｓｃｏｎｄｕｃｔｅｄｉｎ３ＤｓｉｍｕｌａｔｉｏｎｅｎｖｉｒｏｎｍｅｎｔＤＭｌａｂ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｒｅｓｕｌｔｓｓｈｏｗｔｈｉｓｎａｖｉｇａｔｉｏｎｍｅｔｈｏｄｃａｎ ｌｅａｒｎｇｏａｌ－ｄｒｉｖｅｎ ｂｅｈａｖｉｏｒ  ｆｒｏｍ ｖｉｓｕａｌ ｉｎｐｕｔｓ，ａｎｄ ｓｈｏｗｍｏｒｅｅｆｆｉｃｉｅｎｔ ｌｅａｒｎｉｎｇａｐｐｒｏａｃｈ ａｎｄｎａｖｉｇａｔｉｏｎｐｏｌｉｃｙｉｎ ａｌｌ ｔｅｓｔｅｎｖｉｒｏｎｍｅｎｔｓ？ａｎｄ ｒｅｄｕｃｅ ｔｈｅ ａｍｏｕｎｔｏｆ ｄａｔａ ｒｅｑｕｉｒｅｄ ｔｏｂｕｉｌｄ ｍａｐ．Ｆｕｒｔｈｅｒｍｏｒｅ，ｂｙ ｐｌａｃｉｎｇｔｈｅ ａｇｅｎｔ ｉｎ ｄｙｎａｍｉｃａｌｌｙｂｌｏｃｋｅｄ ｅｎｖｉｒｏｎｍｅｎｔ， ｔｈｅｍｏｄｅｌ ｃａｎｔａｋｅａｄｖａｎｔａｇｅｏｆ  ｔｏｐｏｌｏｇｉｃａｌｍａｐｔｏ ｇｕｉｄｅｄｅｔｏｕｒ ｂｅｈａｖｉｏｒａｎｄｃｏｍｐｌｅｔｅ ｎａｖｉｇａｔｉｏｎａｌｔａｓｋｓ，ｓｈｏｗｉｎｇｂｅｔｔｅｒｅｎｖｉｒｏｎｍｅｎｔａｌａｄａｐｔａｂｉｌｉｔｙ．Ｋｅｙｗｏｒｄｓｇｏａｌ－ｄｒｉｖｅｎ ｂｅｈａｖｉｏｒ；ｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ；ｃｏｌｌｉｓｉｏｎｐｒｅｄｉｃｔｉｏｎ；ｔｅｍｐｏｒａｌｃｏｒｒｅｌａｔｉｏｎｎｅｔｗｏｒｋ  ；ｓｐａｃｅｔｏｐｏｌｏｇｉｃａｌ ｍａｐ；ｌｏｃｏｍｏｔｉｏｎ ｎｅｔｗｏｒｋｉ引言箭物，？括人鐵在内ｓ梅空间认知和行翁规划方面具有非凡的能力，与其对应的导航行为也在心理和神．经科学■ 中得到广泛研究ＩＭＳ年，ＴＴ〇ｌｍ？ｍ［３］提：出，“ 认知她題《ｃｏｇｎｉｔｉｒｅ ｍ雄” 概念用Ｔ：说明物理雜＃：的＿，自此，认知地图的存隹和形式一直饱受争议．近年来，通．过将甩极放置：布啮齿类动物脑中及研究其电生理记录，位置细胞 自身动作线索Ｃｐｋｅｅ ｃｅｌｌｓ）？网格细胞＜ｇｒ．ｉｄａｌｌｓ》和头謝向姻胞（Ｈ麵４－Ｄｉｉ６ｃ．ｔｉｏｎｅｄｌｓ，ＨＤ ＃ｔｌｌｓ）［４】等多：神＇有：碧；环．場编码的细胞樽以被人们熟知．在空间认知过．程中，每种钿胞有壤驗蒙＿能，它们猶瓦会惟完成对状霧空间的表达，＃类细胞连接如？ １所示［５］．此外 ＜ 坯有证据＿明海马体－内嗅皮层脑区不仅参与空间记忆，在规划路径中也具有重要作租．图１辱航姻胞逵義丨西相比之下。移动机器人导航系统通常以同步定ｆｅｆｔ（ＳｉｍｕｌｔａｎｅｏｌｉｓＬｏｃａｌｉｚａｔｉｏｎ ａｎｄＭａｐｐｉｎｇ，ＳＬＡＭ）ｍ＊主要实现方式，该类方法可利用传感器数据（例如：激光１程计、声呐、视觉等）并结脅机器人自身运动價．息构建未知环境，的度璧地图：以实现＿主蕃航，在Ａ：霧ＳＬＡＭ方— 中与傘文立怍議意相近５Ｍ 计導机攀报 ：＿１苹的：是视觉 ＳＬＡＭ（：Ｖｉｓｔｔａｌ ＳＬＡＭ，ｙＳＬＡＭ＞：攥濯［７］，该方法主繁＇以视觉感知环境信息，并通过摄像机姿态和多视角几何理论构建地图．为提？高数据处理速度，一画ＶＳＬＡＭ算法会优先提取图像特征点（例如：ＳＩＦＴ［Ｓ］、ＯＲＢ［９］Ｋ然后通过匹配特征点寮成帧间估计和闭环捡测》基于ＳＬＡＭ的方法可提供高质？量环境地图，钽此类方法致力于隹置雅算和地图构建；往往需要额外的姿态或自身运动信息，且对动态环境缺乏通ｔ性．雜度强化參辱（ＩＪｅｆｔｆ Ｒｅｉｎｆｏ＇ｒｃｆｉｍｅｆｔｔＬｅ＇ａｔｎｉｆｔｇ，ＤＲＬｊｉ＞ｌ：邊＿慶參渴（Ｄｆｅｅｐ ＬＭｒｉｉｉｎｇ，ＤＩＪＪ１］和彌化攀：习（，Ｒｅｈｉｆ〇ｒ，ｅｅｔｏｅ：ｉｔ ＬｆｅＳｉｎｉｎｇ＜ＲＬ）网；ｆ｜ ＿：組成：，它的出现在一定程度上推动了机器拟人化的发展．由于其具有端到端的争习：框架，深度强化学习也被广泛应用于导航领域，并在高＇維空间中展现出良好－的适应性？ Ｚｈｕ等人［１３１将预训练的ＲｅｓＮｅｔ与具有ｓｋｍｅｓｅ架构的网络模型结会ｓ实现以目标驱动的视觉导航．弁在模型中増加目标适应性训练？使智能体对新員标具有更好的泛化能力．钽这种方法本质上依赖于纯反应行为．在复杂环埯中性能下降明显－Ｍｍｈ等人［１４］提进一种基于策略的异步强化学习方法潘刹用该＃法训练结合长短时记忆网络（ＬｏｎｇＳｌｉｏｔｔＴＴｅｔｔｎＭｅｔａｏｒｙＮｇｔｗｗｋ，ＬＳＴＴＭ》’的犧耀密３Ｄ迷宫中学习导航，实验结果表明该模滅可存储环境相关信息并莸得更加通用的控制策略，Ｊａｔｏｂｅｒｇ暮ＪＪ１５３验ｆｉ￡多种辅逝任备对ｅ？ＮＬＳＴＭ欐型的影晌ｒ在：Ａｔｓｒｉ测试环簾中，通过对ＤＱＮｔＤｅｅｐＱ－ＥｆｃｔｗＱｒｋｓ、，：深度Ｑ网：絡：）［１６］和ＵＮＲＥＡＬＡｇｅｎｔ的比较，进一歩ＳＥＩＴＴ ＬＳＴＭ的记忆功能／＿ｒ〇ｗｓｋｉ等人［ｉ７］构建一种具有堆叠藥构的模型ｓ在结合深度预测和Ｗ环检测后ｓ智能体学习速度和导航效專显著提齊？茼时在实验过程中，是否存在ＬＳＴＭ及ＬｇＴＭ梟数对导航性能的參响也得到验证．模型中包含逋用ＬｇＴＭ的系统可储存大量鈈境猜息＊即使是在回合间随机敢置目标的３Ｄ环境中也能很好地完成导航任备－然而该秀方法的控制策略只针对待海坏境有效，当通路中出现堵塞或障碍物时＊智能体讀再次映射该路径／因此有很多研究人员试圈＇通过对空间结构进行编码以更好地应对＿埯变化？于乃功等人［１Ｓ］模仿海马结构牵问认知机理构建细胞吸引子模型，认而实现构建精确环境认知地图．Ｐａｒｉｍｔｔｏ等人＿使甩二维记忆图储存环境信惠，利用该抽象地图可寇成路径輕划任务．Ｇｕｐｔａ等人ｔ２° ］引人一种新颖的神经导航结构，该方法可从第一人称视角學习环境■表怔？Ｓａｖｉｎ时等人［２１］则通过半参：鐵有？扑记忆（Ｓｅｍｉ－Ｐａｒａｍｅｔｒｉｃ ＴＴｏｐｏｌｃｉｇｉｃａｌＭｅｍｏｒｙ＾ＳＰＴＭ）构建：未知环墙的拓扑地图，并使甩该地Ｈ驱使智能体寻找目标．以编码环境为导航实现方式的耸法可通过构建空间类＿表征引导目标导向行为，受堵＿和障碍物泰响较小＊但路搭慮针对每次任务进行规划，即使在全连通环境下也是如此，这无疑会降低算法的导航效率．综上所述，深度強化学苺为裁取控制策略和编码坏鐵：靖：构提供了＿种方徵，本文在此基础上轉菌种导航形式结含，提出一种可－隹学《目标导向行为过纖中构建空间拓扑地图齒导航方法？其中，目＃导向＇行为由＊有：深度强化学方架构的智能体在环境中学习所棒／而拓扑地图则基于其精景记忆和观测之间的时间距离构建．运动网络ｆｅ规划模块的补充，它可以帮助智能执行所规划的路径－２深度强化学习简介深度强化学习将深度、攀Ｓ的视觉感知能力与强化学习的行动规划能力融为一体，构建了一种对视觉？世界具有更高层次理解的端到端模型．在相关研究中，裸度强化学习的基本架构包括＇ＤＱＮ０６３和深度递归网雜Ｒｅｃｕｒｒｅｎｔ ＱＮｅｔＷＱ：ｒｋｓ，ＤＲＱＮ）［２２］．２．１深度Ｑ网络ＤＱＮ是第一个被怔明可在多种环攙中直接通过视觉输入学习控制策赂的强化学习算法，其摸型如图２所示，输入为智能体观测到的连续４帧图像？状态０ ０卷积层２卷积层３卷积层１图２Ｄ＿檩遵标准强化学习算法假设智能体通过离ｍ时间步与环境迸行交互，其目＃是学眉回合内可最大化奖励的策赂．在海一个时间步＾智能体会根椐，前状＿ ＆和蒙赂７Ｔ逸择动＇作在执行动作Ｂ霖痛奖励ｎ并进入下一状态＋１ ．每一个时间步的■ 回报尺定义为累积折扣奖励：Ｔ（１）ｉ＇— ｌ其中，丁海回合愈大吋间＃Ｓ／为当翁吋间步，ｆ为起始时间步，ｙｅｌ〇，１］为折扣因子，ｒ，＇为当前时间步所获？奖励．ＤＣＪＮ＇逋过动作：值函数（３等习控制策略，定Ｋ娆爾等：基ｆ＿顯等向行为３期 ■空间第朴记忆的班鹙导航操 ５９ ７义为給定策略７Ｔ和状态／下执行动作＆后的期襲回报：？ｉｉ－：） ￣Ｅ Ｈ－Ｒｉ Ｉ ｓ， — ５ ？＾（  ２）其中和？发Ｉｆ？时间歩状态茇动作，在ｇ义Ｑ＊的輝时定义最■动作氇爾敷＜２＊＊挪）＝ｍａｘＱｒＣｙ，ｄ），借助贝尔曼方馨可迭代更新动作值．涵数；Ｑｉ＋ｊ （ｓ，－．ｉａ；３ ＝ＥＳ＇ ＼ｒ－＼￣ｙｍ＆ｙ＾Ｑｉｔｓ．ａ＂）］（３）其中和＾为下一时间步状态°及动作．当；一〇时，Ｑ，Ｑ＇ＤＱＮ使甩参数为５的＿线性．涵数逼近器一卷顧神：鋒＿ 络：（ＣｉｅｎｖｃｄｕｔｉｃｉｎａｌＮｅｕｒａｌ： Ｍｆｅｔｗｓｒｋｓ；ＣＮＮｓ）—拟合Ｑ像此时同禅可以利用贝尔憂等式棄新参数（？，定义均方＇误差损：失函数：Ｌ，（齡二氏，？．，［（＿ｖ，Ｑ＆，Ｃｓ！ｄＪ）２］Ｑｉ）眞：中＊１为当前时陶步，５，＝ｒ＋ｙ为目标．Ｑｑ Ｇ．ｄ）为当前网络Ｑ值．通；４敵分损失涵数可痔梯度吏新值＾［Ｃｇ＜ｉ＾Ｑｔｆｉ ｉｓ＾ａ＾Ｖ＾Ｑ＾Ｃｓ？＇？３］Ｃ５）逋过在环境中学：习不断减小损失函数，使得Ｑ（  ｓ，《；扔你Ｑ－（ｓ ．，ａ），实标上ＤＱＮ．并不是第一个尝试利用神经网讚实现强佑学习的模型．，它的前身、是神蠢拟合Ｑ迭代 ＣＲｅｕｒａｌ ＦｉｔｅｄＱｉｔｅｍｉｉ〇ｎ，：ＮＦＱ）［２３］，其架构也与Ｌａｎｇｅ等人Ｍ提出的模型密切相关．而ＤＱＮ性能之所以如＾此突．出，目标两祭和绶验回放２６］有不可＇磨獅货献‘２．２深度递归Ｑ网络ＤＱＮＢ被证明能够在不同Ａｔａｒｉ游戏上从原始视觉输人学习人类级别的控制策略．．正如它的名字一样，ＤＱ８＇根据状态中每一个可能动作的Ｑ值Ｃ．或回报）选择动作５在０值估计足够准确的情况下；可通过在每个时间步选择Ｑ值最、大的动作获取皋优策略．然而；由？２可知，ＤＱＮ■的输人由智能体遇到的４个状态组成，这种从有裉状态学习的映射、本身也是有限的，窗此，它无：法：掌握那些：要求玩家记往比过去４个状态更远事件的游戏．当使用ＤＱＮ在＿分可藤马獻Ｉｆ夫决策过表（ＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭａｒｋｏｖ Ｄｅｅｉｓｉｏｎ Ｐｒｏｃｅｓｓ，ＰＱＭＤＰｆ２７］中學牙緯制策赂时，由于无法结合过去的状态选择最优动作，ＤＱＮ．在ＰＯＭＤＰ环境申的表现很不稳定．为此，Ｈａｕｓｋｎｅｃｈｔ等人［２２］将具有记忆功能的ＬＳＴＭ与ＤＱＮ结合，提出ＤＲＱＮ模型＃其结构如Ｍ Ｓ所示．Ｍ状态０ ０ ０卷积Ｉ麵３０，全连接层珊ｔ卷积层ｉ图３ＤＲＱＮ機＿３综合预训练模型动作网络和时间相关性网络分别是执行绕路行为和构譙拓朴地图的甚础．两个网络在機型结梅和训练方法上有稂多相似之处，且都需裏在智能体学＇习目标导时行之前完成训练．因此，构建综含预训炼模型对两个网络同步迸行训练／下面将对两个网络和训练模親进行详细介绍，３．１动作网络动作网络被训练用于选取动作，这些动作可帮助智能体完成导航节点之闻的移动，进而实现利用规划路径寻找目标．动作网络以观测对（．〇，，％）为输人，并以概率）ｅｉ？ＡＩ为输出，导航节点之间的动作可根据该概率选取．在以图像作为输人进行？测的方法中，使用巔为善遍的是帧间ＩＩ方法＊这是一种作用于像素级别的预测隹樣，其突：掛特点是＝实时性、但廣方渎輪集存觀淮确率有酿和籍受干抚两个问顧．为提＿预测精度及摆脱环境干扰物的影响，使用特征空间代替原始视觉感知作为．网絡输人．由于动作网络是针对■智能体观测之间的动作做出预测，因此可将网络编码的物体分为三类：ＣＷ１被：餐能体动作影响的物体；（２＞不受智能体动作影响，但其：动作可影响智龍体的物体；（３）与智能体动作鐵全：无：关的称体，本文：致力于抅建一个対ａ（２）敏感，ｉ不受ａ）響响的特征空间，并利用其完成动作预测＞相较人为设计的特征，本文使用探度神经网：络（！＞魏Ｐ咖ｗ〇：ｒｋ，：Ｄ顧續翁生珊辱征？雨作网络模型如图４所示，它具有端到端架构，在这种架构下特征不会与动作分离，而是在一起相互学习？从前向部分图４：动作：轉翁＿５９８ 计導机攀报 ：＿１苹而确保特征不会对任何不能影响或不受智能体动作影响的物体进行编码．动作网络模ａ中包含前向和反向两部分，其中，俞向部分是墓于Ｒｅｓｉｓｔ－１８［２Ｓ的深度卷积编码器．．可将原始观测（朽．，％ ）编码为特征．＿嚢（：〇山ｆ￡句＞ ］；戾向部分厕以费征向最作海输Ａ（弁计＃动作概拿３．２时间相关性网络时间相关性网络的目标是通过时间距离寻我情暴记忆中的导航节点，这对于避免存储宂余观测和梅建拓扑地囲至关裏栗．同时，本文的视觉感知任务（包括智能体定：位及目标检测）也由对间相关性网络实现．在探索过程和随后的目标导向行为中，智能体会多次遍历环：壎弁储存：大讒贽＃规测数据，通过阅读有关哺乳动物空间认知方式的研究，了解到哺乳动物可利用一个观测：特别是包含路标的观测，映射一个邻近空间，以此高效认知环境［２９］．本文的拓扑地图构＇建方法也是受此启．蒙，判断观测是费邻近賓通过面像特征相似度法实现，但由予智能体视角的多变性，导致该类方法并不能很好地显示观测是否邻近？因此，为降低环境特征对算法性能的影响，貪弃围像相似度方法，茱用在情＃圮忆中挦到广泛研究的时间．距离［２１］判断观测是否邻近．从概念上讲，时间相关性网络可被看成一个分类任务，它错乎时间上邻近的观测较高＇的相似值＊而给予时间Ｊｌ远离的观测较低时相似值．由于观测序列的连续性，较短的时间距离必然导致相邻的观测，且时间？距离只与观测之间的步长有关，不受酉像特征影响．时间相关性两雄模型如图５所示，它包含嵌入和比较两部分：嵌入部分用于抽象化视觉输人（０，＾Ｋ，其结构基于Ｒｅ满ｅｔ－ １Ｓ；比较部分以特征部分图５时间相关：性歸翁＿作为输人并计箕时间相关系徽；其中，故（〇，［〇，１］为〇１和ｑ之间的时间相关系数，Ｅ（〇，）为观测特征化过程，丁ＣＣ？用于计算特征间的时间相关系数．３．３训练模型虜３，１言斑ａ，２节可知，动作网攀和时间相算性：Ｍ絡有很多相似之处？第一，两个网络都使用Ｓｉａｍｅｓｅ架构学习特征和进行预测，其卷积部分全＾部基乎Ｒｓ §Ｎ？ｔ１８？粲二，篇然两个网络所使用的训练样本具有不同的形式．但其原始数据来源于同一随机探索环镜的智能体？第三，哥个两络都以自．腺督学习为训练方式，且使用相同训练方法和超参数？讀后，对Ｒ－ｎｅｔｗｏｒｋ’不同部分鸯要性的研究更是？促使我们将两个两雄放在Ｍ — 模■ 中进行训练？考虑到特征对预测的泰响》舍弃时间相关性网络的嵌人部分，保留动作两雄的前向部分，并使用动作顼测误差构建特征，擦合预训练德型如？６所示．前向部分 ？００― 冗衫比较部分，６，貧预到＿翅在使用该模型迸行训练时，爵个网络的损失請数分别计算．．其中，动作网络通过监督＃习进行训练，并使用交叉熵作为损朱涵数．训练．祥本形式为（Ｃ％，讀作屯对盧：式中攀一个麗测ｐ；．，隹律本以情臺？忆… 和动作學歹ｇ＞：ｌ，《 ２，？ ？＇＊Ｓ为鹿始数磨＜并使用６个时间歩分割而成；网络训练被定义为学习函数０，１ Ｈｐ＝ Ｌｉ〇ｉ ＊〇，＋ｋ  ｒｆｔｓ－Ｊ￡７）＿中４邊》，的猶＿崔为动作魏测：概率和〇，＋ｔ为相隔＆个时间步的两个观测．．网络参数＆通过阮晓钢等：基于目标导向行为和３期 空间拓扑记忆的视觉导航方法 ５９ ９式（８）进行优化：ｍｉｎｌｏｓｓ （ａ｛（８）°Ｌ其中，／咖用ｆ衡量预测动诈与实际■动作之问的差异．通过以随机运动的智能体轨迹作为原始训练数据，可习得有效的动作条件分布丹ａ｜〇，？ｅ＿乂时间相关性网络的训练样本由两个观测和一个二迸制标签组成：〈电说⑷ ＞．？数摒闻样来源于随机擇素．环墙的智能体．如果两个观测值之间＂室多相隔々个时间步，则认为它们邻近（？％＝ １＊）？负榉本由两个至少相隔ＩＷ４个时间步的观测组成，Ｍ用乎扩太芷负样本间差＃？晕后，利用逻辑Ｍ妇作为损失函数并输出邻近概率．４导航方法智能体与新环境的．交互分为两个阶段：在第一阶段内，智能体随机採索环掾，并使用收集到的数据训练动作网络和时间相关性网络；在第二阶段内，智能体茼歩学习目标导向行为和构建空间拓扑地Ｓ ｓ并将二者结食用：于瓮成导航任夯－４．１目标导向行为Ｉ标导．向行为可眷作智能体在回食内学习最大化奖励策略时的副产物＜而具有深度强化学习梁构的系统更是在轶领域取得了巖先进的成果，所以举文模型也以深度强化学习为基本导航捱梁，并增加额外输人和辅助任务以提升学习效率．为使智能体更高效地学习目标导向行戈＾导航框架以ＤＲＱＮ＇模戴为塞础，并针对本文任务做出以下调整；（１）由于？导航过程．中使用辅助任务提升智能体学习效。率，多佘的卷狼层＾蹭加模型训练难度，祖此将ＤＲＱＮ模塑中卷积爲由３层减少茧２篇；（２：）为缓解辅助任务带来的额外计算压■力，对训绦数据进行降维处理，即将ＤＲＱｊｆ模型中第一层和第二层卷积输出的３２张和！Ｈ张特１正图分别减少至１６张和３２张特征图．改进后的导航模灌如图７所吉作！ＩＩ蠢ｚａ状态０卷积层２卷积层１图７＿本导霸：框黎ｇ值函数策略示，其输人包括：观测久中ｗ和ｈ为图像的宽度和高度上一时间步动作ｅｉ？ｗ和奖励ｒ，斤艮同时，使用＇模型后端分离的线性层计箕策略；ｒ和慑画数Ｖ．在训练方法上，没有直接利用ＤＱ興所依赖的动作值函数Ｑ（＞，，《：啲和均方误羞攀３导航，而是使用Ｓ＃优勢 Ａｃｔｅｒ－＆ｉｔｉｏ（Ａ｜Ｃ：Ｐ４］：算ｆｔ在雜１１状＿ ５，的精况下摩习策略ｒＵＵ４）和值函数且撼个训练过程中，除仿真环＇境内可获得的奖励４苹果、目标）外，不增加动作或碰撞惩厨，所用奖励涵数如式（９）所示：Ｒｌ－Ｊ＋ｎｙ＾ｔ＋ ＾ＴＶｉＳｔ＋ｎ＋ ｌ ＞ｆ）￡ｆｌ）ｉ ￣１其中，为包含个时间獻的累：积折扣奖通，，ｒ，＋，为当前时间步所获奖励，ＶＧ，＋，，＋１，的为环境终端网络值麗数Ｖ在损失函数中使甩熵Ｅ删化处罚代替均方误差：？，５））］ｆｌＯ）萁中＇，Ｉ４＊＝拉，＂＾＋ｒ＊ 铲爲． ，＃））为策略ＴＴ的熵？《为熵系数、在训练过程中，多个智能体与多个环境并行变互？尽管后续实验怔明该模塑可从原始视觉输人中莩习目标导苘？？为＜但部分数据显示智能体＝学■习效率与拓扑地Ｓ构建速度密切相关？也就是说，导航策略越快趋于稳楚地图就越快覆盖整个空间．因此，为提裔智能体学习敏攀和减少构建地图所需＇数据量，在模型中结合一个名为碰撞预测的辅助任务，其实现方法如图８所示．＿ ａ織鑛爾测－權：赴趣雜輯其中，碰撞概率由ＬＳＴＭＭ的率爵感知器输电５预测误差１＾通过实标和预测情况比较所得，并結合权重应用于损失函数；＋ｔ，＋ §Ｌ，ｍ？，，＃）］ ｔｉｌ）其中，Ｌ？、Ｕ及Ｈ计算方法■ 式（１ 〇）相同．不难？发６００ 计導机攀报 ：＿１苹现，本文模型中使用的辅助任务实际上利用了空间深度信息－但与大多数算法不同，我们没有将深度图直接作齿模型输人以寻求更努效果，而是以损失函数的形式呈现环境锫构信息Ｓ弁利用＇其提供的密集训练信号加速引导学。习．此外．碰揸预测为在钱（对于当前帧）辅助任务ｓ不依赖任何形式的回放机制．４．２空间拓扑记忆＃扑地？是一种记忆空间绾构的方法＊文中使用导航节点对其进行填充，在每一银索回会错東后，结合时间栢关性网络和智能体观测序列对地？进行更新＊从而实现利甩情景记忆递増地描述状态空间．构建拓扑地图包括两个龄段：（１）初始阶段．此时模：型内没有任何有关环境的记忆，输人的观测序列糌作为智能体对环境的第一认知，因此薷筒化序列本身．假设智能体在环境中运行了个时间步掙到憶焉：记忆（Ａ，。２，？，电？以首次倚化为例，通过时间相关性网络计算序列内第一个观测込与其他观测Ａ的时间相关系数：ｔ＾Ｋ〇％ ＾） ＝ＴＣｉＭＵｉ）． ＥＵｄ）（１２ ）其中Ａ１为第一次简化的时间相关系数二２，ｔ …，Ｔ．根据阈值故．，省略与。：邻近的观测ｓ简化示意图如图９所承．这是简化的第一次迭代；观测〇１将作为第一个导航节点蚴储存在拓扑地图中＊然后使用随后的观测和周样的方法持续简化序列直到最后一个肅测．简化过程按情景记忆内观测的先后顺序进括，所以地函中的导航节点递增储存且在理论上连通．．但在规划路径財，露考虑动作网络的预测能力，因此，使用式ａｓ）检＊导航节点是否可达：％＝Ｖ ｜ ｉ ｊ ｜ ＾Ｌｋ（１３．）其中雨为辱撤节点苘達接关系彳戰翁叛』为地圏中馨航节点成，，６Ｗ． ５，纪Ｊ为可＿性阈傷ｓｉ和ｉ为导撤节点脚标，式中包含时间距离觀空询关系两种判别方法．（２）扩张阶庚？此財模１１中已包含部分环境拓扑地菌，智能体需ａ过集成每个观测序列不断扩充地＿因此，当俞情景记：忆ｕ：１，％，…，〇 ＊ ｔ中的每一个观测都需要与地图中的每一个导航节点迸行比较以得到它们之间的时间相关系数：ｔｃｃＣ〇ｉ ？ ｗｘ）—ＴＣ｛Ｅ｛〇ｉ）＾ＥＣｖｕ＾））（１４）其中渔当前情景记忆与拓扑地图间的时间相关系数，〇，Ｕ ＝１，２，…．Ｔ）为当前序列中的观测，？％〇＝１２：．？  ？ ？？＊〇，为翁扑地图中＿等航管蟲？如果当前情景记．忆中的观测全＿与拓扑地图邻近＊则不霈要更新地图．相反，如果在当前序列中的观测，即使只有一个观测不能使用拓扑地＿进行映射．．茚哉该现测将作为新的导航节点添加到地Ｍ中，此时ｉＪＳ要：创逾与霜对處■的连接：＊ＴＣ＇ｆＥ｛〇ｉ＾）． Ｅ （ｗ，）） ＾ｉｃｔ，二 ＜ＣＩＳ）Ｌｂ，Ｓ中冲．－：为饵前一时何步的观测．＊  〇？ ｅ ］＞，了］）为＿前臀量Ｓ忆中靈蒙规盼导雖，處［１＊ｗ ］）为拓扑地图＇中的导航节点为邻近阈值，４． ３导航流程导航任务以回合制进行，每个回合持续固定的时间步或直到找到目标为止＊在回合内 ＞智能体起始位置爾定，通过目标导向行为或规划的路径完成导航任餐由于控制策略在无障碍环境中获得，因■此当不＿定■环境中是否存在堵寨时＊可使用＇具有目标导向行为的智能体进行试探性导航．如果智能体在一定时间步内到达目标，则？明环境中没有堵愈导航任务可通过该策略歲成．相反．如果智能体在一定时间步内无法接触目标，则证明环境中￥隹堵塞，单纯的目ｆｅ＃向行为Ｓ东再适用＊导航任务看结合拓扑地围和路径规划，完成＿在重新规划路径之前，需：确定智能体停滞和目标所屬导航节点，并将它们作为路径的起点和终点．该视■ 虜知过霉时间柑关牲：＿：＿实现：对午瞒认智能体停滞位置，可使用当前观测ｉｆ拓扑地酉内导航节点迸行比较５并根据时间相关系数＿定智能体所扁导航节点；对于目标检测，本文仿真环境中的目标有其面定的形状和颜色．并可在学：习目标导向行为中收集获得，利用该業图片和时间相关性网络可定位篇标位養＊定位方法如圈１０所示，图中黑色圓ｊＵＬｉ－Ｂｔ Ｆ导航节点缓存图１０定位方法Ｋ娆爾等：基ｆ＿顯等向行为３期 ■空间第朴记忆的班鹙导航操 ６０ １形分别代表：当前目标和智能体所属导航节点，黑色线．段代表堵寨位置》在得到起：始和目标．位：置后，根据迪杰斯特拉算：法０＾寻戏导航节点Ｗ和Ｗ之间的最优路径ｔ（ｉｔｖ＇ｉ ？？ ？ ＊；  １＊＾ ） ？Ｍｐ—ｉ＊？？１＊ Ｗｎ—Ｓ＊（Ｌ§：）其半，：ｗ° 为起枱节＇虑ｖｆ＃为■隱标节点？然：而从雇Ｉｄ可以看由于拓扑地图是在全连通环境下构建的．规划的路控：Ｃ黑色路径＞可能包含跨越堵蠢的逢揍，而这在实际＃航中并：不可行．类似的不可甩洚接应被发现，并避免在接下来的路径规划中使用？因此，一旦发现智能体长时间停留在一个位置，就证明路＿．中包會跨越增塞的连接，此时Ｌ歡逢翁的路ｆｔ代价设置为无穷大，并使用修正的拓扑地图重新规划路释■ 由于＃航节虑之间相式连接道环境中的堵塞可能不止一处，所以路径规划是一个迭代调整的过程，整个导航流程如图＇ｌｌ所示．图１１导顧：瀵義５实验实翁中通过■處隹导航任＃评估本文携遒＊＃与祖关基线方法进行比较＜ 学习过程主要以奖励／时间（ｒｅ？社ｄ／画的形式：墨现，图中：爵间点对愈的奖励值为一小时内（虚．拟时间．）潛能体所获奖励与龜成國合像鲁３Ｆ均檀；ｆ智會体■每个厲＂＃内执行４５ ００參动作．Ｓ． １实验设置ｉ．１．１宴緣苹脅实验在３Ｃ仿离：环境．ＤＭｌａｂ中进行［３２］，平台运行示意图如图１２所示．在该环境内＜ 智能体执行离散动作：，可实现小雜围转向．加殖前迸遽＿或转弯．興廟由餐篚体在會中接目餐眞每＊在接：触自斿，智能体将被重置到起始偉聋＊每个回合都提供充足的时间步，保证智能可多次到达目标▲ 仿真环境以６０帧／秒的速度运行，并在环境，中放置奖励刺激探索行为，其中，苹果奖励为＋ １，目标奖励为＋ １０．（ａ）前进（ｂ）苹果（Ｃ）目标（ｄ）门图１２像霧尋壌Ｓ，Ｌ２基錢方法在学习目标导向行为■实验中．使用在深度强化孥习领域具有代表性的前馈（ＦｅｅｄＦｏｒ ｗａｒｄ，ＦＦ｝［１６］機型和绩合长短＇财诏忆网铬＜ＬＳＴＭＪｉ＞］的機観与本文犧龜（Ｎａｖｉｇａｔｉｏｎ＋Ｃｂｌｌｉｓｉ？１１ ＰｒｅｄｉｃｔｉＱ．ｎ．，Ｎａｖ＋Ｇｍ迸行比较．其中，ＦＦ檫型由３肩卷积和１层全连接构成，每一层后都配有ＲｅＬＵ非线性单元，策略和值函数由单轴的输出层计箅．ＬＳ？模塑结构与ＦＦ模型类似，只是在全连接棲后增加１ ｇＬＳＴＭ，此外，没有结合碰揸预测的本文方法ｆＮａｙ）也在迷宫中迸行测试．在＃有动态堵搴猶环＃中进行测试时，共有三种方法用来验怔拓扑地图在擦塑中的作用，其中＾第一种Ｒ使用学习到的导航策略￡沁〃＋０？）在环境寻找目标，第二种将目标导向行为与空间拓扑地图相爾合（Ｎ４ｙ＋Ｃ：Ｐ＋ Ｓｐ祕ｔＴＴｏｐｏｌｏｇｉｃｆｔｌＷ歸Ｎ‘ ｖ＋ＣＰ ＋ＳＴＭ）甩于叢成导航任务，第三种是基：于智能体■翁标．置（？！＇：的鑛抚：路备（Ｏｐｔｉｍｄ Ｐａｔｈ，ＯＰ）方法由于使甩了环德特权ｉｆ息，这种方法可将环境直接离散化为二维地图从而选择最优路径．１？  １． ３愼纖禽规细，由圏４可知，本文导航模型与ＦＦ和ＬＳＴＭ模型结构不同？它是由２层＃积、１层全连接和１层ＬＳＴＭ组成其中，第一层卷积核尺寸为８／８，跨度为４／４，输出１６张特征圈＊第二层卷积核尺寸为士／４，跨度为２／２，输出３２张特征图；全连接鳥具６０２ 计導机攀报 ：＿１苹有２５５个神经元４前三层神经网络都配有ＲｅＬＵ非线性单元．在得到卷轵编码器输出后，将其与智能体上一时间步的动作和奖励串联作为Ｌ承ＣＭ层的输人，ＬＳ．．ＴＭ层与全连接层具有相同神经元数且配有遗忘单元＿＿策赂和ｆｔ函数由ＬＳＸＭ层输出线性预测所得Ｊ並瘇概率则由单层感知器预测所得．综合预谓练獏灌的输人为Ｗ个观测，两者都要Ｍ过ＲｅｓＮｅｔ－１８编码器处埋并生成Ｓ１２维特征向量？在摸遭内部，动作网络首先将两个观测的特征串联，然巵结合２层全连接《每．层具有２部个神■元）和Ｓｏｆｔｍａｘ层输出动作概率？而时间相关牲网络则是分别对两个观测的特征进行处理，并使租４ｇ：金．连接Ｃ每层ｆｔ有５１２个神经元）计算两个观测是否邻近？除输出层外，每一肩神经网络后？都配有ＲｅＬＵ非钱性单元，１１．４超参魏为展现各模型莅视觉丰■窵环境中的导航性能，不对智能体观测进行黑白化预处連，而是直接以Ｓ＜ＸＭＲＧＢ樹像作为模型输入？与之前方法［１６如相比，彩色图像可提供更多坏攙詹息，但也在一定餐度上增加了模型训练难度？学３过程中，借蓥文献〔１４］中所介绍的Ａ３Ｃ范例引导强化学习，使用８线程及投有动纛和方差干预的ＲＭＳＰｒｏｐ算法训练神经网络，毎个动作依然重复４次？孥习攀从［１Ｘ１０４，５Ｘ１０３］盧，间＿掛对数均勻分布来样，熵代价赢［５Ｘ１０＾Ｓ１Ｚ１０２］艮间内按对数均匀分布来祥，杈值从［１／１０—２，１Ｚ１０—１］区间内按对数均匀分布采样．纏＃猜训纖：模邀的输人是分辨率为１抑，１２０像章的两个ＲＧＢ厨像，该训练数据通过一个随机探索环境的智能体产生．训练过程中使用学习率Ａ＝０． ０００１的Ａｄａｍ优化器Ｍ进行学习，近期数据储存ｔｉｍｅ／ｈ（Ｘｌ〇６）（ａ）不同碰撞阈值实验结果＿容量为ｂ簡■ 冲厲ｓ每：次从■ 冲隱中随机采样ｍ对观测蜜新网珞参数．５．２参数选择实验本文致力于研究更加通用的导航策略？在测试模麵性能之前＊轍親先设定一些参數？这些参数主薺涉及两方霄：一是辅助任务中的碰瘇阈值Ｉ另一个是动作网条和时间相关性网络中的训练细节，这些参数将在如圈１３所示的迷宫中进行定性确认．Ｂ １３＿顯＿Ｍ．１＿＿＇僂翁验在本文导航模型中，使用一种名为碰撞预测的辅助任务＊而碰撞貴生与否取决于智能体与障碍物之间的最小阻离．因此．需确定不同约束值对导航性能的影响．同时对利用不词类＿深度信息的导航方法进行比较在测试期间，Ｒ执行Ｓ标导向行为，不．构建环：境地菌《实验结果如图１４所示 ＜数据为？ ５个具有最佳性能的智能体平均所得．从图１４（ａ）可以看出，当阈值＿［〇：，３］内采样时，替能体探參繳率？和学习酸藥各本枏同．如果阈植嫌置为〇，也就是ｉ兑，．只有在智能体撞到障碍物后才认为碰瘇发生ｓ：会导致探索效率低下．相反，如果阈值较大智能体则会过早执行避障动作，ｉｉ而间接干扰导航策略，导致需要更多的时间步才能到达目标？ ａ阈值为１或２时．智能体不仅可有效躲避障碍物，还能保待高＇数的目标导向行为？然而考虑到策略稳定性间题５碰撞阈值在本文中设耸为１．，１４碰屢＿＿＿舉Ｋ娆爾等：基ｆ＿顯等向行为議期 ■空间第朴记忆的班鹙导航操 ６０ ３从画１４《ｂ）可以看出＊当智能体直接将探度信息作为碰撞判别依据时，在探索环境过程中可有效躲避障碍物，钽此时碰撞预测误差仅甩于动作惩罚．对导航策略没有实质性的帮助．通过将深度图作为输人＾■智能体同禪可学３到控制策略，弁使用其快速遍历环境，但这种方法忽略了环境的颜色特征，使智能体无法进一步理解状套空间．而对于Ｎａｖ＋ＣＰ模Ｓｂ虽然其探索效率不如将猓度图作为输人的方法，钽辅助任务的使用给予智能体更多的环境锗构信息，从而实现更高效的目标导向行为．Ｓ－２． ２分割阈值实验在刺练时间相关性网络过程中＊需要时间步间隔点分割瓦负祥本，动作网络的训练样本同样使用阈值６进行区分．由于网络性能与々值的选取密切相关，现将不疴分割阈值对动作网络、时间相关性网络和导航节点所占比例的影响总结为表１，表中数据为５个具有最优超参数的智能体平均所锝．由表１坷知，隨着ｉ的增加，动作网络性能逐渐下降＊尤：真是在盾＿预＿精度下降明显．时间相关性网络训练效巣与正负祥本间时養异成反比，在起始阶段．由于正负样本几乎邻近＊敌时间相关性网络的预测准确率较低，而随着々值的増加＿＊其性能茼步提升．但当盾痛于神经＿络本身的限制，时间相关性两络的预测能力再次下降．此夕卜＊蛊然测试环境特征较为单一，但时间相关性网络准确率依然可达到９０％以上＿明其姓能并不依赖于环境特征？导航首京所占比例在理论上与＆值成正比，即祖隔的时间步越大，导航节点所占比例越低，在实验数据中也体现出相似规律．但＿Ｔ时闻相关性柯络影响ｆ隹Ａ＞５后导航节京比例有所增加？南亍財问相笑牲网络为本太视養虜知養现方式，爹敦智能体定位和目标检测，其预测精度对导航性能至关重要．＠此，本文设定阈值々＝４，此时时闻相关性网络准确率达到９Ｘ ５６ ％满足视觉导航要求，且动作网络预测精度也在９０％以上＊导航节点比例也处于較低水平．１２｜４５７表１分割阈值实验结果动作网络￣时间翁关性网络／．％＇￣￣导航节点比稠／难５． ２． ３环場交宜置实猶在整个学习过■ 中，训练样举由两部分组成：预训练和在线学习．Ｉ标导询行为通过在线学寻完戚＞因此不必关心＃本数量问题．而＇动作网络和时间相关性网络则需針对特定环境进行训练为节曹Ｍ练时间＾有泌要确定听需环境交苴暈．训练数据量对网络性能影响如表２所示＊奢中数据为３个具有最优超参数的智能体平均所得．由表２可知，随着交’互量的增加，动怍阿络预测准确性特键；上升？，但增长比率逐浙下择；財间相关性网络的性能也随训练数据的增加而提高，伹驾网络处于过拟合状态时、预测准确率会有所下降．经过综合考虑？将顼训练部分与环境交互鏟饿置；＆２．５Ｍ，此时两个网．络预测精度都达到９０％以上，可满足算法要求，表２环境交互量实验结果交互量动作网ｌｉＴＴｉｉ时间相关性网络／．％＇￣￥〇〇ＫＳ３． ５５５００Ｋ魏魏１ 祕９２．７５２，５！？９３．８３５ 祕９４．１４５．３静态迷宫实验本文所用测试坏漬如：圈：１Ｓ所浪：雜中，Ｍａｚｅ－１为督规迷官，其内部包含形状＃异的障碍物和多条通路；Ｍａｚｅ－２设计，歡感来源于Ｔ型迷宫［３５］，它具有对＿贈空间结构，目極位于４个翁支贈導头ｒＭａ２ｅ３最初用宁验证认知地图理论，其环境，由３条不同长麗的逋．路組成．截Ｍａ．？ｒｌ和Ｍａ？ｅ－３中，目标和＇水皋位Ｍ挺定，而智能体起靖位餐在回合间随机变化？但由于Ｍａｚｅｄ空向结构的特殊性，其环境设覃方式与前两者相反，即智能体起始位置固定，目标布回合间随机重置＞ 此类环境鼓励智能体学习一种探索－利用策略． § Ｐ在探索迷宫过程中记忆目标位萱，以便于在每次童查后更快速地找到目标．１？＾ ［ｒｎｒ＾Ｊ乩［Ｃ运ａ ｒｉＪＬｎ：Ｍｉ（ａ） Ｍａｚｅ－１（ｂ）  Ｍａｚｅ－２（ｃ） Ｍａｚｅ－３图１５静蠢迷宫顧试濯ｉ在不同测＇试环境中＃标导向行为學巧曲线（数据齿５个具有最隹性能的智能体平均所得＇）展现出一些特殊的结果．首先＊由宁单一观测很难决定全辰最优动作、智能体往往需要记．往过去的状态才能维持＃航功能，獄如＿１５＜ａＸ：所薪＞ＦＦ犠型隹：Ｍａ獻１６０４ 计導机攀报 ：＿１苹中具有良好的动作规划能力＞ 表明可能存在不涉及记忆的目标导向行为＞ 即＊编码器控？制的＇纯反，应式行齿．然后，Ａ图Ｗ（吣可知，在明显需要＇记忆功能的Ｍａｚ６２中，ＬＳＴＭ模型所莸奖励是ＦＦ模型的近两倍．这充分说明具有记忆功能的智能体可在探索环境过程中编码目标位置＊并在随后的时间步内加以利用．单钝依赖反ｉｔ式行为的智能体也可找到目标，但无法标记目标位置进多次使用，最后，图１６（ｅ）清晰地显示出增加速度和动作作齿额外输人以及使用碰嬙预测作为辅助任务的影响．虽然ＬＳＴＭ模型在所＿奖励上优于ＦＦ模型，但莫训练速度仍然相对较慢．这主要甚由传统强化学习ｔ法导致，在增加碰撞预测后Ｊ？ａｖ＋ ＣＰ模型实现在所有环揸中加速争习．此外，利用额外的输人和深度信息＿，智能体賓更好地认知环境，同时获得更高效的导航策略．在环境适应性方面，通过对智能体观测迸行黑；白化预处理，ＤＱＨ已被证明可在多种Ａｔａｒｉ游戏中学习人类级别的控制策略．展现出良好的环境适应性．而本文以ＲＧＢ图像作为环境感知信息，为各模親学习控制策略提供了丰富的环璜视觉信息，袒这也对各模型的适虚能力提也挑战．由圈１６可知．ＦＦ及ＬＳＴＭ模猶可通过ＲＧＢ图像学巧目标导向行为，特别是具有记忆功能的１＾１１尬模＿，在３个迷宫中均具有良好的学习能力．但无论蔫在学习效率上还是在所象奖励上，ＦＦ和ＬＳＴＭ樓型与本文模型迅存在一定差距，表明．Ｎ＿＋ ＣＰ模塑：更适用〒色彩环境，且可吏禽效地将视觉信息转化为算：法性能上的提升．（ａ） Ｍａｚｅ－１学习曲线图１６导航奖励时间（ｒｅｗａｒｄ／ｔｉｍｅ）图表ｓ总结了各摟型在不同环境内的性能参数及构建地图所需时间，表中数据为５个具有最优超参数的智能体平均所得？其中，学习曲线下面轵（ＡｎａＩ讀ＭｉｉｎｇＣＪｕｌ？劝，ＡＵＣ）是一■：种比糧攀习缴率的方法；学《曲线覆盖的面积越大＊表明学习＇效率越离－构建地图所需时间是通过將＃习过程中构建的拓扑地＿与预采集的整个环境特征进行比较．．当覆＇盖菹＿超过一定值后，则认为地图＇构建完成，并将此时的训练数据量紀为地图＆成时间．由表３可知，构建拓扑地图所用时间与智能体学习效率密切相关，环蠢Ｍａｚｅ－１Ｍａｚｅ－２Ｍａｚｅ－３表３静态迷宫实验结果模型 ＡＵＣ 奖励地图完成时间（ｈｏｕｒ／ｌｅ６）ＦＦＬＳＴＭＮａｖＮａｖ＋ＣＰ ６３ ４５２４６３ １７ＦＦＬＳＴＭＮａｖＮａｖ＋ＣＰ ４６ ６５ ２２ＦＦＬＳＴＭＮａｖＮａｖ＋ＣＰ ８０．４４７．５３ ０４学习翁钱覆盖爾积越大，构建地？所用时间越短．因此，＿尽可能地提高智能体学习效率．ＦＦ和ＬＳＴＭ模型以图像作为输人，Ｎａｖ模型在此基础上增加了动作和奖励，但这都不足以克服传统强化学习的影响．而与？碰撞预测相结合的Ｎａｖ＋ＣＰ模型则利用了学习过程中＇的额外损失．．通过这些包含环埯结构信息．的训练信号加速弓丨＃学习，同时减少构建拓扑地图所数据量．５．４动态堵塞实验在上一章节中，：Ｂ获得全连通环境下的目标导向行为和拓扑地图接下来的实验将测试该模＿在包含动态堵塞环境中的性能．测试所甩坏境与Ｍａｗ－３相Ｉｔ，但在通路中增加堵寒堵馨（Ｉ置如图１？所示．（ａ）无堵塞（ｂ） Ａ处堵塞（ｃ） Ｂ处堵塞（ｄ）  ＡＢ处堵塞图Ｉｆ动．讀奪厕试环樣Ｋ娆爾等：基ｆ＿顯等向行为議期 ■空间第朴记忆的班鹙导航操 ６０ ５在实验过程中，．首先固定：智能体起始位置＊然后使用。在Ｍａｚｅ－３中训爾完成的智能体依次进行无堵塞、Ａ处堵塞、Ｂ处堵寒＿、ＡＢ处同时堵寒的实验？未樓用：及使用拓扑地图导航实蠢＿果如Ｂｉｓ所示？数据为５个具有最佳性能的昝能体平均所得，＿：親截爾数／时间步（雜丨ＵＢｒｆｕｎｅｔｉｃｍ／ｓｔｔｐ：；＊厲＿承，图中虚钱为＇鐘标．如靡ＩＳ Ｃａｌ、（Ｗ所示，在没有堵塞的情况卞，拓扑地图的存在与否并不影响樓＿导航性能．两种方法都使用中问路径完成导航任务，它们的值函数变化趋势相似，且均到达目标４次，在接下奉餘实ＩＩ中．，两种方法的＿＃＿加谢显，丛魔１８Ｃ：？＇）、（ｄ）可知，Ｍａｖ＋ＣＰ襟潘ｆｔＡ处停留，且不能续过堵麗，导致智能体无法到达Ｓ标和值涵：数持续下降■ Ｎａｖ＋ＣＰ＋ ＳＴＭ繼窥：词样逍剷堵屬Ａ，怛譬前一种方法不同，它错合拓扑地图利用＇左侧路径到达目标，且由于左侧路径比中间路径长，所以智能体到达目标的频率比在无堵寨环．境序低．对于相对较远的堵塞；从图１８（、（￡）可以看出，！％ｖ＋ＣＰ模＿仍然使用中间路径来引导目．标导向行为，导致智能体＃質在：６处，而Ｎａｒ＋ＣＰ＋ｍＭ：镇屬卿通过重蒙规划路径．到达＿标＿由于堵塞Ｂ的特殊位置＊在使用拓扑地图规划路径时，智能体并投肴试顧使用左侧路径錢过堵塞而是直接使用右侧路径．同时，由ｆ右侧通路是三者中鼋长的路径＞ 智能体需要更多德动作才能到达■霖ｆ．敦＿儀議＿的次幾进一步减少，最后，从图１８（ｇ）、＜上）可知，即使在包含两个堵塞的环境中Ｎａｖ＋ ＣＰ ＋ｇＴＭ■ 型仍然可以找到一条可行的路径到达目标，但探索过程较：为复杂，具体来说？智能体首先会停俚在堵？Ａ处，然后使用左侧路径绕过堵塞Ａ弁遇到堵最后通过右侧路径绕过堵麗Ｂ到达目标，这也是智能体在５ ００ 〇个財Ｍ步内只到达目禄一次的原：面．＃于＋ＣＰ模型，与第二次实验类似，智能体会始终停留顧堵暮Ａ处．１６ｇｌ４Ｉｌ２０（ａ） Ｎａｖ＋ＣＰ（无堵塞）（ｂ） Ｎａｖ＋ＣＰ＋ＳＴＭ（无堵塞）（ｃ）  Ｎａｖ＋ＣＰ（Ａ处堵塞）（ｄ） Ｎａｖ＋ＣＰ＋ＳＴＭ（Ａ处堵塞）图１８值函数时间步（ｖａｌｕｅ－ｆｕｎｃｔｉｏｎ／ｓｔｅｐ）图６０６ 计算机学报 ２０２１年为更好展现拓扑地图在模型中的作用，在实验过程中收集了更为详细的数据并总结为表４，表中数据为５个具有最优超参数的智能体平均所得．其中，包括智能体在５０００个时间步内到达目标的次数和所获奖励，延迟为智能体首次找到目标与随后找到目标所用时间步之比．从表４可以看出，随着堵塞位置从Ａ移动到Ｂ及堵塞数量的增加，Ｎａｖ ＋ＣＰ＋ＳＴＭ模型需要更多的时间步才能到达目标，导致智能体到达目标次数和所获奖励的减少．但无论堵塞的位置和数量如何变化，集成拓扑地图的智能体始终可以找到目标．而对于Ｎａｖ＋ ＣＰ模型，由于不能动态规划路径，一旦环境中出现堵塞，智能体将长时间停滞在堵塞位置．这进一步证明拓扑地图可作为路径规划模块集成到模型中，并用于引导动态环境下的绕路行为．表４动态堵塞实验结果环境 模型 目标次数 奖励 延迟Ｎａｖ＋ＣＰ ４． ６ ４８． ２ ０． ９９无堵塞 Ｎａｖ＋ＣＰ＋ＳＴＭ ４． ５ ４７． ５ １．０２ＯＰ ５． ２ ５４． ３ １． ０１Ｎａｖ＋ＣＰ ０ ３． ３ ＯＯＡ处堵塞 Ｎａｖ＋ＣＰ＋ＳＴＭ ３． １ ３２．４ １．２１ＯＰ ３． ７ ３９． ２ ０． ９９Ｎａｖ＋ＣＰ ０ ５．６ ＯＯＢ处堵塞 Ｎａｖ＋ＣＰ＋ＳＴＭ ２． １ ２３．４ １．１６ＯＰ ２． ４ ２７．１ １． ０２Ｎａｖ＋ＣＰ ０ ３． ４ ＯＯＡＢ处堵塞 Ｎａｖ＋ＣＰ＋ＳＴＭ １．７ ２１．６ １．３８ＯＰ ２． ５ ２７． ８ １． ０１６结论针对动态环境中的导航问题，本文提出一种可同步学习目标导向行为和构建空间拓扑地图的视觉导航方法．为在具有复杂结构且丰富视觉的状态空间中学习目标驱动的导航策略，以深度强化学习为基本框架，并在模型中结合碰撞预测提供密集训练信号，以实现加速学习和提升导航性能．对于编码环境，利用图像之间的时间相关性祛除冗余观测和寻找导航节点，并通过集成情景记忆描述环境结构．实验结果表明，本文方法可从原始传感器输人中学习目标导向行为，同时构建空间拓扑地图，即使在包含动态堵塞的环境中也可实现高效导航．在接下来的研究中，我们将进一步优化本文模型，并力求在真实环境中验证其性能．除此之外，也将基于本文模型对非常大或终身学习场景中的导航方法进行深人探讨．参考文献［１］Ｔｏｍｍａｓｉ Ｌ，ＣｈｉａｎｄｅｔｔｉＣ？ ＰｅｃｃｈｉａＴ，ｅｔ  ａｌ． Ｆｒｏｍ ｎａｔｕｒａｌｇｅｏｍｅｔｒｙｔｏ ｓｐａｔｉａｌ ｃｏｇｎｉｔｉｏｎ．Ｎｅｕｒｏｓｃｉｅｎｃｅ ＆－ ＢｉｏｂｅｈａｖｉｏｒａｌＲｅｖｉｅｗｓ，２０１２，３６（２）： ７９９８２４［２］Ｍｏｓｅｒ ＥＩ，ＫｒｏｐＬｆＥ，ＭｏｓｅｒＭ Ｂ．Ｐｌａｃｅ ｃｅｌｌｓ，ｇｒｉｄ ｃｅｌｌｓ，ａｎｄｔｈｅｂｒａｉｎ ’ｓ ｓｐａｔｉａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｙｓｔｅｍ．ＡｎｎｕａｌＲｅｖｉｅｗ ｏｆ Ｎｅｕｒｏｓｃｉｅｎｃｅ， ２００８，３１： ６９８９［３］Ｔｏｌｍａｎ ＥＣ．Ｃｏｇｎｉｔｉｖｅｍａｐｓ  ｉｎ ｒａｔｓａｎｄ ｍｅｎ．ＰｓｙｃｈｏｌｏｇｉｃａｌＲｅｖｉｅｗ，１９４８， ５５（４）：１８９２０８［４］Ｍａｄｌ Ｔ？Ｆｒａｎｋｌｉｎ Ｓ？ Ｃｈｅｎ Ｋ？ ｅｔ ａｌ． Ｂａｙｅｓｉａｎ ｉｎｔｅｇｒａｔｉｏｎ ｏｆｉｎｆｏｒｍａｔｉｏｎ ｉｎ ｈｉｐｐｏｃａｍｐａｌｐｌａｃｅｃｅｌｌｓ．ＰＬｏＳ Ｏｎｅ， ２０１４，９（３）： ｅ８９７６２［５］Ｙｏｎｅｌｉｎａｓ ＡＰ， Ｏｔｔｅｎ Ｌ Ｊ， Ｓｈａｗ ＫＮ， ｅｔ ａｌ．Ｓｅｐａｒａｔｉｎｇ ｔｈｅｂｒａｉｎｒｅｇｉｏｎｓ ｉｎｖｏｌｖｅｄｉｎｒｅｃｏｌｌｅｃｔｉｏｎａｎｄ ｆａｍｉｌｉａｒｉｔｙ ｉｎｒｅｃｏｇｎｉｔｉｏｎ ｍｅｍｏｒｙ．Ｔｈｅ Ｊｏｕｒｎａｌ ｏｆＮｅｕｒｏｓｃｉｅｎｃｅ？２００５，２５： ３００２３００８［６］Ｃｅｓａｒ Ｃ，ＬｕｃａＣ，Ｉｌｅｎｒｙ Ｃ，ｅｔ ａｌ．Ｐａｓｔ，ｐｒｅｓｅｎｔ，ａｎｄ  ｆｕｔｕｒｅｏｆ ｓｉｍｕｌｔａｎｅｏｕｓ ｌｏｃａｌｉｚａｔｉｏｎ ａｎｄ ｍａｐｐｉｎｇ：Ｔｏｗａｒｄ ｔｈｅ ｒｏｂｕｓｔｐｅｒｃｅｐｔｉｏｎ ａｇｅ． ＩＥＥＥ Ｔｒａｎｓａｃｔｉｏｎｓ  ｏｎ Ｒｏｂｏｔｉｃｓ？２０１６，３２（６）：１３０９１３３２［７］Ｓｕｎ ＹＬｉｕＭ，Ｍｅｎｇ Ｍ ＱＩＩ．Ｉｍｐｒｏｖｉｎｇ ＲＧＢＤＳＬＡＭｉｎｄｙｎａｍｉｃ  ｅｎｖｉｒｏｎｍｅｎｔｓ：Ａｍｏｔｉｏｎ ｒｅｍｏｖａｌ ａｐｐｒｏａｃｈ．Ｒｏｂｏｔｉｃｓａｎｄ Ａｕｔｏｎｏｍｏｕｓ Ｓｙｓｔｅｍｓ，２０１７，８９ ： １１０１２２［８］ＳｏｎｇＩｌａｉＴａｏ， Ｈｅ ＷｅｎＩＩａｏ， Ｙｕａｎ Ｋｕｉ．Ａｓｔｅｒｅｏ ｖｉｓｉｏｎ ｓｙｓｔｅｍｂａｓｅｄ ｏｎＳＩＦＴ ｆｅａｔｕｒｅｆｏｒ ｒｏｂｏｔｅｎｖｉｒｏｎｍｅｎｔ ｐｅｒｃｅｐｔｉｏｎ．Ｃｏｎｔｒｏｌ ａｎｄ Ｄｅｃｉｓｉｏｎ， ２０１９，３４（７） ： １５４５１５５２（ｉｎ Ｃｈｉｎｅｓｅ）（宋海涛，何文浩，原魁．一种基于ＳＩＦＴ特征的机器人环境感知双目立体视觉系统．控制与决策，２０１９， ３４（７）：１５４５１５５２）［９］ＭｕｒＡｒｔａｌ Ｒ， Ｔａｒｄｏｓ ＪＤ．ＯＲＢＳＬＡＭ２ ；Ａｎ ｏｐｅｎｓｏｕｒｃｅＳＬＡＭｓｙｓｔｅｍ ｆｏｒ ｍｏｎｏｃｕｌａｒ，ｓｔｅｒｅｏ？ ａｎｄ ＲＧＢＤ ｃａｍｅｒａｓ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓ ｏｎ Ｒｏｂｏｔｉｃｓ， ２０１７，３３（５） ；１２５５１２６２［１０］ＬｉｕＱｕａｎ，Ｚｈａｉ ＪｉａｎＷｅｉ，Ｚｈａｎｇ ＺｏｎｇＺｈａｎｇ， ｅｔａｌ．Ａｓｕｒｖｅｙ  ｏｎ ｄｅｅｐ ｒｅｉｎｆｏｒｃｅｍｅｎｔ ｌｅａｒｎｉｎｇ．ＣｈｉｎｅｓｅＪｏｕｒｎａｌ ｏｆＣｏｍｐｕｔｅｒｓ，２０１８，４１（１）： １２７（ｉｎ Ｃｈｉｎｅｓｅ）（刘全，翟建伟，章宗长等．深度强化学习综述．计算机学报，２０１８，４１（１）： １２７）［１１］Ｙａｎｎ Ｌ？ ＹｏｓｈｕａＢ？ Ｇｅｏｆｆｒｅｙ ＩＩ．Ｄｅｅｐ Ｌｅａｒｎｉｎｇ．Ｎａｔｕｒｅ，２０１５， ５２１（７５５３） ：４３６４４４［１２］Ｏｈ Ｊ，Ｃｈｏｃｋａｌｉｎｇａｍ Ｖ， Ｓｉｎｇｈ  ＳＰ，ｅｔ ａｌ． Ｃｏｎｔｒｏｌ ｏｆ ｍｅｍｏｒｙ，ａｃｔｉｖｅｐｅｒｃｅｐｔｉｏｎ，  ａｎｄ ａｃｔｉｏｎ  ｉｎＭｉｎｅｃｒａｆｔ．ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１６０５． ０９１２８． ｐｄｆ．２０１６， ０５，０１［１３］Ｚｈｕ Ｙ，Ｍｏｔｔａｇｈｉ Ｒ？ Ｋｏｌｖｅ Ｅ？ ｅｔ ａｌ．Ｔａｒｇｅｔｄｒｉｖｅｎ ｖｉｓｕａｌｎａｖｉｇａｔｉｏｎ ｉｎ  ｉｎｄｏｏｒｓｃｅｎｅｓ ｕｓｉｎｇ ｄｅｅｐ ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ．ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｊｙｉ６０９．０５１４３．ｐｄｆ．２０１６，０９，１６［１４］Ｍｎｉｈ Ｖ，ＢａｄｉａＡ Ｐ，ＭｉｒｚａＭ，ｅｔ ａｌ． Ａｓｙｎｃｈｒｏｎｏｕｓ ｍｅｔｈｏｄｓｆｏｒ ｄｅｅｐ ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ，ｈｔｔｐｓ  ：  ／／ａｒｘｉｖ． ｏｒｇ／ａｂｓ／１６０２． ０１７８３． ｐｄｆ． ２０１６， ０６， １６［１５］ＪａｄｅｒｂｅｒｇＭ？ Ｍｎｉｈ Ｖ， Ｃｚａｒｎｅｃｋｉ Ｗ Ｍ？  ｅｔ ａｌ．Ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ ｗｉｔｈ ｕｎｓｕｐｅｒｖｉｓｅｄ ａｕｘｉｌｉａｒｙ ｔａｓｋｓ，ｈｔｔｐｓ ： ／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１６１１． ０５３９７． ｐｄｆ． ２０１６， １１， １６阮晓钢等：基于目标导向行为和３期 空间拓扑记忆的视觉导航方法 ６０ ７［１６］Ｖｏｌｏｄｙｍｙｒ Ｍ， ＫｏｒａｙＫ， Ｓｉｌｖｅｒ Ｓ Ｄ， ｅｔ ａｌ．Ｈｕｍａｎ－ｌｅｖｅｌｃｏｎｔｒｏｌ  ｔｈｒｏｕｇｈ ｄｅｅｐ ｒｅｉｎｆｏｒｃｅｍｅｎｔ ｌｅａｒｎｉｎｇ． Ｎａｔｕｒｅ， ２０１５，５１８：５２９－５３３［１７］Ｍｉｒｏｗｓｋｉ Ｐ， Ｐａｓｃａｎｕ Ｒ， Ｖｉｏｌａ Ｆ， ｅｔ ａｌ．Ｌｅａｒｎｉｎｇ  ｔｏ ｎａｖｉｇａｔｅ ｉｎｃｏｍｐｌｅｘ ｅｎｖｉｒｏｎｍｅｎｔ， ｈｔｔｐｓｉｆ／ａｒｘｉｖ．  ｏｒｇ／ｐｄｆ／１６１１．  ０３６７３．  ｐｄｆ．２０１７， ０１， １３［１８］ＹｕＮａｉ－Ｇｏｎｇ，Ｙｕａｎ Ｙｕｎ－ＩＩｅ，Ｌｉ Ｔｉ，ｅｔ  ａｌ．Ａ ｃｏｇｎｉｔｉｖｅ ｍａｐｂｕｉｌｄｉｎｇａｌｇｏｒｉｔｈｍ ｂｙｍｅａｎｓｏｆ ｃｏｇｎｉｔｉｖｅｍｅｃｈａｎｉｓｍ ｏｆｈｉｐｐｏｃａｍｐｕｓ．ＡｃｔａＡｕｔｏｍａｔｉｃａ Ｓｉｎｉｃａ， ２０１８， ４４（１） ： ５２－７３（ｉｎ Ｃｈｉｎｅｓｅ）（于乃功，苑云鹤，李倜等．一种基于海马认知机理的仿生机器人认知地图构建方法．自动化学报，２０１８， ４４（１）：５２－７３）［１９］Ｐａｒｉｓｏｔｔｏ Ｅ，  ＳａｌａｋｈｕｔｄｉｎｏｖＲ． Ｎｅｕｒａｌ ｍａｐ：Ｓｔｒｕｃｔｕｒｅｄ ｍｅｍｏｒｙｆｏｒｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ，ｈｔｔｐｓ ： ／＇／ａｒｘｉｖ． ｏｒｇ／ａｂｓ／１７０２．０８３６０．ｐｄｆ． ２Ｇ１７，０２， ２７［２０］Ｇｕｐｔａ  Ｓ，Ｄａｖｉｄｓｏｎ Ｊ， Ｌｅｖｉｎｅ Ｓ，ｅｔ ａｌ． Ｃｏｇｎｉｔｉｖｅｍａｐｐｉｎｇ  ａｎｄｐｌａｎｎｉｎｇ  ｆｏｒ  ｖｉｓｕａｌ  ｎａｖｉｇａｔｉｏｎ， ｈｔｔｐｓ ：／／ａｒｘｉｖ．  ｏｒｇ／ａｂｓ／１７０２．０３９２０． ｐｄｆ． ２０１９，０２，  ０７［２１］Ｓａｖｉｎｏｖ Ｎ，ＤｏｓｏｖｉｔｓｋｉｙＡ， ＫｏｌｔｕｎＶ．Ｓｅｍｉ－ｐａｒａｍｅｔｒｉｃｔｏｐｏｌｏｇｉｃａｌ ｍｅｍｏｒｙｆｏｒｎａｖｉｇａｔｉｏｎ，ｈｔｔｐｓ ｊ／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１８０３．００６５３．ｐｄｆ． ２Ｇ１８，０３， ０１［２２］Ｉｌａｕｓｋｎｅｃｈｔ Ｍ， Ｓｔｏｎｅ Ｐ． Ｄｅｅｐｒｅｃｕｒｒｅｎｔ Ｑ－ｌｅａｒｎｉｎｇ ｆｏｒｐａｒｔｉａｌｌｙｏｂｓｅｒｖａｂｌｅＭＤＰｓ． ｈｔｔｐｓ  ｊ／／ａｒｘｉｖ． ｏｒｇ／ａｂｓ／１５０７．０６５２７． ｐｄｆ． ２０１７，０１， １１［２３］ＭａｒｔｉｎＲ．Ｎｅｕｒａｌ  ｆｉｔｔｅｄ Ｑｉｔｅｒａｔｉｏｎ－ｆｉｒｓｔ ｅｘｐｅｒｉｅｎｃｅｓ ｗｉｔｈ ａｄａｔａ ｅｆｆｉｃｉｅｎｔｎｅｕｒａｌｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｍｅｔｈｏｄ＃＃Ｐｒｏｃｅｅｄｉｎｇｓ ｏｆ ｔｈｅ Ｅｕｒｏｐｅａｎ Ｃｏｎｆｅｒｅｎｃｅｏｎ Ｍａｃｈｉｎｅ Ｌｅａｒｎｉｎｇ（ＥＣＭＬ２００５）． Ｂｅｒｌｉｎ，  Ｈｅｉｄｅｌｂｅｒｇ，Ｇｅｒｍａｎｙ， ２００５： ３１７－３２８［２４］Ｌａｎｇｅ Ｓ，ＲｉｅｄｍｉｌｌｅｒＭ，ＶｏｉｇｔｌａｎｄｅｒＡ．Ａｕｔｏｎｏｍｏｕｓｒｅｉｎｆｏｒｃｅｍｅｎｔ ｌｅａｒｎｉｎｇｏｎ ｒａｗ ｖｉｓｕａｌｉｎｐｕｔ ｄａｔａｉｎ ａｒｅａｌｗｏｒｌｄａｐｐｌｉｃａｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ ｔｈｅ２０１２ ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔ Ｃｏｎｆｅｒｅｎｃｅ ｏｎＮｅｕｒａｌ Ｎｅｔｗｏｒｋｓ  （ＩＪＣＮＮ）． Ｂｒｉｓｂａｎｅ，Ａｕｓｔｒａｌｉａ， ２０１２ ： １－８［２５］ＴｈｏｍａｓＧＴ，ＥｇｉｄｉｏＦ，ＦｅｄｅｒｉｃｏＲ， ｅｔ ａｌ． Ｍｏｄｅｌ－ｂａｓｅｄｒｅｉｎｆｏｒｃｅｍｅｎｔ ｌｅａｒｎｉｎｇ ｆｏｒ ｃｌｏｓｅｄ－ｌｏｏｐ ｄｙｎａｍｉｃ ｃｏｎｔｒｏｌ ｏｆ  ｓｏｆｔｒｏｂｏｔｉｃ ｍａｎｉｐｕｌａｔｏｒｓ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓ  ｏｎＲｏｂｏｔｉｃｓ， ２０１９，３５（１）： １２４－１３４［２６］Ｌｉｕ Ｊｉａｎ－Ｗｅｉ，  Ｇａｏ Ｆｅｎｇ， Ｌｕｏ Ｘｉｏｎｇ－Ｌｉｎ．Ｓｕｒｖｅｙ ｏｆ ｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔ ｌｅａｒｎｉｎｇｂａｓｅｄｏｎ ｖａｌｕｅ ｆｕｎｃｔｉｏｎａｎｄｐｏｌｉｃｙｇｒａｄｉｅｎｔ．Ｃｈｉｎｅｓｅ Ｊｏｕｒｎａｌ ｏｆＣｏｍｐｕｔｅｒｓ， ２０１９，４２（６）： １４０６－１４３８（ｉｎＣｈｉｎｅｓｅ）（刘建伟，高峰，罗雄霖．基于值函数和策略梯度的深度强化学习综述．计算机学报．２０１９， ４２（６）：１４０６－１４３８）［２７］Ｋａｅｌｂｌｉｎｇ ＬＰ， ＬｉｔｔｍａｎＭＬ，Ｃａｓｓａｎｄｒａ Ａ Ｒ．Ｐｌａｎｎｉｎｇ ａｎｄａｃｔｉｎｇ ｉｎｐａｒｔｉａｌｌｙ ｏｂｓｅｒｖａｂｌｅ ｓｔｏｃｈａｓｔｉｃ ｄｏｍａｉｎｓ． ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，１９９８，１０１（１）：９９－１３４［２８］ｌｉｅＫ， Ｚｈａｎｇ Ｘ， ＲｅｎＳ， ｅｔ  ａｌ．Ｄｅｅｐｒｅｓｉｄｕａｌ ｌｅａｒｎｉｎｇ ｆｏｒｉｍａｇｅ ｒｅｃｏｇｎｉｔｉｏｎ， ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１５１２．０３３８５． ｐｄｆ．２０１５， １２，１０［２９］ＭｃＮａｕｇｈｔｏｎ ＢＬ， Ｂａｔｔａｇｌｉａ ＦＰ， Ｊｅｎｓｅｎ Ｏ， ｅｔ ａｌ． Ｐａｔｈｉｎｔｅｇｒａｔｉｏｎ ａｎｄ ｔｈｅｎｅｕｒａｌｂａｓｉｓ ｏｆ ｔｈｅ ４ ｃｏｇｎｉｔｉｖｅｍａｐ’．Ｎａｔｕｒｅ Ｒｅｖｉｅｗｓ Ｎｅｕｒｏｓｃｉｅｎｃｅ，２００６，７： ６６３－６７８［３０］Ｓａｖｉｎｏｖ Ｎ，Ｒａｉｃｈｕｋ Ａ，Ｍａｒｉｎｉｅｒ Ｒ， ｅｔ ａｌ．Ｅｐｉｓｏｄｉｃｃｕｒｉｏｓｉｔｙｔｈｒｏｕｇｈｒｅａｃｈａｂｉｌｉｔｙ， ｈｔｔｐｓ：／／ａｒｘｉｖ． ｏｒｇ／ａｂｓ／１８１０． ０２２７４． ｐｄｆ．２０１９， ０８， ０６［３１］ＴｈｏｍａｓｈＩＩＣ，  Ｃｈａｒｌｅｓ  ＥＬ， Ｒｏｎａｌｄ  ＬＲ， ｅｔ ａｌ．Ｉｎｔｒｏｄｕｃｔｉｏｎｔｏ Ａｌｇｏｒｉｔｈｍｓ． Ｃａｍｂｒｉｄｇｅ，ＵＳＡ： ＭＩＴ Ｐｒｅｓｓ，２００５［３２］ＢｅａｔｔｉｅＣ， Ｌｅｉｂｏ  ＪＺ， ＴｅｐｌｙａｓｈｉｎＤ， ｅｔ ａｌ．ＤｅｅｐＭｉｎｄ Ｌａｂ．ｈｔｔｐｓａｒｘｉｖ． ｏｒｇ／ａｂｓ／１６１２． ０３８０１． ｐｄｆ．２０１６， １２， １２［３３］Ｇｅｒｓ ＦＡ， Ｓｃｈｍｉｄｈｕｂｅｒ Ｊ， Ｃｕｍｍｉｎｓ  Ｆ． Ｌｅａｒｎｉｎｇ ｔｏ ｆｏｒｇｅｔ：ＣｏｎｔｉｎｕａｌｐｒｅｄｉｃｔｉｏｎｗｉｔｈＬＳＴＭ．ＮｅｕｒａｌＣｏｍｐｕｔａｔｉｏｎ，２０００，１２（１０）：２４５１－２４７１［３４］ＤｉｅｄｅｒｉｋＰ Ｋ， Ｊｉｍｍｙ Ｂ．Ａｄａｍ：Ａｍｅｔｈｏｄ ｆｏｒ ｓｔｏｃｈａｓｔｉｃｏｐｔｉｍｉｚａｔｉｏｎ， ｈｔｔｐｓ：／／ａｒｘｉｖ． ｏｒｇ／ａｂｓ／１４１２． ６９８０． ｐｄｆ． ２０１７，０１，３０［３５］Ｄａｖｉｄ Ｏ Ｓ， Ｊａｍｅｓ  Ｔ Ｂ， Ｇａｉｌ  Ｅｌｉ． Ｈｉｐｐｏｃａｍｐｕｓ，ｓｐａｃｅ，ａｎｄｍｅｍｏｒｙ． Ｂｅｈａｖｉｏｒａｌ ａｎｄ ＢｒａｉｎＳｃｉｅｎｃｅ， １９７９，２（３） ：  ３１３－３２２ＲＵＡＮＸｉａｏ－Ｇａｎｇ， Ｐｈ． Ｄ．， ｐｒｏｆｅｓｓｏｒ．Ｈｉｓ ｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓ ｉｎｃｌｕｄｅ ａｕｔｏｍａｔｉｃｃｏｎｔｒｏｌ， ａｒｔｉｆｉｃｉａｌ ｉｎｔｅｌｌｉｇｅｎｃｅ ａｎｄ ｉｎｔｅｌｌｉｇｅｎｔｒｏｂｏｔ．ＬＩＰｅｎｇ， Ｐｈ．  Ｄ． ｃａｎｄｉｄａｔｅ． Ｈｉｓ ｒｅｓｅａｒｃｈ ｉｎｔｅｒｅｓｔｓ ｉｎｃｌｕｄｅｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔ ｌｅａｒｎｉｎｇ ａｎｄｒｏｂｏｔ ｎａｖｉｇａｔｉｏｎ ｐｒｏｂｌｅｍ．ＺＨＵ Ｘｉａｏ－Ｑｉｎｇ， Ｐｈ． Ｄ．，ｌｅｃｔｕｒｅｒ． Ｈｉｓｒｅｓｅａｒｃｈ ｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅ ｉｎｔｅｌｌｉｇｅｎｔ ｒｏｂｏｔ ａｎｄ ｍａｃｈｉｎｅ ｌｅａｒｎｉｎｇ．ＬＩＵＰｅｎｇ－Ｆｅｉ， Ｍ． Ｓ．ｃａｎｄｉｄａｔｅ．Ｈｉｓｒｅｓｅａｒｃｈ ｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅ ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ  ａｎｄ ｒｏｂｏｔ ｎａｖｉｇａｔｉｏｎｐｒｏｂｌｅｍｓ．ＢａｃｋｇｒｏｕｎｄＬｅａｒｎｉｎｇ ｔｏｎａｖｉｇａｔｅｉｎｃｏｍｐｌｅｘｅｎｖｉｒｏｎｍｅｎｔｗｉｔｈｄｙｎａｍｉｃ ｅｌｅｍｅｎｔｓ ｉｓ ａ ｃｈａｌｌｅｎｇｅｉｎ ｄｅｖｅｌｏｐｉｎｇ Ａｌ ａｇｅｎｔ ａｎｄｍｏｓｔ ｏｆ ｔｏｄａｙ’ｓ ｒｏｂｏｔ ａｌｇｏｒｉｔｈｍ ｓｔｒｕｇｇｌｅ ｗｉｔｈｓｕｃｈ ｃｏｎｄｉｔｉｏｎ．Ｉｎｓｐｉｒｅｄｂｙｔｈｅ ｒｅｓｅａｒｃｈｅｓ  ａｂｏｕｔ  ｃｏｇｎｉｔｉｖｅ  ｂｅｈａｖｉｏｒ ｉｎａｎｉｍａｌｓ，ｔｈｅｒｅ ａｒｅｍａｎｙ ｎａｖｉｇａｔｉｏｎ ｍｅｔｈｏｄｓ ｄｅｓｉｇｎ  ｔｈｅ ａｇｅｎｔ  ｔｏ ｅｎｃｏｄｅｅｎｖｉｒｏｎｍｅｎｔａｌ ｓｔｒｕｃｔｕｒｅ ｄｕｒｉｎｇ ｅｘｐｌｏｒａｔｉｏｎ ｐｒｏｃｅｓｓ，ａｎｄｔｈｅｔｙｐｉｃａｌｌｙ ｕｓｅｄ ａｐｐｒｏａｃｈｉｓＳＬＡＭ．Ｔｈｉｓ ｋｉｎｄ ｏｆａｐｐｒｏａｃｈｂｕｉｌｄｓｍｅｔｒｉｃ ｍａｐｏｆｕｎｋｎｏｗｎｅｎｖｉｒｏｎｍｅｎｔ ｂｙｕｓｉｎｇｓｅｎｓｏｒｙｉｎｆｏｒｍａｔｉｏｎ ｆｒｏｍｌａｓｅｒ， ｏｄｏｍｅｔｅｒ， ｓｏｎａｒ ｏｒｖｉｓｉｏｎ． Ｔｈｒｏｕｇｈａｐｐｌｉｃａｔｉｏｎｍｏｔｉｏｎ ｉｎｆｏｒｍａｔｉｏｎ ｏｆｒｏｂｏｔ  ａｎｄ ｆｅａｔｕｒｅｓ ｏｆ ｏｂｓｅｒ？ｖａｔｉｏｎ， ｔｈｅ  ａｇｅｎｔ ｃａｎｇｅｔ ａｃｃｕｒａｔｅ ｅｓｔｉｍａｔｉｏｎ ｏｆ ｅｎｖｉｒｏｎｍｅｎｔａｎｄｕｓｅ ｉｔｔｏｒｅａｌｉｚｅ ａｕｔｏｎｏｍｏｕｓ ｎａｖｉｇａｔｉｏｎ．Ｐａｒｔｉｃｕｌａｒｌｙ６０８ 计算机学报 ２０２１年ｒｅｌｅｖａｎｔ ｔｏ ｏｕｒｗｏｒｋ ｉｓ ｖｉｓｕａｌ ＳＬＡＭ（ＶＳＬＡＭ） ｔｈａｔ ｕｓｅ  ｉｍａｇｅａｓ ｔｈｅｍａｉｎ ｐｅｒｃｅｐｔｉｏｎｏｆ  ｓｔａｔｅ ｓｐａｃｅ，ａｎｄａｉｍ ｔｏ ｒｅｃｏｎｓｔｒｕｃｔ３Ｄ ｍａｐ ｂｙ ｃａｍｅｒａｐｏｓｅ ａｎｄｍｕｌｔｉｖｉｅｗ ｇｅｏｍｅｔｒｙｔｈｅｏｒｙ． Ｉｎｏｒｄｅｒ ｔｏ ｉｍｐｒｏｖｅ ｔｈｅ ｓｐｅｅｄｏｆ  ｄａｔａ ｐｒｏｃｅｓｓｉｎｇ， ｓｏｍｅ ＶＳＬＡＭａｌｇｏｒｉｔｈｍｓ ｅｘｔｒａｃｔ ｆｅａｔｕｒｅ ｐｏｉｎｔｓ ｏｆ ｏｂｓｅｒｖａｔｉｏｎ ｆｉｒｓｔｌｙ， ａｎｄｔｈｅｎｐｅｒｆｏｒｍｉｎｔｅｒｆｒａｍｅ ｅｓｔｉｍａｔｉｏｎ ａｎｄ ｃｌｏｓｅｄｌｏｏｐｄｅｔｅｃｔｉｏｎｔｈｒｏｕｇｈｍａｔｃｈｉｎｇｔｈｅｓｅｐｏｉｎｔｓ． Ｔｈｅ ＳＬＡＭｂａｓｅｄ ａｐｐｒｏａｃｈｅｓｃａｎ ｐｒｏｖｉｄｅｈｉｇｈｑｕａｌｉｔｙ ｅｎｖｉｒｏｎｍｅｎｔ ｍａｐ，ｂｕｔｔｈｅｙ ａｒｅｅｘｐｌｉｃｉｔ  ｆｏｃｕｓｏｎｐｏｓｉｔｉｏｎｉｎｆｅｒｅｎｃｅａｎｄｍａｐｐｉｎｇ， ａｎｄｎｅｅｄｅｘｔｅｒｎａｌｌｙｐｒｏｖｉｄｅｄ ｃａｍｅｒａ ｐｏｓｅ ｏｒ ｅｇｏｍｏｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ，ａｎｄ ｄｏ ｎｏｔ ｎａｔｕｒａｌｌｙ ａｃｃｏｍｍｏｄａｔｅｄｙｎａｍｉｃ ｅｎｖｉｒｏｎｍｅｎｔ．Ｍｏｒｅ ｒｅｃｅｎｔｌｙ， ｍａｎｙｒｅｓｅａｒｃｈｅｒｓ ｈａｖｅ ｎｏｔｅｄ ｔｈｅ ｏｕｔｓｔａｎｄｉｎｇａｂｉｌｉｔｙｏｆ ｄｅｅｐ ｌｅａｒｎｉｎｇ（ＤＬ）ｉｎｏｖｅｒｃｏｍｅ ｔｈｅ ｐｒｏｂｌｅｍｓ ｓｔｅｍｆｒｏｍ ｄｉｍｅｎｓｉｏｎａｌ ｄｉｓａｓｔｅｒ，ａｎｄ ｔｒｙｔｏ  ｔａｋｅ ａｄｖａｎｔａｇｅ ｏｆ  ｉｔ ｔｏｈｅｌｐ ｎａｖｉｇａｔｉｏｎｉｎ ｈｉｇｈｄｉｍｅｎｓｉｏｎａｌ ｓｔａｔｅ ｓｐａｃｅ． Ｓｏ ｗｅ  ｃｏｎｓｉｄｅｒｅｄｕｓｉｎｇｔｈｅ ｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔ ｌｅａｒｎｉｎｇ（ＤＲＬ）  ， ｗｈｉｃｈ ｃｏｎｓｉｓｔｏｆ ＤＬ ａｎｄ ｒｅｉｎｆｏｒｃｅｍｅｎｔ ｌｅａｒｎｉｎｇ （ＲＬ） ａｎｄ ａｐｐｌｙｔｏ ｎａｖｉｇａｔｉｏｎｖａｒｙｂｏｔｈ ｉｎｌｅａｒｎｉｎｇｍｅｔｈｏｄａｎｄｍｅｍｏｒｙｒｅｐｒｅｓｅｎｔａｔｉｏｎ，ａｓｂａｓｉｃｌｅａｒｎｉｎｇｆｒａｍｅｗｏｒｋ ｔｏｇｅｔ ｇｏａｌｄｒｉｖｅｎ ｂｅｈａｖｉｏｕｒａｎｄｍｅｍｏｒｙｓｐａｔｉａｌ ｓｔｒｕｃｔｕｒｅ．Ｉｎ ｔｈｉｓ ｐａｐｅｒ，ｗｅｐｒｏｐｏｓｅｄａｎｏｖｅｌａｒｃｈｉｔｅｃｔｕｒｅ ｏｆｎａｖｉｇａｔｉｏｎ ｗｈｉｃｈｃａｎ ｂｕｉｌｄｓｐａｃｅ ｔｏｐｏｌｏｇｉｃａｌｍａｐｄｕｒｉｎｇｌｅａｒｎｉｎｇｎａｖｉｇａｔｉｏｎａｌ ｐｏｌｉｃｙ．Ｔｏｄｉｒｅｃｔｌｙｐｅｒｃｅｉｖｅｅｎｖｉｒｏｎｍｅｎｔａｌｉｎｆｏｒｍａｔｉｏｎｆｒｏｍｖｉｓｕａｌ ｉｎｐｕｔｓ，ｕｓｉｎｇａｎａｇｅｎｔ ｗｉｔｈＤＲＬ ｆｒａｍｅｗｏｒｋ ｔｏｌｅａｒｎ ｃｏｎｔｒｏｌｐｏｌｉｃｙ，ａｎｄｔｈｅｍａｐｉｓｆｏｒｍｅｄ ｂａｓｅｄｏｎｔｅｍｐｏｒａｌｃｏｒｒｅｌａｔｉｏｎ．Ｃｒｕｃｉａｌｌｙ，ｔｈｅ ｔｅｍｐｏｒａｌｃｏｒｒｅｌａｔｉｏｎ ｉｓａ ｐｒｅｄｉｃｔｉｖｅ ｖａｌｕｅ ｗｈｉｃｈｓｈｏｗｓｗｈｅｔｈｅｒｔｈｅｐａｉｒｓｏｆ ｏｂｓｅｒｖａｔｉｏｎ ｔｅｍｐｏｒａｌｌｙｃｌｏｓｅ ｏｒｎｏｔ． Ｔｈｉｓａｌｌｏｗｓ ｕｓｔｏ  ｆｉｎｄｎａｖｉｇａｔｉｏｎａｌｎｏｄｅｓｔｈｒｏｕｇｈｃｏｍｐａｒｉｎｇ ｔｈｅ ｔｒａｊｅｃｔｏｒｙｒｅｃｏｒｄｉｎｇｗｉｔｈｔｈｅｍａｐ，ａｎｄｉｎｃｒｅｍｅｎｔａｌｌｙｄｅｓｃｒｉｂｅ ｔｈｅｅｎｖｉｒｏｎｍｅｎｔ  ｂｙ ｉｎｔｅｇｒａｔｉｎｇｅｖｅｒｙｏｂｓｅｒｖａｔｉｏｎｓｅｑｕｅｎｃｅ．Ｔｈｉｓｗｏｒｋ ｉｓｓｕｐｐｏｒｔ ｂｙｔｈｅＮａｔｉｏｎａｌＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎ ｏｆＣｈｉｎａ （Ｎｏ． ６１７７３０２７）  ，ｔｈｅＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎｏｆＢｅｉｊｉｎｇ（Ｎｏ．４２０２００５），ａｎｄｔｈｅ Ｐｒｏｊｅｃｔ ｏｆＳ＆ＴＰｌａｎ ｏｆＢｅｉｊｉｎｇＭｕｎｉｃｉｐａｌＣｏｍｍｉｓｓｉｏｎ ｏｆＥｄｕｃａｔｉｏｎ（Ｎｏ．ＫＭ２０１８１０００５０２８）．

[返回]

上一篇：基于随机化矩阵分解的网络嵌入方法
下一篇：计算机核心和SCI期刊论文发表经验