| 利用开源法学硕士促进视觉和语言导航的高效强化学习 |
| 来源:一起赢论文网 日期:2025-08-09 浏览数:498 【 字体: 大 中 小 大 中 小 大 中 小 】 |
|
利用开源法学硕士促进视觉和语言导航的高效强化学习 视觉和语言导航 (VLN) 要求代理根据语言指令在逼真的环境中导航。现有方法通常采用模仿学习来训练智能体。然而,基于循环神经网络的方法泛化性较差,而基于 Transformer 的方法规模太大,无法实际部署。相比之下,强化学习(RL)代理可以克服数据集限制并学习适应环境变化的导航策略。然而,如果没有专家轨迹进行监督,代理就很难从稀疏的环境奖励中学习有效的长期导航策略。指令分解使智能体能够更快地学习价值估计,使智能体更高效地学习VLN任务。我们提出了使用视觉和语言导航的大型语言模型分解指令(DILLM-VLN)方法,该方法使用轻量级开源的LLM将复杂的导航指令分解为简单、可解释的子指令,并训练RL代理按顺序完成这些子指令。基于这些可解释的子指令,我们引入了级联多尺度注意力(CMA)和一种新型多模态融合鉴别器(MFD)。CMA 集成了不同规模的指令功能,以提供精确的文本指导。MFD结合场景、物体和动作信息,全面评估子指令的完成情况。实验结果表明,DILLM-VLN显著提高了基线性能,展示了其实际应用的潜力。 |
| [返回] |