| 用于多智能体强化学习的 LLM 指导决策工具包 |
| 来源:一起赢论文网 日期:2025-07-16 浏览数:674 【 字体: 大 中 小 大 中 小 大 中 小 】 |
|
用于多智能体强化学习的 LLM 指导决策工具包 1. 引言
近年来,复杂的合作游戏任务已成为多智能体系统的重要焦点 [1]。这些任务通常涉及动态和不确定的环境,需要代理之间的协调和决策 [2]。多智能体强化学习 (MARL) 已成为一个强大的框架,允许智能体通过与环境和其他智能体的交互来学习最佳策略 [3]。
尽管 MARL 取得了显著进展,但仍存在一些挑战。一个关键问题是冷启动问题 [2]、[4]。在冷启动阶段,由于缺乏初始经验,代理从未知状态探索环境,从而导致早期行为效率低下。稀疏的奖励信号使学习有效策略复杂化 [5],[6],而高维状态空间非平稳环境加剧了挑战,因为过去的经验很难转移到新的情境中 [7],[8]。由于代理之间的相互依赖性,冷启动问题在 MARL 中特别复杂 [2]、[4]。由于代理相互依赖,学习过程变得不稳定,并且缺乏初始经验使其难以 [2]。此外,策略的非平稳性意味着一个代理策略的变化会影响整体动态,因此很难从整体上评估博弈情况 [7]。此外,奖励分配的歧义使得代理很难辨别他们对奖励的贡献 [4]、[9]。这些因素共同加剧了 MARL 的冷启动挑战。
解决冷启动问题的传统方法通常涉及使用预训练模型、模仿学习和利用专业知识 [10]、[11]、[12]。这些方法可以快速提供一些基线行为模式,减少代理盲目探索环境的时间 [10]、[11]。但是,它们也有很大的局限性。预先训练的模型可能无法很好地推广到特定的任务环境 [10],模仿学习依赖于高质量的演示数据 [11],而专业知识可能会引入主观偏见,并且通常难以扩展 [12]。此外,这些方法通常需要大量的标记数据,这增加了实现的复杂性和成本 [10]、[11]。
大型语言模型 (LLM) 为解决这些限制提供了一种有效的解决方案 [13]、[14]。凭借庞大的知识库、经验和强大的推理能力,LLM 可以在不依赖标记数据的情况下生成上下文相关的策略建议 [14]。这使得 LLM 成为缓解 MARL 中冷启动问题的理想工具,特别是在帮助代理快速适应复杂的合作游戏任务方面 [13]。利用 LLM 的优势,在缺乏初始经验的情况下,可以显着提高学习效率和协作效率。但是,将 LLM 集成到 MARL 框架中会带来独特的挑战。在《星际争霸》多智能体挑战赛 (SMAC) [15]、[16]、[17] 中,情况从帧到帧迅速变化,每时刻都会带来新的不确定性和复杂性。多智能体系统中状态和动作空间的高维性使这种集成进一步复杂化,使得 LLM 难以直接与 SMAC 交互。
在本文中,我们探讨了将 LLM 集成到 MARL 框架中,以增强多智能体系统探索阶段的决策。通过利用 LLM 来协助决策,我们的目标是提高 MARL 算法的训练效率并应对冷启动挑战。这种方法突出了 LLM 在提高 MARL 效率方面的潜力,并为多智能体系统开辟了新的研究途径,尤其是在减少对标记数据的依赖以进行监督学习方面。
此外,我们还提供了一个全面的工具包,支持在 SMAC 中随时为任何地图自动生成提示、与多个 LLM 集成、自动策略转换和 LLM 辅助 MARL 算法训练,从而创建完整的端到端工作流程。鉴于对 MARL 中通信的广泛研究,该工具包还提供了在实际多智能体通信和协作场景中训练和测试通信算法的功能。它包括用于可视化通信过程以帮助算法分析的功能。
我们的贡献有三个方面:
(1) 为了解决多智能体强化学习 (MARL) 中的冷启动挑战,我们利用大型语言模型 (LLM) 在复杂的合作游戏环境中提供战略指导,从而缓解冷启动问题。
(2) 我们开发了一个与 SMAC 环境 API 集成的多功能工具包,支持动态提示生成、自动策略转换、LLMs 集成和可视化,从而提高了 MARL 任务的研究能力。
(3) 对于现实世界的多智能体通信和协作场景,我们在工具包中嵌入了强大的通信算法训练和测试功能,并通过通信可视化功能促进算法分析。
2. 相关工作
2.1. 多智能体强化学习
多智能体强化学习 (MARL) 涉及多个智能体通过共享环境中的交互进行学习,根据奖励和他人的行为优化他们的决策。MARL 的最新发展引入了几种算法来解决代理之间的合作和竞争问题。
价值分解网络 (VDN) [18] 通过将联合价值函数分解为单独的组件来简化合作。反事实多智能体策略梯度 (COMA) [19] 使用反事实推理增强合作行为。多智能体深度确定性策略梯度 (MADDPG) [2] 将参与者-批评者方法扩展到混合环境。异步优势演员-评论家 (A3C) [20] 通过并行训练智能体来改善学习。QTRAN [21] 和 Qatten [22] 优化了 Q 值分解以处理复杂的协调。Dueling DQN [23] 将状态评估与动作评估分开,BiCNet [24] 使用循环网络来更好地进行代理通信。
QMIX [25] 等算法使用非线性网络来组合 Q 值以实现有效协作,而独立近端策略优化 (IPPO) [26] 允许代理独立优化,使其能够适应没有全局状态信息的环境。这两种算法以其稳定性而著称,使其成为评估全局状态信息对 MARL 性能影响的合适基线。
尽管取得了进步,但一个共同的挑战仍然存在:许多方法从随机初始化开始,导致代理必须从头开始学习的冷启动。这会减慢早期学习和整体优化的速度,凸显了对能够克服初始探索障碍的策略的需求。
2.2. 多智能体强化学习中的冷启动问题
在多智能体强化学习 (MARL) 中,当智能体由于缺乏先前经验而难以有效地初始化其策略时,就会出现冷启动问题,从而导致学习缓慢或次优。为了解决这个问题,已经采用了体验重放等技术,通过学习不同的过去经验来提高数据效率。Ape-X 框架 [27] 通过分布式数据生成和优先考虑信息体验来实现最先进的性能。经验重放由 [28] 稳定,以管理独立 Q-learning 引起的非平稳性,增强早期学习。
另一种方法涉及有效地初始化策略,为代理提供一个强大的起点,从而缩短收敛时间。好奇心驱动的探索 [6] 使用内在奖励来鼓励探索,即使在稀疏的奖励环境中也是如此,而 rl-imgep 框架 [29] 允许代理使用内在动机自主探索,无需预定义目标,帮助他们在最初缺乏经验的情况下学习。
MARL 中的合作策略还可以缓解冷启动。具有集中式批评者 [2] 的多智能体策略梯度算法和像 SchedNet [30] 这样的通信调度方法通过改善通信和减少梯度估计的方差来实现高效学习。ATOC 框架 [31] 和 IC3Net 模型 [32] 通过允许代理选择性地共享信息或决定何时通信来优化通信,重点关注基本交互。VBC [33] 在座席不确定时优先考虑沟通,从而提高学习效率。
虽然这些方法在不同程度上解决了冷启动问题,但它们仍然依赖于随机初始化,这限制了早期性能,并可能阻碍复杂环境的可扩展性。因此,仍然非常需要更强大和可扩展的冷启动解决方案,以平衡有效的初始化、协调和对不同 MARL 场景的适应性。
2.3. LLM 增强的多智能体强化学习
大型语言模型 (LLM) 的集成在 NLP、代码生成、医疗保健和多模态任务等领域取得了显着进步。Radford等[34]介绍了GPT-2,它证明了大规模无监督预训练对翻译、总结和问答等任务的有效性,将LLM确立为多功能的多任务学习者。在代码生成方面,Chen et al. [35] 开发了导致 GitHub Copilot 的模型,通过从自然语言提示生成代码,显著提高了编程效率。Wang等[36]在医疗保健领域引入了ClinicalGPT,增强了临床数据分析并支持医疗决策。Gao等[37]展示了GPT-3在问答的小样本学习方面的能力,减少了对广泛的任务特定训练的依赖。
同时,LLM 正在集成到 MARL 系统中,以加强协作和决策。Li et al. [38] 在多智能体合作中探讨了 Theory of Mind 的 LLM,展示了高级推理,但指出了长期规划中的挑战。Yao et al. [39] 介绍了 VELO 框架,通过将 LLM 与 MARL 算法集成来优化云边缘系统中的服务质量。Sun等[40]回顾了基于LLMs的MARL框架,强调了它们在需要沟通和共同目标的任务中的潜力,并提出了未来的研究方向。D. Morad等[41]提出了一种用于多机器人导航的语言条件离线强化学习方法,其中LLM帮助机器人有效地解释和泛化自然语言指令。
尽管 LLM 在 MARL 领域具有广阔的潜力,但现有研究往往无法在 SMAC 环境中将 LLM 与 MARL 算法完全集成,特别是缺乏处理随机映射设置的灵活性。这限制了它们在不同场景中的应用。此外,通信是多智能体系统中的关键组件,但 SMAC 环境中对通信算法和可视化工具的支持有限。这种缺陷阻碍了座席之间对沟通策略的更深入洞察和优化。
应对这些挑战对于推动该领域的发展至关重要。改进与 MARL 工作流程的集成,确保对任何图谱配置的适应性,并提供强大的通信算法和可视化工具,可以显著提高实验的灵活性和效率。这些改进对于更好地理解多智能体系统中的复杂交互和优化整体性能至关重要。
3. 基于 LLM 辅助决策的多智能体强化学习
在本节中,我们提出了一种在 LLM 的帮助下改进 MARL 的算法。LLM 在早期训练期间提供战略建议,减少对纯随机探索的依赖。Section 3.1 概述了问题并设置了符号。第 3.2 节解释了为 LLM 生成提示并将其输出转换为星际争霸多智能体挑战 (SMAC) 环境中智能体的可作策略的过程。然后,第 3.3 节详细介绍了如何将 LLM 生成的建议整合到 MARL 流程中,以随着时间的推移改进勘探和策略开发。
3.1. 问题定义
在协作战斗设置中,我们引入了一个 MARL 挑战,其中
Allied Agents 面对
敌方特工。代理的作由算法编排,该算法在每次作后以奖励的形式从环境中接收反馈。这个反馈循环允许代理不断改进他们的策略,最终目标是消灭敌人以赢得比赛。我们的目标是优化训练阶段,以便快速确定最有效的策略,从而最大限度地减少浪费在非生产性探索上的时间。
我们使用分散的部分可观察马尔可夫决策过程 (Dec-POMDP) 作为多智能体决策的建模框架。Dec-POMDP 正式表示为 Tuples
哪里
表示有限的代理集,
状态集 /
Agent 的作集
和
状态转换函数。此外
是 agent 的观察集
,
是奖励函数,而
是折扣系数。
在每个时间步
、每个代理
选择作
根据自己的观察
.所有代理的集体行动,
确定环境的下一个状态
和即时回报
对于每个代理,由 reward 函数确定
.代理人共同努力完成合作任务,旨在寻找政策
最大限度地提高他们的整体团队效用。
由于我们的目标是在训练算法的早期阶段利用 LLM 生成实证的初始博弈策略,因此我们采用双重视角进行决策,包括针对不同场景量身定制的去中心化和集中式视角。
在去中心化视角中,每个代理独立馈送其本地观察
拖动到每个时间步的 LLM
.然后,LLM 会生成一个作
仅基于代理人的个人观察。这种分散的方法允许代理制定本地化策略,这在代理对全局状态的信息有限或部分的环境中特别有效。它适用于个人自主性和适应性至关重要的场景。
在集中式视角中,我们向 LLM 提供全局环境状态
在每个时间步
.在这种方法中,LLM 为所有代理制定一个协调的行动计划。此方法有助于制定更具战略性和协作性的行为,尤其是在需要在多个代理之间同步作的情况下。它非常适合需要全局协调和集中控制的环境。
在这两种情况下,LLM 和代理之间的交互都是双向的。在每个时间步
,我们输入全局状态
(集中式) 或每个代理的本地观察
(去中心化的)到 LLM 中以生成作
.这些交互会导致作的执行,从而产生 return
和下一个状态
.这些交互被记录为轨迹
并存储在重放缓冲区中。
3.2. LLM 与 SMAC 环境之间的双向交互
在本节中,我们将探讨多智能体系统中的双向交互 LLM 和 SMAC 环境,包括生成提示和解释结果策略以指导智能体行为的机制。
3.2.1. 提示转换
在每个时间步
、状态
以及每个代理的观察
被表述为自然语言描述。提示转换过程由四个部分组成:
1.
提示生成支持信息存储库:在生成提示之前,我们会创建一个信息存储库来支持提示生成过程,该过程包含在 SMAC 包中。确定训练地图(包括自定义地图)后,此存储库将帮助生成特定的提示信息。存储库包含地图上两侧的代理配置,详细说明了代理属性,例如生命值、防御、视野和射击范围。这使 LLM 能够全面了解环境和代理的具体特征。
2.
系统提示符开发:系统提示符包含在整个训练过程中保持不变的静态信息。它是根据当前训练地图和所涉及代理的属性生成的。这包括基本细节,例如环境状态和代理的固定属性,例如生命值、护盾、冷却时间和进攻能力。系统提示符为 LLM 提供了稳定而全面的上下文,确保他们对环境和代理配置有一致的理解。考虑星际争霸多智能体挑战赛 (SMAC) 中特定地图上特定时间步的提示转换。集中式系统提示如图 1(a) 所示,而分散式系统提示如图 2(a) 所示。
3.
用户提示开发:用户提示捕获在每个时间步发生变化的动态信息。在集中式方法中,如图 1(b) 所示,用户提示是从全局状态派生的
在时间步长中
.它包括有关所有 Allied 和 T敌方 Agent 的详细信息,无论单个 Agent 的可见性如何。这可确保 LLM 具有完整的环境视图。相比之下,在分散式方法中,如图 2(b) 所示,用户提示是根据每个代理的本地观察生成的
.它包括有关代理自身信息的信息,以及有关其视觉范围内任何盟军和敌方代理的详细信息。这种本地化的视角允许每个代理根据其周围环境做出决策。在这两种方法中,每个代理的可用作保持一致,从而确保决策过程的一致性。
4.
Final Prompt Synthesis:系统提示符和用户提示符共同构成了 LLM 的完整输入。此集成可确保生成的策略同时反映整体上下文 (来自系统提示符) 和当前情况 (来自用户提示符)。通过组合这些元素,LLM 可以生成更准确和适用的策略,从而提高多智能体系统的性能。 |
| [返回] |