欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033
微信:paperwinner
工作时间:9:00-24:00
机械论文
当前位置:首页 > 机械论文
具身大语言模型使机器人能够在不可预测的环境中完成复杂的任务
来源:一起赢论文网     日期:2025-10-16     浏览数:442     【 字体:

 具身大语言模型使机器人能够在不可预测的环境中完成复杂的任务

 
如果深蓝(第一台在与卫冕世界冠军的国际象棋比赛中获胜的计算机)真的是智能的,那么它在下棋时不应该能够移动自己的棋子吗?智能是一个多方面的结构,因此很难定义。因此,人类智能及其评估是一个有争议的话题1.然而,人们越来越一致认为,人类智能最好被理解为“具身认知”,其中注意力、语言、学习、记忆和感知不是受限于大脑的抽象认知过程,而是与身体如何与周围环境相互作用有着内在的联系 2,3.事实上,越来越多的证据表明,人类智能在感觉运动过程中具有本体论和系统发育基础4.
 
具身认知对“机器智能”具有理论意义,因为它表明,如果“认知”过程不嵌入机器人设备中,机器将无法展示智能的某些方面。这是一个仍有待检验的猜想,但“智能机器人”提供了一种有效的方法来探索有关人类智能的各种假设并推动机器智能领域的发展。更实际的是,有效的人机协作最终将要求机器人至少具有近似于“类人”的能力。因此,对未来“智能机器”的合理期望是,当它们熟练地与环境中的物体和人类交互时,它们将有可能执行抽象的认知计算5.
 
到目前为止,平行的活动流已经取得了进展:(1)机器人的感觉运动能力和(2)人工智能6.我们着手检验这样一个假设,即这些方法现在可以结合起来,使机器人展示类人智能的能力发生阶梯式变化。我们进一步假设,集成 (1) 和 (2) 将使机器人能够承担在各种环境中实际有用的复杂任务类型,但目前超出了机器人系统的能力。考虑一个场景,有人回到家时感到疲劳和口渴。一个具有复杂纵系统的机器人位于房主的厨房中,并被指示准备饮料。机器人决定需要制作一杯提神醒脑的咖啡,并交给他们的碳伴侣。这项任务对人类来说很简单,包含一系列挑战,测试当前机器人能力的极限7,8,9,10,11.首先,机器人必须解释它接收到的信息并分析周围环境。接下来,它可能需要搜索环境以找到杯子。这可能涉及打开带有未指定打开机制的抽屉。然后,机器人必须测量并混合水与咖啡的精确比例。这需要细粒度的力控制和对不确定性的适应,例如,如果人类意外移动杯子的位置9,12 .此场景是动态环境中复杂任务的多方面性质的典型示例。传统上,机器人系统在完成这些任务时遇到困难,因为它们无法遵循高级命令,依赖于预编程的响应,并且缺乏无缝适应扰动的灵活性 13,14.
 
强化学习和模仿学习已经证明了交互和演示在教机器人执行复杂任务方面的有效性。这些方法很有希望15,但经常难以适应新任务和应对不同的场景。当机器人需要适应新环境时,模仿学习也面临挑战16,17,18,19,20,21,22,23.受自然启发的机器智能为这些挑战提供了潜在的解决方案。人类纵的复杂性部分归因于大型语言模型 (LLM) 人为捕获的认知过程类型24,25,26.法学硕士提供了一种处理复杂指令并相应地调整作的方法,因为它们具有先进的上下文理解和泛化能力 27,28.
 
最近的大量研究将 LLM 用于短期任务15,27,29.例如,VoxPoser 利用法学硕士来执行各种日常作任务15.同样,Robotics Transformer (RT-2) 利用大规模网络和机器人学习数据,使机器人能够以卓越的适应性执行训练场景之外的任务29.分层扩散策略引入了一种模型结构来生成上下文感知运动轨迹,从而增强来自高级 LLM 决策输入的特定于任务的运动30.然而,在将法学硕士有效集成到机器人作中仍然存在挑战。这些挑战包括复杂的提示要求、缺乏实时交互反馈、缺乏利用力反馈的法学硕士驱动的工作以及阻碍任务无缝执行的低效管道 15,31.此外,目前的方法忽视了检索增强生成 (RAG) 的应用32尽管 RAG 有潜力通过相关且准确的示例不断更新和完善机器人知识(并在不影响性能的情况下增加知识库)。机器人能力也受到限制,因为力和视觉反馈通常不集成在机器人感觉运动控制中 15,33.这种集成在将水倒入移动杯子等场景中至关重要,在这些场景中,需要视觉来跟踪杯子,并且在视力被遮挡时需要力反馈来倒入所需量的水16,34,35.因此,需要一种创新的机器人纵方法,将最新的人工“认知”与集成的“感觉运动”视觉和力反馈功能相结合,以便在面对不确定性时有效地执行动作。补充第 1 节提供了有关最先进方法及其当前局限性的更多背景知识36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53.
 
具身 LLM 机器人 (ELLMER) 是一个集成了人工智能和感觉运动控制方法的框架,旨在创造机器人能力的阶梯式变化。它的有用性源于它结合使用视觉和力量进行感觉运动反馈控制,以及通过集成的 LLM 与 RAG 和精心策划的知识库相结合提供的认知能力。我们假设 ELLMER 将允许机器人为人类煮一杯咖啡。我们使用七自由度的 Kinova 机械臂测试了这一假设,以利用集成的力和视觉反馈,在不确定的环境中执行复杂的力密集型任务。整体系统图如图所示。1.
 
图1:系统框架示意图。
图1
该示意图说明了系统框架,显示了高级(蓝色虚线水平线上方)和低级(蓝色虚线水平线下方)系统架构。用户查询通过语音识别软件输入到转换器中。转换器 (GPT-4) 获取此输入并将其与 (i) 环境图像 (C) 集成(通过 azure Kinect 深度相机);(ii) 代码示例的知识库,包括存储在数据库中的各种函数。转换器可以将高阶抽象任务分解为可作的高级子任务,从知识库中检索相关代码示例,对其进行调整并编写针对这些任务量身定制的 Python (v.3.8) 代码。然后将生成的代码发送到机器人控制器 (A)。控制器处理代码并向机器人发送控制信号 (λ)。动作 (a) 由力 (F) 和视觉 (V) 反馈控制。该模型使用视觉来识别不同物体的属性(例如,咖啡杯的姿势 X),因此它可以准确地抓住物体。机器人使用力 (f) 和扭矩 (τ) 反馈(通过 ATI 力传感器获得)来熟练地纵物体(例如,确定要倒多少水)。由于视觉信号 (η 中的噪声,反馈是必要的视觉)、机器人关节角度(η角度)和力传感器信号(η力). 反馈更新 ROS 中的运动,以通过线性 (vxyz)和角度(vrpy)速度。这些命令根据适当的力和时空模式生成轨迹,以实现子目标。反馈回路的使用,包括末端执行器位置 (p) 和方向 (q) 的 40 Hz 更新,允许机器人对干扰做出响应(例如,机器人在用户移动杯子后跟踪杯子以确定其新位置)。
 
全尺寸图像
结果
用于抽象推理的语言集成
我们发现,我们的方法允许机器人响应抽象的高级口头提示(“我累了,朋友们很快就要吃蛋糕了。你能给我做一杯热饮,并用你选择的随机动物装饰盘子吗')并完成制作热饮并在盘子上画出形状的所需任务。补充视频 1 中提供了演示此交互的视频。机器人以以下声音输出响应提示:“我正在准备制作热饮,并用随机的动物图画装饰盘子。首先,我会找到一个杯子,然后舀咖啡并倒入热水。之后,我会拿一件物品,可能是一支笔,在盘子上随机画一只动物。听起来很快就会有蛋糕的有趣而舒适的时光。特别是,机器人在响应为疲惫的人类提供热饮的要求时选择煮一杯咖啡,并且能够将高阶行为分解为一系列子任务。
 
GPT-4 的集成(参考文献。54)被发现为机器人提供了所需的抽象推理能力。GPT-4 是一种语言模型,使机器人能够处理用户查询和环境数据,将任务分解为可作的步骤。我们的系统能够通过力和视觉反馈生成代码并执行动作,有效地为机器人提供一种智能形式。我们的方法成功地创建了自定义 GPT-4(参考文献。 54,55)以及灵活运动示例的综合数据库。该数据库成功地整合了浇注、舀取、拉丝、交接、拾取和放置以及开门。
 
我们发现机器人可以使用 RAG 识别和提取下游任务的相关示例。我们探索了各种方法,以确定智能机器如何通过我们的框架充分利用 RAG。这些方法包括可定制的开源方法,例如 Haystack56和维布拉57,以及 Azure Cloud AI 等专有技术。我们发现所有这些方法都是可行的。在我们的实验中,我们选择了最简单的方法:将我们策划的知识库逻辑地组织在一个 Markdown 文件中,并通过 GPT 平台中的“知识”功能将其上传到自定义 GPT API。这使得平台能够自动处理检索过程,并在语义搜索(返回相关文本块)或文档审查(提供完整的文档或较大文本的部分)之间进行选择。我们选择这个解决方案是因为它提供了最先进的嵌入器和模型,易于使用,并且能够在我们的任务中始终如一地产生良好的性能。然而,我们的框架允许合并一系列 RAG 技术,并确保“智能机器人”能够有效地完成复杂的任务。精心策划的知识库与 RAG 相结合,使语言模型能够访问大量低阶和高阶函数,每个函数都具有已知的不确定性。我们的测试表明,这种能力使机器人能够有效地处理多种场景。
 
完成复杂任务
发现该机器人能够熟练地执行用户指定的高级任务,并能够访问全面的运动原语数据库。该数据库包括各种特定运动的灵活示例,这些示例由机械臂成功执行(图 1999 年)。2). 数据库中包括倾倒液体的示例;舀粉;用未知机制打开门;拾取和放置物体;绘制任何要求的形状;进行交接;以及沿各种方向、方向或相对于指定对象移动。机器人能够复制和调整执行用户请求的复杂任务所需的动作。该系统使机器人能够动态调整以适应环境变量和不确定性。这增强了机器人在不可预测条件下的效率,并提高了其在现实环境中的灵活性和适应性。
 
图 2:Kinova 机器人的运行情况。
图2
a–f,Kinova Gen3 机器人准备咖啡 (a–e) 和装饰盘子 (f) 的动作镜头。
 
全尺寸图像
零样本位姿检测
我们发现,将分辨率设置为 640 × 576 像素的 Azure Kinect DK 深度相机2深度传感采样率为 30 fps,能够为我们的方法提供足够的视觉输入。我们使用 14 厘米的 AprilTag 实现了校准,发现这允许相机和机器人底座之间的对齐精度小于 10−6.此设置可在场景中实现准确的物体位置检测。接地段 - 任何东西58已成功部署到我们的语言到视觉模块。
 
视觉系统生成了一个三维 (3D) 体素表示,可以有效地识别我们设置中的物体姿势(使用的接地 DINO 检测模块在 COCO 零样本传输基准测试中实现了 52.5 的平均精度)。例如,我们发现该模块能够在我们的实验条件下 100% 正确识别我们使用的白色杯子。
 
3D 体素表示包含各种对象的网格。从这些网格中,以 1/3 Hz 的频率提取目标位姿。原则上,系统应该能够检测到任何物体。然而,在试点工作中,我们确定该系统并不总是能准确识别与制作热饮相关的不同物体。这通常是由于具有相似形状的对象或训练数据集中不存在的对象之间的混淆。我们还发现,机器人末端执行器引起的遮挡有时会导致物体检测不准确,并在我们使用高度杂乱的环境时导致错误。例如,在闭塞率在 20% 到 30% 之间的时候,白色杯子的平均成功识别率为 ~90%,但在较高的闭塞率下大幅下降(例如,对于 80% 到 90% 之间的闭塞率,白杯的平均成功识别率为 ~20%)。我们预计计算机视觉的改进将增强机器人处理视觉上最复杂的环境的能力。然而,视觉系统的性能令人印象深刻,我们发现,如果避免已识别的问题(例如,使用分布外的对象),我们的系统可以很好地应对相对不受约束的环境(图 1)。3)。
 
图3:视觉检测模块。
图3
零样本视觉检测模块的示意图,该模块可识别手、白色杯子和黑色水壶,并提取目标姿势以进行机器人抓取。
 
全尺寸图像
力反馈
我们发现 ATI 多轴力和扭矩传感器为熟练的物体交互提供了足够的力反馈。该传感器提供了力和扭矩的六个分量,并成功测量了机器人末端执行器在任务执行过程中施加的力。我们发现,在 100 Hz 的采样率下,传感器的精度在满量程的 ~2% 以内。
 
研究发现,该机器人在任务执行过程中表现出各种运动动力学,并伴有不同类型的力反馈。图 4 说明了机器人在准备咖啡和交出笔时所承受的力。如图所示。4,在各种任务中处理了各种外力。例如,当放下杯子时,峰值向上的力被用作成功放置的指标。相比之下,在抽屉作过程中,沿 x 轴和 y 轴的力和扭矩至关重要,凸显了它们对于成功执行任务的重要性。力反馈的可变性体现了我们适应不同运动要求的可扩展方法的优势。
 
图 4:力、速度和位置反馈。
图4
力 (N)、速度 (m s–1)和位置(m)图,说明不同运动的不同力反馈。为清楚起见,省略了绘图组件。
 
全尺寸图像
在4 m s的俯仰速度下,浇注精度为每100 g~5.4 g。–1.我们假设准静态平衡来估计在任何给定时刻倾倒的水量。然而,随着俯仰速度的增加,精度下降,误差接近~20 g s–1俯仰速度为 30 m s–1.精度的下降可归因于准静态假设的崩溃以及浇注介质和容器的质量分布对测量精度的影响。
 
生成艺术
达尔-E59被发现成功地生成了一张图像,我们可以从中得出绘图轨迹。结果发现,这使得机器人能够绘制用户指定的任何设计。我们发现 DALL-E 能够根据从用户那里提取的关键字创建剪影,例如“随机鸟类”或“随机植物”。轮廓的轮廓被提取并变换以匹配目标表面的尺寸。这使得机器人能够在各种物理物体上复制设计(图 1999 年)。5). 我们发现,力反馈在绘图时施加均匀的笔压,这允许控制 z 分量(补充部分 2)。
 
图5:绘图过程可视化。
图5
不同查询的绘图过程的图示。顶行显示了生成的图像、等高线图和在被指示创建“随机动物”时产生的绘图。第二行显示“随机食物”的相应输出,第三行说明“随机植物”的结果。
 
全尺寸图像
评估
我们针对 VoxPoser 评估了生成机器人计划的方法,VoxPoser 不使用 RAG 或力反馈。为了比较这些方法,我们提示 LLM 生成 80 个类似人类的查询,反映了知识库中指定的任务范围。然后使用这些查询来生成机器人计划。我们将使用 RAG(我们的方法)的性能结果(其中知识库动态集成到 LLM 的决策过程中)与基线(VoxPoser)进行了比较,其中知识库静态地合并到 LLM 的上下文窗口中。值得注意的是,第二种方法缺乏可扩展性,并且随着知识库的扩展而变得不切实际。
 
我们根据答案的忠实度评估结果,该结果评估了答案的真实性和准确性(确保事实陈述,没有捏造或“幻觉”错误)。在我们的研究结果中,使用 RAG 提高了响应的忠实度。对于GPT-4(gpt-4-0613),RAG的忠实度得分从0.74增加到0.88。同样,GPT-3.5-turbo (gpt-3.5-turbo-0125) 在 RAG 下达到 0.86,而没有 RAG 时为 0.78,Zephyr-7B-beta 从 0.37 增加到 0.44。忠实度的提高对于机器人应用尤为关键,因为在物理交互过程中准确执行至关重要。
 
讨论
我们测试了我们的方法——ELLMER 框架——它结合了人工智能和机器人纵技术来创建智能机器人。我们的方法成功地将法学硕士的认知能力与机器人的感觉运动技能相结合,使我们的机器人能够解释高阶口头命令并执行复杂的长期任务,同时熟练地管理不确定性。我们使用LLM,并辅以反馈循环和RAG,编写富有表现力的代码,并促进机器人实现高级目标(制作热饮)所需的作子任务。ELLMER 允许实时适应环境变化,并通过 RAG 利用精确解决方案的存储库。这确保了准确的任务执行和广泛的适应性32.
 
ELLMER 将已知约束编码到代码示例(“运动函数”)中,并能够快速适应许多不确定性,例如成分数量波动或打开未知抽屉——这是其他方法所缺乏的能力,无需进行大量额外培训29,33,60,61.视觉、力和语言模态的融合增强了作性能。力传感器提高了任务精度(例如,在视线被遮挡时倾倒精确且准确的液体量),而视觉系统则识别物体的位置和运动。语言功能使系统能够在代码中生成反馈,这对于适应新任务至关重要。精心策划的知识库通过根据特定任务规范定制信息检索来提高法学硕士的性能,这确保了高质量的上下文相关输出。精心策划的知识库是一个实用的元素,可以增强可控性、准确性和可扩展性。在这种情况下,RAG 可以被视为提供了机器人可以从中汲取知识的文化环境。特别是,这反映了通过知识的文化传播赋予人类的“智能”。因此,我们的工作表明,集成先进的语言模型和感觉运动控制策略使机器人能够利用法学硕士的指数级进步,从而实现更复杂的交互。这将开创下一个自动化时代,具有前所未有的自主性和精确性,强调安全管理这些进步的必要性62.
 
ELLMER 的潜力延伸到创造复杂的艺术动作。例如,像 DALL-E 这样的模型允许从视觉输入中推导出轨迹,并为机器人轨迹生成开辟了新途径。这种方法可以广泛应用于蛋糕装饰或拉花艺术等任务中。在未来的工作中,结合查询和图像将实现新轨迹生成,从而提高多功能性。此外,最近的法学硕士增强功能将显着提高人机交互的流动性和有效性。我们关于咖啡制作和盘子装饰的例子只是复杂机器人可能需要承担的复杂任务类型的一小部分。ELLMER 有利于扩大规模,因此它包括了广泛的可能的长期任务。因此,ELLMER 可以合并反馈循环数据库或“从演示中学习”示例,以促进各种复杂的机器人作。
 
ELLMER 基于有关计算机视觉的两个假设:(1) 视觉模块准确识别和分类场景中的物体,以及 (2) 提供器具的综合可供性图。我们赋予了模型对水壶、勺子和门把手可供性的先验知识,但最近的研究表明,可以用最少的数据来学习可供性 63,64.我们的重点不是物体检测,但我们注意到检测响应时间阻碍了最佳性能。此外,ELLMER 可以适应实时变化,但在主动适应方面遇到困难(例如,在没有事先编程的情况下中途切换任务)。在未来的迭代中,更频繁地查询语言模型将允许根据新的输入重新评估和修改总体计划。我们还注意到,仍然存在需要解决的挑战,例如复杂力动力学的复杂建模(例如,末端执行器上的力随流速、容器尺寸和液体粘度的函数)和空间感知工具的集成(例如 OctoMaps,一个用于 3D 占用地图的机器人库)。结合触觉传感器并使用软机器人技术将提高机器人施加适当力而不会造成损坏的能力。ELLMER 为整合这些研究开发提供了一个灵活的平台,使机器人能够使用“感官”反馈来解释材料特性并精确定制它们施加的力。
 
当前的 ELLMER 迭代使机器人能够“一次”成功完成一项复杂的任务。这为将感觉运动能力与法学硕士提供的抽象推理相结合的智能机器的能力提供了令人信服的图景。尽管如此,我们预计,随着 ELLMER 内部组合的组件变得更加精致,机器人的容量将呈指数级增长。我们的框架与硬件无关,可以使用 Haystack 等开源 RAG 解决方案轻松定制,支持对嵌入器、检索器、分块技术和 LLM 的快速调整。ELLMER 为研究人员提供了一个灵活的框架,以协作开发智能机器。补充第 3 节提供了有关 ELLMER 和未来研究的更多信息。
 
我们方法的力量在于通过一个将增强的感觉运动能力与法学硕士的认知推理能力相结合的框架来体现认知。通过这种组合,ELLMER 使机器人能够更有效地探索环境并与之交互,模拟人类智能中观察到的经验与行动之间联系的各个方面。这为机器人获得了一种“物理智能”形式的机会,它们对环境的探索驱动了感觉运动学习过程。总之,ELLMER集成了语言处理、RAG、力和视觉,使机器人能够适应复杂的任务。它结合了以下功能:(1) 解释高级人类命令,(2) 完成长期任务,以及 (3) 利用集成的力和视觉信号来管理不断变化的环境中的噪声和干扰。ELLMER 允许将强化学习、模仿学习和柔性运动原语等方法整体组合,以增强多样化动态场景中的适应性和“机器人智能”。它表明,将法学硕士的认知推理能力与机器人的感觉运动技能相结合,使它们能够解释和纵环境,并通过具身机器智能完成复杂的任务。
 
方法
概述
机器人的目标是在动态环境(例如家庭厨房)中响应高级人类命令。我们设计了一个逼真的环境,包括水壶、白色杯子、抽屉、厨房用具和咖啡壶。该场景旨在测试机器人在与人类互动时在现实环境中执行各种任务的能力,尽管它受到合理限制。我们假设机器人低级控制机制可以管理避障。该管道由用于执行任务的语言处理组件、用于姿态检测的视觉系统和用于物体纵的力模块组成。所有这些都集成在机器人作系统 (ROS) 进程中。
 
具体来说,我们的方法建立在“动态策略代码”方法之上65这可以促进适应性强的机器人动作。在我们的实施中,我们利用了 GPT-4 和 OpenAI 的 RAG 基础设施。我们使用 RAG 利用了法学硕士的功能32从数据库中动态选择和调整最合适的策略,或根据相关示例生成自己的代码。与现有的纯 LLM 驱动方法相比25,27,29,我们将力和视觉集成到框架中,使系统能够适应动态环境中的各种复杂任务。这种方法使机器人系统具备了高级上下文理解的能力25以及通过实时反馈执行复杂任务的熟练程度,确保准确性和精确度。该方法确保每个作都符合任务的具体要求和环境条件(图6)。
 
图6:咖啡和盘子装饰。
图6
Kinova Gen3 机器人准备咖啡并装饰盘子。
 
全尺寸图像
硬件和软件
使用了 Kinova 七自由度机器人。Azure Kinect 传感器的分辨率为 640 × 576 像素2和 30 fps,以及一个 ATI 多轴力传感器。一个 140 毫米的 Robotiq 夹持器连接到机器人的末端。力传感器使用 3D 打印法兰连接到 Robotiq 夹具和 Kinova 臂上。在最靠近夹持器的一侧的力传感器上放置了一个小圆柱体,这样夹持器的运动就不会接触力传感器,从而导致读数不准确。使用配备 Intel Core i9 处理器和 NVIDIA RTX 2080 图形处理单元的戴尔台式计算机,并通过以太网电缆连接到机器人。同样,两个 Azure 相机都连接到桌面。使用 Ubuntu 20.04 和 ROS。我们的代码依赖于 Kinova ROS Kortex 库。NVIDIA RTX 2080 在典型负载条件下使用 ~225 W66,而 Kinova 机械臂的功耗为 ~36 W(参考。67).在我们的方案中,每个任务最多运行 4 分钟。利用 EPA 的平均转换系数 ~0.4 kg CO2混合能源的每千瓦时68,每项任务的碳排放量达到 ~0.007 公斤(7 克)一氧化碳2.
 
语言处理
LLM 处理图像和用户的查询,系统地分解复杂的任务 LT转换为一系列步骤 {L1, L2,...,升N},其中每步 L我可能取决于上述步骤的完成情况。步骤的顺序至关重要,步骤之间存在依赖关系;例如,如果需要一个物体(例如,一个杯子)但没有找到,那么可能应该打开一个橱柜。
 
从初始图像输入中收集的环境数据是分解抽象任务的关键。例如,当被要求制作饮料时,环境中存在的成分对于决定制作哪种饮料至关重要,而视觉信息可以帮助识别可能的位置。该界面由 GPT-4 提供便利,GPT-4 在指令下运行,通过服务器平台向机器人编写代码并将其分派到机器人。该过程由包含代码示例的知识库提供帮助,并允许与机器人进行持续通信。精选的知识库包含经过验证的低阶和高阶作示例,其中包含已知的不确定性。包括这些运动示例是使机器人能够处理众多场景并完成长期任务的关键。高级运动原语或策略可以将多个已知的不确定性压缩到单个函数中,从而减少对大量代码编写的需求。RAG 允许知识库在不牺牲性能的情况下变得全面。系统与 ROS 交互,并通过 EC2 服务器提供的低延迟连接通过 JSON作查询和响应进行通信。
 
任务之间的依赖性通过条件概率表示,例如 P(L2安, L2乙∣L1),它指定了进展到任务 L 的可能性2安或 L2乙成功执行任务 L 后1.这有助于规划步骤顺序,确保机器人能够根据实时反馈调整其动作。LLM 根据说明(提示)和包含示例的知识库生成发送到服务器的可执行代码。代码在只能访问预定义函数的安全环境中在 ROS 上运行,从而确保任务执行的安全性。
 
抹布
我们系统的一个关键功能是部署 RAG。RAG 将用户查询与来自不断更新、策划的知识库的信息集成在一起,从而优化 LLM 的输出。这种方法允许模型遵循数据库中提供的代码示例,确保随着知识库的发展而准确性、可靠性和可扩展性。
 
我们使用了矢量 RAG,它涉及使用编码器嵌入查询 (q) 和知识库段 ({s1, s2,..., m}),称为块,转换为向量表示。然后根据余弦相似度将块与查询进行比较,并选择前 k 个块作为上下文相关信息来生成响应。可以在我们的框架内使用的替代检索技术包括传统的 RAG(基于关键字/规则的 RAG)或混合检索方法。
 
可以通过选择不同的文档存储(存储和组织知识库的媒介)来自定义 RAG 管道。在我们的实验测试中,我们使用了内置的 OpenAI RAG 流程,并将我们精选的知识库组织在一个 Markdown 文件中作为文档存储。但是,我们的框架中可以使用一系列其他 RAG 方法,利用 Haystack 等工具56和维布拉57.这些工具允许用户选择一系列文档存储——从用于简单基于文本的知识的“Markdown 文件”到用于复杂索引数据的“Elasticsearch”——以及特定的嵌入器、检索器和分块技术,以及 LLM 本身。
 
视觉系统
Grounded-Segment-Anything 被用作语言到视觉的模型,以创建一个 3D 体素,突出显示所有物体的位置,并允许提取它们的姿势以供机器人抓取 58,69.这使得 (1) 生成特定于对象的边界框,(2) 通过 MobileSAM 制造分段掩码,以及 (3) 创建封装检测到的对象的体素。体素允许提取目标对象姿势。
 
力模块
为了确保在力密集的应用中进行准确测量,我们校准了 ATI 力传感器以补偿重力,确保它在没有外力的情况下记录为零。这种校准是准确预测施加在末端执行器上的外力的关键。该过程包括在一个轴上依次将力传感器归零,旋转传感器,然后在下一个轴上归零。将局部力转换为全局平面,以估计不同旋转 F 时的向上力全球= 吨end_effector_to_robot_base× F当地,其中 F全球是全局(机器人底座)坐标系中的力向量,Tend_effector_to_robot_base是从末端执行器框架到机器人基础框架的变换矩阵,F当地是末端执行器局部坐标系中的力矢量。我们探索了各种方法,例如移动传感器的位置和方向以及使用多项式函数进行校准。然而,发现更简单的校准方法最有效。
 
为了估计流速,我们假设处于静态平衡状态,并在浇注过程中保持缓慢的运行速度。从数学上讲,这表示为 F向上≈ mg 和 ΔF向上≈ Δmg。在涉及可变加速度的情况下,力和流量之间的关系变得更加复杂。它需要一个动态模型来考虑不同的输入,例如流速、容器的质心和末端执行器的惯性,以将动态力输入映射到浇注流量。
 
该系统沿三个轴持续管理力矢量,根据其知识库中的标准调整施加的力。LLM 动态选择必要的力大小和方向,以满足特定的下游任务要求。例如,知识库可以根据对象特征或任务需求指定要施加的不同力大小。这种方法使系统能够自主调整其作,以符合广泛的作标准。
 
ROS作
在这项工作中,我们通过启动 Kinova ROS Kortex 驱动程序来启动机器人流程。这建立了一个节点,可以在 ROS 网络和 Kinova Gen3 机器人内进行通信。该节点发布了订阅者可以访问的多个主题,并提供了可以调用这些服务来修改机器人的配置。底座关节以 40 Hz 的频率更新。同时,Robotiq 2F-140 mm 夹持器节点以 50 Hz 激活。该节点通过 USB 连接与夹持器建立通信链路,并启动一个作服务器,从而能够精确控制夹持器并促进作数据的交换。
 
我们机器人系统的一个重要元素是视觉模块节点。“classes”变量用于标识环境中选定对象的目标姿势。这个变量可以动态更新,从而使系统能够适应场景的变化。由 'classes' 变量建立的物体的姿态坐标大约在每 \(\sim \frac{1}{3}\) Hz 发布。这主要是由于 Grounding DINO 在检测物体和建立边界框方面的处理时间。此外,我们还使用了 AprilTag 来确定相机相对于机器人底座的位置。这表示为 PR= 吨AR的× (T加利福尼亚× PC),其中PC是相机帧中的点,T加利福尼亚是从相机帧到 AprilTag 的变换矩阵,TAR的是从 AprilTag 到机器人底座的变换矩阵,PR 是机器人底座框架中的点。
 
同时,以 100 Hz 的频率启动力节点,并提供定位到 ATI 力传感器的多轴力和扭矩读数。读数使用基于四元数的 3 × 3 旋转矩阵进行转换,以与机器人的全局基系对齐,提供固定自由度上最后五个时间步长的原始值和平均值。它使用根据运动学数据计算的旋转矩阵来计算机器人底座全局框架中的力。
 
ROS 有助于连续处理来自语言处理、视觉系统、力指标和联合末端执行器位置的多模态反馈数据。这些运动在基本的六自由度扭转命令上运行,该命令控制速度以及用于打开和关闭的变速和力夹持程序。这使得集成硬编码的安全约束,例如最大速度和力限制,以及工作空间边界。
 
线速度在±0.05 m s内–1角速度钳制在±60° s以内–1.末端执行器力也限制在 20 N。这被编码到基本运动基元中;因此,语言模型中的错误不会覆盖这一点。末端执行器也被夹在 x = [0.0, 1.1]、y = [–0.3, 0.3] 和 z = [0, 1.0] 的预定义工作空间范围内。发布者在以后的时间步长中以 10 Hz 的频率检查这一点。
[返回]
上一篇:评估用于原子力显微镜自动化的大型语言模型代理
下一篇:对抗性提示和微调攻击威胁医疗大语言模型