Bootstrap

整合语音命令与大型语言模型 (LLM) 及传感器在人类和机器人之间进行有效的自然语言交流 以简化装配操作并提高生产车间的安全性

概述

论文地址:https://arxiv.org/pdf/2406.01915
本研究提出了一个使用大规模语言模型(LLM)的框架,以改善人机协作制造系统中的通信。在制造过程中,人类操作员要灵活应对动态情况,而机器人则要执行精确的重复性任务。

然而,人类与机器人之间的沟通障碍阻碍了双方的协作。在这项研究中,我们提出了一个将自然语言语音命令整合到任务管理中的框架。一项装配任务案例研究表明,该框架可以处理自然语言输入并处理实时装配任务。研究结果表明,LLM 有潜力改善制造装配应用中的人机互动。

介绍

机器人技术的进步大大提高了生产效率,降低了成本,提高了生产率。机器人可以在生产车间快速准确地重复繁重的任务,但它们缺乏人类操作员的适应性和多功能性。

这就是为什么人机合作(HRC)变得越来越重要的原因。人机合作是指人类操作员和机器人系统在共享工作空间内的互动与合作。

先前的研究表明,HRC 框架可改善制造环境中任务的人体工程学,实现安全的人机交互。例如,从大型组件的搬运、安装和拆卸,到印刷电路板等小型组件的复杂装配任务,人机合作可以显著提高生产线的效率和安全性。

然而,在制造系统中进一步发展 HRC 之前,还需要解决与人机交互相关的若干挑战。特别是,由于语言障碍,与机器人的交互会给操作员带来心理压力和紧张感。现代制造系统需要大量的预先培训和复杂的代码开发,以确保操作人员能准确、安全地与机器人配合工作。

这些困难凸显了开发无需对机器人进行大量培训的人机通信系统的必要性。人机通信系统还必须足够灵活,以适应制造装配过程中的变化和错误。此外,人机合作装配应用需要将先进技术与以人为本的设计相结合,以改善沟通和易用性。

大规模语言模型(LLMs)最近被引入用于提高自然语言理解能力和生产能力。OpenAI 的 GPT-3 和 GPT-4 等模型在自然语言处理、理解和交流方面表现出了很强的能力。

LLM 集成可实现人与机器人之间的自然语言交流。在动态工作环境中,使用语音界面进行交流可提高协作性和操作员的安全性。

本研究的主要贡献包括

1. 使用 LLM 来解释自然语言,使操作员能够与机械臂进行协调

2. 提出语音指令、机械臂和视觉系统的综合框架,以提高人力资源中心的操作灵活性。

3. 通过人机交流,增强适应任务错误和障碍的能力,提高生产环境的效率。

相关研究

为提高制造业的安全性和效率,人们开发了多种人机协作(HRC)方式。例如,Fernandez 等人开发了一种具有多传感器功能的双臂机器人系统,用于实现安全高效的协作。该系统集成了手势识别功能。Wei 等人还开发了一种利用 RGB-D 视频预测人类意图的深度学习方法。

此外,Liu 等人还开展了一项研究,通过整合语音命令、手部动作和肢体动作等不同模式来改进 HRC。这种方法使用深度学习模型进行语音命令识别,但并不关注上下文相关的交流。Wang 等人还采用了一种教学-学习模型,利用自然语言指令预测人类意图并促进协作。该模型使用自然语言进行多模态处理,但并不关注与语言多样性的交互。

之前的这些研究介绍了使用环境数据和自然语言的方法,以提高制造过程中人机协作装配的安全性和效率。然而,在人机协作装配方面,有效整合自然语言能力以处理上下文相关通信和语言多样性的研究还很有限。作者旨在整合基于 LLM 的方法,以改善人机交流。这种方法是将计算机视觉和 LLM 等现有技术结合起来的第一步,目的是在制造过程中利用人的灵活性和机器人的精确性。

框架

本研究提出的框架旨在制造环境中的人机协作装配。该框架旨在促进装配过程中人类操作员与机器人之间的互动。

物理层

物理层根据虚拟层的数据实现人与机器人的交互。该层由三个主要部分组成

1. 人工指令:操作员通过语音指令控制机器人的动作。

2. 机器人行为:机器人根据预先设定的任务执行某种行为。

3. 传感器数据:传感器数据用于监控环境条件。通过这些数据,机器人可以根据工作空间的变化(如部件的位置和方向)调整动作。

如果在执行任务过程中检测到事件或错误,机器人会通过通信协议通知人类操作员;LLM 模块会将错误信息转换为自然语言信息,并通过语音合成技术传达给操作员。一旦操作员理解并对错误做出回应,机器人就会继续执行任务。

虚拟层

虚拟层具有促进人类指令与机器人行为之间交流的系统功能。该层由两个主要代理组成

1. 人类代理人:

人类代理将语音指令转换成文本,其格式机器人可以理解。代理使用语音识别模块将语音数据转换成文本,并通过通信模块向机器人发送指令和信息。

2. 机器人代理:

机器人代理解释人类操作员发出的语音指令,并执行任务。这一过程由以下功能模块提供支持

初始化模块:初始化机器人代理,提供基本操作指南和任务执行协议。它定义了机器人执行任务的能力,并制定了出错时向操作员求助的协议。

LLM 模块:LLM 将人类指令转换为任务,并根据上下文自动检测和建议下一个任务。它还能将任务控制模块的错误信息转换成自然语言,并传达给操作员。

传感器模块:处理来自传感器的数据并调整机器人的动作。例如,它能识别部件的位置和方向,并对机器人进行精确调整。

任务控制模块:执行任务并管理错误。验证传感器数据,并在发现错误时通过 LLM 模块通知操作员。

图1 展示了人机协作装配框架。该图直观地展示了人类和机器人代理如何协同执行任务。

图 1:使用 LLM 的人机协同装配框架。

人机协作装配工作流程。

图 2 中的序列图展示了整个工作流程,描述了人机协同装配过程。图中显示了 LLM 模块如何处理来自人类操作员的语音命令,以指导机器人的行动。

首先,操作员发出语音指令,LLM 模块将语音指令转换为机器人的一系列离散任务 t。然后,机器人请求传感器数据以执行 ti。如果数据有效,机器人就会继续执行分配的 ti。传感器模块通过将检测到的参数与预先定义的标准进行比较,来确定数据的有效性。

如果执行成功,则通过 LLM 模块向操作员发送完成信息Mc(ti)。

如果数据无效或 ti中出现错误,机器人会通过 LLM 模块生成错误信息 Mei(ti),告知人类操作员子任务tic+1中的具体错误及其发生情况,以便有效解决。 在人类操作员识别并纠正错误后,人类操作员会向机器人发出新的指令。

然后,机器人根据新的传感器数据,从中断的子任务 tic+1 开始,在 ti 处重新开始执行任务。如此反复,直至 ti 完成。

图 2:制造系统中的人机协同装配序列图。

案例研究

在本研究中,建议的框架被集成到制造装配系统中,并应用于电缆鲨鱼产品的装配操作。本案例研究旨在证明该框架的有效性。

法学硕士和助理研究员模块

本节将介绍如何在系统中实现 LLM 和 ASR 模块。通信方面由 OpenAI 的语音识别模型 "whisper1 "和语音合成模型 "ts-1 "实现。这可确保将人类语音指令准确转换为文本,并以机器人能够理解的形式进行回复;LLM 模块使用 OpenAI 预先训练好的 GPT-4.0 将人类指令转换为任务,然后由机器人执行。

传感器模块:视觉系统

传感器模块包含一个视觉系统。该系统提供装配过程中的环境数据,并反馈给任务控制模块。YOLOv5 模型用于物体检测,定制模型则使用单个部件(如外壳、楔形件、弹簧、端盖)的图像数据集进行训练。图 4 显示了视觉系统如何提取特征。该系统可识别部件的位置和方向,并协助进行精确的装配操作。

图 4:视觉系统的特征提取方法

任务控制模块:装配任务

任务控制模块执行 LLM 指示的任务,解释人类指令并处理错误。它验证传感器数据,如果数据有效,则继续执行任务;如果数据无效,则通过 LLM 模块通知操作员错误详情。图 5 展示了缆鲨装配过程。

图 5:缆鲨装配流程

案例研究结果

所提出的框架已集成到电缆鲨鱼装配系统中。操作员通过语音指令与机器人互动,执行装配任务。在情景 1 中,机器人会检测到重叠的部件,并请求人工干预。在情景 2 中,当楔形部件组装不正确时,机器人会停止,需要人工纠正。在情景 3 中,机器人检测到缺少一个弹簧部件,需要人类操作员放置该部件。表 1 显示了每项任务指令的语言变体。表 2 显示了每个场景中语言变体的成功率。

图 6:各方案的个案研究传播结果
表 1:任务指令的语言差异

表 2:语言变体的成功率

案例研究讨论和局限性

本案例研究评估了 LLM 集成如何提高人机协作的效率和灵活性。结果显示,指令越具体,机器人的表现就越好。例如,模糊指令 "已更正,请继续操作 "由于缺乏上下文和明确的任务参考而失败。这一结果表明了建议框架的局限性和改进空间。

结论和未来的挑战

大型语言模型(LLMs)的开发使人机协作装配中基于环境数据的运动执行和协作成为可能;通过集成 LLMs,机器人可以更好地理解人类操作员的指令,解决错误并利用环境反馈来改进执行。通过集成 LLM,机器人可以更好地理解人类操作员的指令,解决错误并利用环境反馈来改进执行。在这项研究中,集成了 LLM,以便对制造环境中的任务变化做出动态响应。

为了应对人类与机器人合作装配的挑战,本研究特别关注以下几个方面

1. 开发无需对机器人进行大量培训的通信系统(C1)

2. 提高应对变化和错误的灵活性(C2)

3. 将先进技术与以人为本的设计相结合,提高易用性 (C3)

Cable Shark 设备的组装过程被用来验证该框架的有效性,并通过语音命令实现直观的人机交流;通过集成 LLM、传感器和任务控制机制,该框架可动态响应任务变化和错误;通过集成 LLM、传感器和任务控制机制,该框架可用于控制机器人的工作流程、在保持生产率的同时,确保工作流程的连续性。

至于未来的任务,公司计划在真实的工业条件下测试该框架。这将包括操作员的多样性和制造环境的不同条件(如噪音、灰尘、亮度)。他们还计划提供有关机器人任务的各种数据和传感器信息,以提高基于 LLM 框架的适应性,改善任务的灵活性、安全性和处理意外错误的能力。此外,它还将致力于通过结合触觉和手势等多模式策略来改进人机交互。

;