之江实验室宋伟 | 浅析大模型时代的服务机器人自主决策与作业

编辑|陆柒

大模型时代的服务机器人自主决策与作业【宋伟】

去年11月底，ChatGPT横空出世带飞大语言模型，百度仅在ChatGPT发布2个月后，便官宣将对标ChatGPT推出大语言模型“文心一言”，并在一个月时间内实现落地。

自此，大语言模型开始呈现出井喷式发展趋势。

谷歌推出对话式程序“Bard”，阿里云推出超大规模语言模型“通义千问”，3月15日，韩国互联网巨头Naver推出大语言模型“Naver Clapper”，Meta推出大语言模型“Blender”，京东推出产业版“言犀”，亚马逊推出大语言模型“Alexa Meera”，华为云发布盘古系列模型，微软推出大语言模型“Kosmos-1”，商汤科技发布“日日新”大模型，印度科技巨头Infosys宣布开发其在大语言模型领域的首个作品“LaMDA-N”……

全球各领域名企大厂的加入，令这场以ChatGPT发布为奇点的AI革命持续发展，并迅速蔓延至其他领域，渐有形成产业革命风暴的趋势。

那么，大语言模型究竟为何能引得各领域名企争先涉足，又到底能为我们带来什么呢？

大语言模型是一种使用大量文本数据训练的深度学习模型。它可以生成自然语言文本或理解语言文本的含义，并可以处理多种自然语言任务，如文本分类、问答、对话等，是通向人工智能的一条重要途径。同时，在技术进步的加持下，大语言模型已经体现出上下游赋能聚集和快速向头部聚拢的特点，有望成为全新的技术应用操作系统，形成新一代平台级产业生态，其未来商业化可挖掘空间极大。

简单来说，会学习、能思考、可处理自然语言的大语言模型初步具备了成为“智脑”的前提，不仅可以应用于“千行百业”，还能“赋智万物”，或将成为带领人类步入智能时代的关键秘钥。

对于服务机器人来说，大语言模型的应用将为行业带来怎样的变化呢？在近日举办的第三届青年学者学术论坛中，来自之江实验室的宋伟研究员为大家分享了《大模型时代的服务机器人自主决策与作业》，详细解说了将服务机器人与大语言模型结合的一些实验测试和具体可行性方案。

宋伟研究员是之江实验室智能机器人研究中心副主任，同时也担任“十三五”国家重点研发计划智能机器人重点专项的项目/课题综合绩效评审专家、“十三五”国家重点研发计划智能机器人重点专项的项目技术专家、中国机器人峰会专家委员会委员、智能机器人技术浙江省工程研究中心学术委员会委员、浙江省机器人产业发展协会秘书长、浙江省机器人产业技术联盟秘书长等职位。

宋伟研究员的研究方向为机器人自主决策、特种作业机器人。其团队主要围绕智能机器人云脑关键技术，开展多模态机器人知识库构建、人机交互过程的意图理解、机器人自主决策方法、异构集群的任务调度与协同、云边端协同的机器人算法推理加速等研究工作。

本期分享要点如下

1.大语言模型产业格局和机会

2.大语言模型的研究情况与进展

3.宋伟研究员课题组相关进展

4.大语言模型发展趋势与商业化展望

以下内容根据宋伟研究员直播分享实录整理

"关注「leaderobot」微信公众号，获得更多机器人干货分享"

01大语言模型产业格局与机会

随着技术的进步和发展，机器人的应用已经逐渐从工业领域扩展至建筑、医疗、娱乐、服务等各个领域。

当前，除了工业机器人之外，清洁机器人、配送机器人、炒菜机器人、送餐机器人等各式各样的服务机器人开始步入人们的视野。

关于服务机器人的未来发展方向，国家近来发布的《“十四五”机器人产业发展规划》《“机器人+”应用行动实施方案》等政策中明确指出“要拓宽机器人应用的深度与广度，重点推进养老助老、家居清洁、教育陪伴与人类日常生活密切相关的服务机器人研制及应用”。

在技术的发展和助推下，未来我们生活中80%的任务可能都会由机器人去完成、去解决，类似于人形机器人的服务机器人或许将在生活中随处可见。

但就现阶段来看，让服务机器人真正深度融入到我们的生活中，仍然存在众多挑战。其中，实现自主决策与作业是决定服务机器人能否深度融入人类生活的关键，而这涉及非结构化环境下自主作业和人机交互意图理解等两大难题。

非结构化环境下自主作业

以指挥服务机器人下楼买咖啡为例，服务机器人接收到这一命令后，首先需得对周围环境进行认知判断，然后导航行走至门口，完成开门动作，对出门后的环境进行判断、决策，确定目标地点、行走路线、行走方式等，到达目标地点后，机器人或许还需与人/机器进行交互，然后利用末端执行器拿取咖啡。

服务机器人在执行此任务时，不仅需灵活应对可能会随时变化的环境，同时也需得兼备开门、交互、拿取等执行多类型任务的能力。目前服务机器人在执行场景任务时面临任务类型多、执行序列长、操作难度高等挑战。

人机交互的意图理解

传统人机交互包括图形界面、手势等多种方式，但主要都是基于预设编程，在机器人的实际应用过程中，指令的下达会受到编程内容限制。编程交互不仅程序繁琐，同时还对用户具有编程技能与经验要求，要真正掌握需花费较多时间与精力。

在人类环境中，实现人机交互的理想方式当然是使用人类的交互方式即语言去完成指令下达，但由于语言的复杂性，人类自然交互指令的意图难以准确理解，且任务语义本身存在信息模糊情况，如何让机器人真正“听懂人话”，精准理解任务指令和任务信息仍然是个问题。

那么如何解决以上两个问题，实现机器人自主决策与作业？

以人类作为参考对象，可以发现人类能够实现自主决策与作业的关键在于学习和推理两大能力，这同时也是机器人实现自主决策与作业的决定性因素。

人类推理能力的实现主要依赖于常识的累积，对于机器人来说，如何构建常识、理解常识是个难点问题。

传统知识工程一般是用行为树、知识图谱等离散的符号来表示连续的状态，存在表征能力有限、开放边界常识的构建成本高周期长等问题，难以处理机器人所需要的跨模态知识计算。其推理方式虽然种类多样，但面对复杂未知问题的推理时，难以适应未知任务与环境状态，本质还是需要依靠人工经验。

整体来看，这一情况的解决主要涉及两个关键研究问题，一为通用的机器人知识表示与计算，一为开放环境下的任务理解与自主决策。

02大语言模型的研究情况与进展

大语言模型不是一个新生事物。2019年，谷歌发布了T5；2020年，Open AI发布了GPT-3；2021年，百度、华为、阿里、微软、BLOOM等多个企业也均有推出相关研究成果。

但大语言模型真正进入人们的视野，还是自2022年11月30日，Open AI发布ChatGPT开始。ChatGPT发布后仅5天便涨粉100万，速度非常快。

ChatGPT到底是什么呢？其实它本身就是一个聊天机器人的程序，可以通过文本来做交互，说到底ChatGPT就是用来处理文字的。

在询问ChatGPT它可以用来做什么时，ChatGPT首先给出的答案也是可以用来进行各种自然语言处理任务，为人类提供更好的交互体验和智能化解决方案。

当进一步询问ChatGPT自然语言处理之外的技能时，ChatGPT开始拓展技能，说可以做语音识别、图像识别、机器人控制等，为人类提供更好的智能化解决方案。

从上面的问答交流，我们可以看到，ChatGPT可以采用自然语言的形式进行交互，而不是传统代码程序，非常便捷，同时，ChatGPT对自然语言的理解和推理能力也很强。

机器人相关大语言模型应用案例

从大语言模型爆火到现在，与机器人相关的应用研究已经有很多案例。

今年2月，微软公开了其关于ChatGPT在机器人的研究，提出了一种机器人自主决策框架，利用大模型理解指令并自主调用已有的机器人函数。这一机器人自主决策的框架和形式改变了我们现在已有的服务机器人的开发范式。

今年3月，谷歌发布了具身多模态大模型PaLM-E，探索端到端解决感知－决策－执行。相比ChatGPT，谷歌大模型PaLM-E可以处理图片信息，具备了多模态处理能力。

通过将PaLM-E配置在整理机器人Everyday Robot上，Everyday Robot实现了根据人的自然语言指令来理解自身所处状态，进行自主决策和作业，实现了端到端的感知决策和作业。当然，这里存在一个问题就是机器人的操作速度还比较缓慢。

今年5月，香港大学mmlab联合上海人工智能实验室opengvlab发布了EmbodiedGPT（具身GPT），它把图片用Vision Transformer转化成文本，然后输入到Meta的大语言模型LLaMA中去做处理。当然，它这里边不太一样的是会把我们机器人操控的一些相关技能关联进去，在仿真环境里，实现了这样一个Demo。

最新的研究是斯坦福大学李飞飞团队在7月利用大语言模型提取机器人运动规划所需要的affordance与障碍物等约束，利用视觉语言模型将其grounding到感知空间，以关联自然语言指令与操控规划。

通过自然语言给机器人下达“打开上面抽屉，同时要小心不打翻花瓶”的指令，把语言与机器人感知到的视觉空间进行关联，大语言模型+视觉语言模型就能从3D空间中分析出目标和需要绕过的障碍，帮助机器人做运动规划。然后，在真实世界中未经“训练”的机器人便可以直接执行这个任务。

这个研究首次把自然语言的指令和操控的规划联系在一起，让我们看到了大语言模型在机器人领域应用的另一种可能性。

Prompt：利用大语言模型开展机器人自主决策与作业的核心

总结以上几个与机器人相关的大语言模型应用案例来看， prompt已经成为机器人自主决策与作业框架的逻辑核心，链接感知、决策、执行、反馈等环节。

那么究竟什么是prompt？Prompt（提示）是一种指令，其实就是要告诉大语言模型要执行什么样的任务或生成什么样的输出，以下图为例，黄底部分其实就是一个prompt。

它主要分为4个部分，第一部分是用自然语言告知本次任务的目标，第二部分是告知机器人具有的技能，第三部分是告知以往成功的案例，第四部分是告知环境中存在物体。完成上述填写之后，就可以通过大语言模型来生成想要的代码。

该如何去开发人机交互类比较强的机器人？

第一步，需要开发一些跟机器人硬件相关的算法，比如定位导航算法、视觉感知算法、操控算法。

第二步，需要用自然语言的形式编写一个提示（prompt）。

第三步，需要把prompt和指令输入大语言模型，让大语言模型去生成机器人可以部署的算法，在仿真环境中去验证是否可行。

第四步，当验证都可行时，将算法部署到机器人上。

可以看到，这个流程与我们现在的开发流程大不一样，可以大大提高机器人的算法开发与部署效率。

03宋伟研究员课题组相关进展

宋伟研究员课题组从2022年10月份便开展了关于大语言模型在机器人自主决策与作业的应用，主要包括以下几个场景任务。

场景任务一：通过自然语言驱动机器人自主寻人、传话、递送。

在此场景中，用户使用自然语言为机器人下达任务指令“你去帮我把书包送给同事A”，机器人收到指令后利用大模型做理解，调用开发好的对话技能主动询问同事A所在位置，获得具体位置后，机器人选用视觉、定位导航和移动相关技能来找到目标交互人，并使用语音与同事A进行交互，而后大模型决策使用递送技能，伸手模拟递送动作完成任务。

在此场景中，用户使用自然语言为机器人下达任务指令“去茶水间桌子那问下同事A中午有没有空一起吃饭，回来告诉我”，大模型决策使用移动技能至对应位置，并使用对话技能向目标对象确认信息，进而再调用移动与对话技能讲目标对象的回复传达给用户。

场景任务二：通过自然语言驱动机器人自主寻物与操作

此场景主要应用了家庭服务机器人进行意图理解与自主决策测试。用户让机器人根据指令去拿指定品牌饮品，机器人通过调用视觉、定位导航、机械臂轨迹规划等技能进行开门或观察环境，进而完成目标对象的寻找、抓取操作。通过将大语言模型与机器人结合，机器人实现了未知物体的抓取和未知环境的适应。

场景任务三：通过自然语言驱动机器人精准运动规划控制

借助大语言模型，团队还将四足狗的内部传感器信息与地图结合实现了对四足狗运动的精准控制，可以指挥四足狗完成前进、右转弯、找东西等指令。

团队研究成果

利用先验知识和多模态感知信息，团队提出了一种面向大语言模型的prompt生成方法。根据团队的研究经验，只有大语言模型是不行的，还是需要加上感知信息、先验知识等内容来补足大模型应用于机器人作业所存在的一些问题，以实现大模型与实际环境信息的融合。由于相关论文仍在撰写阶段，因此多模感知、先验知识等如何实现需待论文发布过后再为大家进行详细说明。

同时，团队也做了一些探索性研究。大模型输出的任务规划不能像人一样再次应用到持续的新任务中，因此针对大模型难以应用增量经验的问题，团队提出了一种融合感知信息与规则的经验适配器。这本质上是把这个实时反馈的信息跟前面作业成功的经验融合起来，用以提高持续任务规划的成功率，目前这仍然处于在仿真环境验证的阶段，接下来团队将会部署到机器人。

针对大模型缺少场景具身知识的问题，团队构建了多模态具身知识库，用以增强机器人在开放环境下的自主决策与作业能力。根据大模型在具体作业场景的信息缺乏情况，团队正在着力构建多模态知识库，希望通过知识库与大模型的结合来提高机器人的决策和作业能力。

04大语言模型发展趋势与商业化展望

基于微软、谷歌、斯坦福李飞飞团队等目前已有的关于大语言模型应用的研究成果和课题组在进行应用测试过程中发现的问题，宋伟研究员对大语言模型的产业格局、技术发展趋势等多个方面进行了思考。

首先，如何看待大语言模型方面，宋伟研究员表示，大语言模型将成为服务机器人在非结构化环境中自主决策与作业的底座技术，我们要积极拥抱大语言模型，探索其应用边界。

其次，在大语言模型与机器人的结合应用方面，宋伟研究员表示，仅仅依靠大语言模型“能说会道”并不足以支撑起机器人在物理世界的自主决策与作业，仍需要结合机器人自身的多模感知和作业能力。

同时，宋伟研究员也就实际科研过程中发现的问题进行了阐述，他指出，机器人的有限端部资源，以及实时性、鲁棒性、准确性与数据隐私等要求，需要开发能够部署在边－端的中小模型。

最后，对于大语言模型与服务机器人的结合，宋伟研究员进行了展望。他表示，大语言模型是当前通用人工智能技术发展的一项重要成果，而人形机器人普遍被认为是通用作业机器人的形态，两者的结合可以形成像人一样与环境交互的、具有身体体验的智能体。

一方面，人形机器人成为智能的具身实体，它与环境的交互将为大语言模型源源不断地提供多模态的感知信息，从而促进大模型的进化；另一方面，大语言模型为人形机器人提供认知、学习的能力，使其更好地适应复杂未知的环境，并促进机器人本体的进化。

从某种程度而言，我们人类就可以看作是智能与本体协同进化的结果。这种结合形成的具身智能人形机器人打破了虚拟世界与物理世界之间的边界，将促进通用人工智能技术与通用作业机器人技术的协同进化，从而促进家庭服务机器人关键技术的攻关与应用。