新商业
AI的下一波浪潮,具身智能需要怎样的大模型?

“我的特殊技能是,理解你的意图、解答你的问题,帮你取放物品,你看看需要我做什么呢?”

在众人的注视下,人形机器人“夸父”依次完成了识别华为云相关物品、问答互动、击掌等动作。

令人惊讶的是,通过对话,“夸父”理解了口渴的情境,在摆放着瓶装水、白色盒子、苹果的桌面,选择了“可以解渴”的瓶装水并成功拿起递给指令者。

走进华为开发者大会(HDC 2024)现场,可以看到,以扫地机器人、机械臂、无人机为代表的传统机器人叙事已经被彻底颠覆。给类人身体的机器人安装上大模型大脑,打开了无限的想象空间。

人类对机器人的终极期待是什么,答案已经呼之欲出。

但技能操作训练数据的获取和机器人技能操作的泛化和可迁移性,依然是具身智能演进过程中的难题。

对此,华为常务董事、华为云CEO张平安指出,“多模态大模型的理解与生成能力的快速发展,让具身智能机器人成为了可能。 ”

“正如大家所期望的,让机器人帮助我们去洗衣、做饭、扫地,我们会有更多的时间去看书,写诗,作画。”

当机器人拥有“大脑”

“人形机器人真正的爆发,需要强人工智能支撑它走入场景中。”这个观点,乐聚董事长冷晓琨坚持了很多年。

“人形机器人爆发必须要满足两个条件:像博士一样聪明,像家电一样便宜。像家电一样便宜,是机器人本体企业要做的产业化,像博士一样聪明,则需要强智能去解决不同场景的泛化问题。”

冷晓琨知道自己的长处,自2016年创立乐聚机器人以来,他一直在“小脑”的部分发力,控制人形机器人的成本、研究算法让机器人两条腿稳定行走,“产业化”成为公司的核心优势。

但他明白,更重要的“0-1”的奇点时刻还未到来,自己还需要等待。直到大模型出现,他很快就意识到,人形机器人的“大脑”来了。

一方面,通过多模态环境感知信息的整合,大模型可以帮助人形机器人进行更高效的决策和规划;另一方面,大模型提供了高层级的视觉和语言智能,形成行为数字化、知识迁移的良好路径。

在他看来,知识迁移、行为数字化正是人形机器人和大模型结合最核心的点。

冷晓琨感到机会临近,自己必须加快步伐,寻求和大模型厂商的合作。一方面,旗下机器人需要大模型解决泛化问题;另一方面,构建机器人大模型,需要收集大规模机器人操作数据集、攻关基础大模型架构、算力平台、云端平台,是一个投入巨大的工作,他需要找到一个有深厚积累的合作方。

恰在此时,华为云盘古大模型出现在他面前。初步接洽后,双方很快就确定了合作方向,除了打造人形机器人产品,更重要的是孵化出一套通用的具身智能机器人解决方案。

“‘人形机器人+大模型’的工作流程,从本体控制、数据采集、模型训练、部署、边端侧部署、云端训练,需要一套完善的工作链,构建持续演进的数据飞轮。”

合作中,双方将打通技术路线,联合构建人形机器人标准数据集、系统和工具链,孵化出面向家居、工业等多场景的解决方案。在HDC 2024现场,这套解决方案的阶段性成果首次亮相。

“如果没有大模型的爆发,人形机器人可能还追不上这波热潮。”冷晓琨说。

“AI新贵”

包括冷晓琨在内,许多人都意识到了大模型的到来,给人形机器人提供了关键的发展契机。近一年来,具身智能成为了AI领域讨论热度最高的概念之一。

当然,人形机器人不能和具身智能划等号,具身智能涵盖的范围应该更广。具体应该如何理解具身智能,清华大学交叉信息研究院助理教授许华哲认为,可以从三个层面理解:首先是具有身体的智能,再深一层是通过和现实世界的交互来提升智能,更深一层是拥有“我”的主体,感官、传感器、经历都是私有的,所有数据都来自于自己。

业界普遍认为,具身智能将是人工智能领域的下一波浪潮,这股乐观的情绪也传递到了资本市场。

高盛研究报告最新预测,到2035年,全球人形机器人的市场容量将达到380亿美元,是此前预期的60亿美元的6倍以上。影响这一增长的关键因素,是机器人大语言模型的进步。

数据显示,近半年,国内出现了近百家机器人公司,许多非机器人背景企业也争相涌入赛道。

为何会在此时掀起一波具身智能热潮,对于其背后的技术驱动因素,许华哲认为,有两点值得关注,一个是本体积累到了一定的水平,机器人制造成本下降,性能并没有降低。

另一个,更加核心的在于智能技术的突破,包括大模型和算法。

在具身智能中,大模型主要扮演三重角色:一是理解,承担具身智能里语义理解和判断规划的部分;二是扮演“老师”,大模型起到了很好的示范作用,让大家看到,神经网络能产生一种规模效应,只要算法和目标函数足够好,随着数据增多,具身智能的表现也会线性增强;三是产生新的具身智能模型算法架构,比如VLA(Vision Language Action),就是以原生多模态大模型的方式去训练视觉、语言、动作,将这三个模态联合在一起。

另外,模仿学习和谈话学习等相关技术的算法突破,让研究者拥有了更好的数据拟合能力和在仿真里做迁移、往现实中做迁移的能力。

“看起来,具身智能离真正部署到现实场景中更近了。”

亦有隐忧

大模型到来尽管加速了发展,但距离真正的具身智能落地,似乎还有不容忽视的距离。

长期以来,具身智能都面对着高质量训练数据缺失、复杂具身长序任务规划难、可泛化的双臂协同多任务处理不易、缺乏统一的开发工具套件等难题。

数据方面,物理世界的数字化还处于很初级的阶段,具身智能需要现实世界数据来进行训练,但从现实角度看,目前还很难获取足够的数据。

对此,许华哲举了个例子,来说明具身智能的“数据困境”。对大模型而言,网上的每一段对话、书里的所有文字,人类的知识都是高质量的数据。但就具身智能而言,理想数据是人在各种场景下的行为数据。短时间内,我们还无法直接用人体数据去训练,只能利用具身智能本体。

“不过,因为智能性不够,没有人愿意用,不使用就采不了数据,采不了数据智能性就提升不上去,这有点像鸡生蛋蛋生鸡的悖论。”

现在,国内“机器人大脑”厂商都在努力驱动这个数据飞轮的构建,以促进具身智能大模型的涌现能力出现。

有声音提倡使用仿真合成数据去喂养机器人,但另一种声音坚持,数据需要从现实世界获取,不能靠虚拟合成。截至目前,业内还未形成同一的共识,这直接导致,具身智能大模型的泛化性与智能涌现成为下一个痛点。

随着具身智能本体形态从传统的协作机械臂、复合工业机器人、四足机器人向双足类人形的发展,对“大脑”提出了极高的挑战。

但就眼下的情况来看,许多大模型的语料缺乏物理世界交互的数据,无法胜任对物理空间任职要求高的任务,也无法理解和预测当前执行序列对环境的作用和影响,无法胜任环境动态性强的长序列规划。

与此同时,现有的通用大模型多采用单个模型实现单个任务,没有在单模型下对多任务的大规模数据进行训练,现有技术对任务、新环境泛化能力差,对于新任务,只能重新训练模型,无法微调。

如何让机器人像人一样思考并根据实际情况作出长序列自主规划,成为了桎梏具身智能走向应用的关键问题。

盘古大模型的解决之道

对于以上痛点,盘古大模型采取的核心解决之道是,融合多种具身领域的不同模态数据,借助大模型对物理世界的通用知识理解,构建具身智能领域大模型。

据介绍,盘古大模型5.0能够精准理解和重构物理世界,支持在10k×10k的图片中准确理解微小的细节内容,能够根据行业的要求,生成出符合物理规律的内容。机器人等智能设备可以从人类的示范中学习,从物理世界的反馈中成长。

为了让机器人更快的学习和应用到复杂的场景,盘古大模型5.0还新增了多模态视频生成能力,使用视频生成大模型生成机器人需要的训练数据,从而具备更多场景下的泛化能力。

面对多场景的综合具身长序任务规划的难题,业界当前只能规划1-2步,但盘古大模型5.0,可以让机器人能够完成10步以上的复杂任务规划。

这背后依赖于多模态具身XoT能力,能减少幻觉,提升任务规划的可靠性,以及基于环境交互的自演进能力,通过构建任务驱动的多模态值函数评估与本体和环境的匹配度,进而迭代大脑适配小脑的任务规划能力。

面向工业、家居等场景,具身智能缺乏可泛化的双臂协同多任务处理能力,就必须对单个技能进行训练。

盘古大模型5.0基于可扩展的Diffusion Transformer架构,很好地解决了动作多样性问题,同时扩展输入输出和网络规模,满足大规模数据训练需求、确保图像标记专注于语言指令。

另一边,盘古大模型5.0还使用了大规模开源数据集以及仿真环境数据进行自监督预训练,对真实数据进行图像物体和背景增强,并在新任务下进行高效微调,以实现泛化的、双臂协同的、多任务并发处理。

通过通用的具身Agent框架,盘古大模型5.0还可以赋能不同的生态伙伴来快速构建适配自己的本体硬件的场景化智能应用。

这样的思路无疑是正确的,许华哲提到,多模态是具身智能大模型的必备属性,如果没有语言和视觉,就很难理解真实的世界。生成能力也非常重要,虽然通过大模型生成的数据质量不如仿真器,但胜在量极大、成本低且受真实条件限制少。

对于当初选中盘古大模型的原因,冷晓琨提到,一个是技术宽度,盘古大模型是一系列大规模预训练模型,包含自然语言处理、计算机视觉、科学计算等领域。经过有效整合,可以对人形机器人能力极大赋能。

另一个是技术深度,盘古大模型在多模态理解、生成等领域的持续创新与投入,使其具备了为人形机器人提供“聪明大脑”的基础,从而提升其在复杂任务场景下的操作水平。此外,盘古大模型在多个行业垂直领域大模型的实践上,已有丰富的成果与应用,他期待其后续能带动人形机器人走入更多的应用场景。

张平安表示,除了人形机器人,盘古大模型还可以赋能工业机器人和服务机器人等多形态机器人, 让它们帮助人类去从事危险和繁重的工作。

另外,除了具身智能行业,依赖多模态特性,盘古大模型还在重塑各行各业,形成了钢铁大模型、高铁大模型、气象大模型、媒体大模型等,重塑自动驾驶、工业设计、建筑设计等流程,和更多应用场景得到结合。

落地已不再遥远

就像大模型发展到一定程度路径会分化一样,具身智能行业如今也出现了两方意见,理想派喜欢谈AI与具身智能,将人形机器人视为终极形态与最高理想;现实派则更看重AI机器人与商业应用场景的结合,讲究短期内的商业回报。

一个核心事实是,相比于大模型,具身智能的商业化道路更直接、也更易实现。

通用大模型往往要达到“涌现”后,才能产生商业价值,但对于具身智能,即便大脑未达到“涌现”,只要匹配了合适的场景和形态,就能带来商业利润。

许华哲指出,短期来看,虽然具身智能还无法拥有巨大的能力,但是它可以在一些局部的场景产生能力,进而带来收益,甚至失效之后带来的损失也没有那么大。

根据媒体此前报道,多位行业人士表示,尽管初等泛化能力的AI机器人还没有顶尖聪明,但也有望在短期内落地。

 “人形机器人本体运动这部分,大家做得很好了,大模型智能性部分也足够了,现在我们看到的问题,更多是因两者融合产生的。关于融合的创新性工作不是很多,这些需要时间才能磨出来。”冷晓琨表示。

在这场时间的赛跑中,中国已经显现出了一定的基础优势。《人形机器人技术专利分析报告》显示,近10年,我国在人形机器人技术专利上实现了从落后到跟跑乃至领跑,人形机器人专利申请数量和有效专利数量均位居全球第一。

更重要的是,作为制造业大国,中国拥有良好的工业基础,供应链优势明显,企业能以更低的成本完成更高性能的本体。

冷晓琨深刻体会到了这一变化,2018年公司做第一台全尺寸人形机器人时,成本接近300万,且核心的零部件都来源于进口。但等到和华为一起发布夸父,不仅制造成本降低了90%,而且零部件基本实现了国产化,没有一个依赖进口。

而且,因为制造业发达,所以中国对工业机器人的需求量也比较大,市场前景非常乐观。

在此背景下,中国也在从顶端设计方面加紧具身智能布局,去年11月,工信部发布《人形机器人创新发展指导意见》,提出到2025年,人形机器人创新体系初步建立;到2027年,综合实力达到世界先进水平,成为重要的经济增长新引擎。

《意见》明确提出,人形机器人集成人工智能、高端制造、新材料等先进技术,有望成为继计算机、智能手机、新能源汽车后的颠覆性产品,将深刻变革人类生产生活方式,重塑全球产业发展格局。当前,人形机器人技术加速演进,已成为科技竞争的新高地、未来产业的新赛道、经济发展的新引擎。

看起来,中国将在全球具身智能竞赛中扮演重要的角色。有观点称,具身智能创业理应在中国发生,而不是大洋彼岸的硅谷——相比之下,中国不仅有更强大的机器人生产能力、也有机器人应用场景,需求供给都比硅谷更强势。

许华哲认可这种声音,“几十年工业体系带来的积累,其他人确实比较难追赶。”

与此同时,拥有更高泛化能力的具身智能,始终是行业追求的方向。

提到理想的具身智能,许华哲觉得,一方面它的智商和情感要和现有大模型水平匹配,另一方面应该拥有基础的工作能力。

这样的具身智能应该匹配怎样的大模型,许华哲作出了设想,在训练端,大模型应该可以给具身智能提供合成数据,作为具身智能的规划器和场景理解器;部署时,大模型可能会是一个云上的超级大脑。

 “就像我们遇到一个事搞不定了,给一个专家朋友打电话一样,大模型就是那个专家朋友。”

为了实现这样的理想大模型,尽管道路曲折,但以华为为代表的企业,已经走在了正确的方向上。