对于汽车的定义,不同的时代有不同的理解。
在汽车尚未普及的时代,李书福说“汽车就是四个轮子加一个沙发”,而如今,在AI等技术的加持下,汽车正成为继手机之后下一个超级移动终端,用地平线创始人余凯的话说,现在的车就是“四个轮子上的超级计算中心”。
而要打造一台行驶中的超级计算机,以此实现更强的智能驾驶能力,难度可想而知。
其中的关键就在于对于数据的利用,包括收集、存储、标准、计算以及过程中的合规要求等等,而要建立这样一个高效的数据运维体系,绝不是车企单打独斗就可以实现的。
跨越鸿沟的隐秘代价
智能电动汽车的重心,正在加速倒向智能,尤其是智能驾驶。
当智能汽车开得越来越溜,能够妥善处理更多复杂场景,它将赢得消费者更多的信任。来自一线销售的反馈显示,智能驾驶在影响消费者购车决策中的排名迅速上升,正在从锦上添花型需求转向刚需。中信证券预计,L2+智能驾驶渗透率有望在今年达到8%。这意味着,作为一项创新技术,高阶智能驾驶即将步入“跨越鸿沟”的阶段——如果跨越不了,便化为一场泡沫;要是跨过去了,则能实现商业闭环,成长为一项改变世界的重大技术。
而智驾跨越鸿沟实现商业闭环的前提是,实现数据闭环,让智能驾驶汽车从海量的数据中不断地学习、持续增强能力。
不过绝大多数消费者不了解,甚至一部分车企业也没意识到的一点是,数据闭环的门槛,其实并不比造车低。这是一个涉及环节众多,所需资源甚广的苦活累活,不仅仅需要车端研发,更需要巨额的云端投入。
一般来说,智能驾驶数据闭环分为几个环节:数据在车端筛选采集后,传输并存储在云端超算中心,而后数据会被标注,作为养料供算法模型训练。算法模型训练完成后,通常会进行仿真、验证,检验训练效果,最后再通过OTA,更新车端智驾算法。
在其中仅车端数据采集环节,就需要解决数据合规、场景挖掘、计算资源调度等问题,需要一支专门团队负责。而到了云端,资源的消耗更呈指数级增加。
比如特斯拉在车队收集了数十亿公里智能驾驶里程后,为了妥善利用数据,决定自研单体计算能力达1 EFlops(每秒一百亿亿次浮点运算)的Dojo超算。
为此,特斯拉启用了大量新芯片工艺、带宽技术、供能/散热技术,但代价不仅是技术不成熟屡次跳票,而且成本高、先期投入巨大。在2024年前,DOJO超算的搭建预计会消耗10亿美元投资。
放眼到整个汽车行业,能像特斯拉这样财大气粗的车企屈指可数。一方面,主机厂如今身负重任,一边造车、一边开发软件算法已经是殚精竭虑、砸锅卖铁;另一方面,车市步入存量市场,价格战导致的普遍低毛利,也在蚕食着主机厂的现金流。
手中没啥余粮的车企,很难再独力承担云端设施的构建,迫切需要一种轻资产的模式实现智能驾驶数据闭环。与云服务商深入合作,便成为车企跨越智驾鸿沟的必经之路。
智能汽车的超级基建
今年初,伴随着ChatGPT的大火,一段佳话也随之流传开:出于对OpenAI的信任,微软不惜砍掉了自家部门的一部分研发资源,从其Azure云中腾出了上万块GPU训练GPT3.5,促成了ChatGPT的腾飞。
这显然给车企们生动地上了一课:云端算力的力大砖飞,是当下发展AI的“正确姿势”。
于是,车企们还没治好两年前患上的车端算力饥渴症,就又患上了云端算力焦虑症。多家国内车企联合云计算大厂进行“算力基建”,将云端算力储备提升到了数百甚至上千PFlops(1PFlops即每秒浮点运算一千万亿次)。
拥有自主创新的云端训练、在国内汽车云市场份额第一的华为也不落于人后。 7月7日, 华为云2000 PFlops单集群的昇腾AI云服务在乌兰察布上线,将智驾云端算力的“基本计量单位”提升到了EFlops(1 EFlops=1000 PFlops,每秒一百亿亿次浮点运算)级。
不过,车企需要的汽车云,算力其实只是基础。一朵能帮助车企建设、迭代智驾能力的智驾云,不仅应该是算力怪兽,也要同时满足安全合规、降本增效、服务全面。
过去,车企对较敏感数据的上云多采用私有云,但它不能完全满足智能驾驶的需求。
一方面,智能驾驶在法理上受《测绘法》约束,有更严苛的合规需求;另一方面智驾的数据量庞大,数据形式复杂多样,涉及利益方更多,而智驾又处在剧变的关键节点,安全稳定至关重要,因此适合专云专用。
以华为为例,7月21日华为云推出乌兰察布汽车专区,打造了特定的高性能数据中心,建立起更严谨的三分区合规框架,并引入了图商驻场办公,让车企在华为云汽车专区就能实现快速合规、全流程合规。
同时,汽车专区的多层安全防护体系和运维体系,也能保证云端的算力与服务持续稳定地运行。比如算力2000 PFlops的计算集群,能保持一个月长稳率90%状态持续训练。
而在保证安全合规的前提下, 行业一直希望加速智能驾驶的算法训练。迭代越快越多,能力越强,赢得市场的希望就越大。
但一个常见的现象是:车端数据收集能力强大,云端的算法训练能力强大,但中间的数据带宽、存取、预处理性能却往往成为瓶颈。
2023年,自动驾驶向云端传输的数据可能会达到8000PB,可以塞满80万个企业级硬盘;一次算法训练的预热元数据量达到10亿条,需要4天时间准备。这容易造成算力等数据的空转浪费。
为解决这一瓶颈,华为汽车云启用了AI云存储服务,在1000Gbit/s数据专线、分级智能存储、近GPU加速等技术支持下,能够做到24小时内路采数据入云,10亿条元数据预热时间降至5小时。
而更智能的云存储不仅可以实现数据存储20%的降本,它对算法训练的提速实际上也变相提升了费效比。在特定案例中,华为云最快已经可以支持智能驾驶算法模型的天级更新,单次训练更新的成本得以降低。
算法训练的极速狂飙离不开华为云搭建的自动驾驶开发平台。传统上,一家企业要搭建自己的自动驾驶开发平台需要3个月时间,但华为云基于长期服务汽车行业经验,本身建立了自动驾驶开发平台,不仅可以免除部分基础工作,还对几乎每一个环节都进行了优化加速。
不过,行业内不同企业对智驾的投入以及具备的能力有分化,市场上有需求一条龙服务的车企,希望快速建立智驾能力与数据闭环;也有希望在某一模块引入行业优秀方案、与自身能力结合的车企。
在这种背景下,有灵活商业模式的云服务厂商能够获得更多青睐。像华为云,其自动驾驶开发平台就提供一站式与模块式部署两种方式,由合作伙伴灵活选择。
由此,智能汽车需要的云,其实要兼顾稳、快、全。要满足这些条件,企业不仅要做算力基建,也要做软件基建,还要进行生态基建,这实质上决定了市场会持续收敛,只有少数云计算大厂才能陪车企跨越智驾的鸿沟。
加速智驾的秘密武器
不过,智驾要跨越的鸿沟依然险峻。
今年,智能驾驶迎来了规模化进城元年,北上广深的城市高阶智驾被相继点亮,更多二线城市也“开城”在即。但开疆拓土之际,智能驾驶也不可避免地直面长尾困境。
眼下,头部企业的城市高阶智驾能够在大部分时间表现顺利,一些品牌表示智驾系统已经可以实现数十公里无接管,仅在少数时候、少数场景表现不力——比如在非标准红绿灯下,智驾车辆可能会误识别、爆冲。
然而对于大多数消费者,这些偶发但可能致命的功能失效,足以摧毁他们的信任。
智驾要跨越鸿沟,必须攻克持续出现的长尾场景。但这些场景将耗费比以往更多的工程资源,最好的方式是行业合力突破。
7月21日,在电动汽车百人会牵头下,华为与合作伙伴发起了“自动驾驶关键技术攻坚倡议活动”,对十大难点技术进行技术攻关。其中引入瞩目的一点是,“AI大模型在智能驾驶的应用”。
眼下,国内主流云计算厂商重点发力的大模型,以语言类大模型为主。但在智能驾驶中,数据主要是图像,语言类大模型很难有效赋能。而在这个月,华为云发布了盘古大模型3.0,它的特点是能够将行业know-how与大模型能力结合,解决细分行业、细分领域的难题。
在盘古基础模型之上,华为云提供了丰富的行业开发套件。协助自动驾驶算法公司,陆续开发了场景生成大模型,场景理解大模型,预标注大模型,多模态检索大模型等场景模型,大大提升了数据处理效率。
其中,场景理解大模型与多模态检索大模型配合,可以快速挖掘有价值的数据,加速建立智驾的场景库;预标注大模型则自动化地对数据进行标注,不仅标注速度倍增,标注成本也将比人工标注更低。
而场景生成大模型,则是华为开发NeRF神经辐射场网络技术的成果,它能够以更低的成本、更高的准确度与自由度,对自动驾驶的算法研发进行仿真,其仿真精度最高可达厘米级,也支持按需编辑场景中的元素。
有了场景生成大模型的支持,车企能够以假乱真地生成现实中很难收集的罕见场景或者所需的Corner Case,有目的性地、可掌握地定向锤炼智驾算法对长尾场景的应对能力,省钱、省时地提升智驾表现。
为克服大模型训练难度大、耗时长的问题, 华为云配套了ModelArt AI 三大加速服务,对数据加载、模型训练、模型推理同时加速。受益于此,禾多科技在同华为的合作中,模型训练速度提升了280%。
尾声
今年4月,奇绩创坛创始人陆奇分享了他的大模型世界观。在他看来,自动驾驶很可能会是第一项“让执行无处不在”的AGI,将更显著地改变物理世界。
如今,行业距离它似乎只差临门一脚,但实际上又有着极高的势垒需要逾越。无论如何,这项史无前例的超级工程,必然需要车端与云端,以史无前例的方式紧密配合。