坐在南方的酒店里,看着窗外的雨,吹着温度适宜的空调,也许很难有人想象,26度的空调房,能和温度高达2300摄氏度的高炉炼钢扯上关系。
但事实是,“西电东送”项目从新疆、云南、四川、甘肃等地跨越上千公里,将电能向东输送到东南沿海的人们家中,整个电力传输的过程,涉及一种叫做“取向硅钢”的尖端材料。它诞生的第一步,就发生在炉膛温度超过2300摄氏度的高炉里,且十分依赖一线操作工人们日积月累的经验判断。
然而无论是时间,精力,还是处理信息的速度,人类总是存在物理的极限。依赖人工的监测和判断,成了中国工业生产力与成本优化的最大瓶颈之一。
但在观看华为开发者大会时,我却看到了突破这种瓶颈的曙光:盘古大模型,在钢铁行业里落地了。
AI被引入工业界,于是人类的第四次工业革命,悄然在工厂里打响。
工业智能的觉醒
没有进过工厂的人,永远不会明白为工业提升效率能有多难。
只有当你站在5000立方米容量的巨型高炉脚下,在60度的高温里,穿着厚重的阻燃工作服,戴着安全帽和防护,面对烧成金红向外流淌的铁水,还要隔着探火镜用肉眼和炉外传感器的间接数据,去判断温度高达2300摄氏度的炉膛里正在发生什么时,你才会真正理解,盘古大模型正在进行怎样了不起的事情。
高炉是业界公认的黑匣子,它几乎集齐了产业数智化升级最难的那些难点:
首先是收集不到准确、实时的数据。高炉内部温度高达2300度,任何传感器都不可能监测和回传高炉内部的实时状况,只能通过外部传感器间接感知炉内变化,采集到的数据本身就有挺大的误差。
其次是大时滞性。因为无法实时监测,所以钢铁工人们每一组每一个动作下去,都要过很长时间才能收到反馈,无论对了错了,误差多少,长则七八个小时,短则四五个小时,可能等到铁水从高炉里流出来,才能知道结果如何。
就像一个人如果没有味觉,那吃水果的时候,就有可能尝不出水果有没有坏掉,直到胃疼了才能知道吃错了东西。
怎么办?加强感知,用算法进行模拟。
比如华为云就用了频域多尺度算法,这是种计算机视觉领域的算法,原理可以简单理解为它通过不同方法把水果切成了大小不一的小块,然后从不同的角度去观察它们,来判断水果品相如何,有没有坏掉,甚至含糖量多少。
比如,按照经验,很多水果颜色更红的一侧,就要比不红的一侧甜一些。
这种算法能够一定程度上解决数据维度太多,复杂度又特别高的情况。但要想从结果再去逆推炉内到底发生了什么,难度还是非常高:
以宝武钢铁的标准为例,能在高炉内影响最终结果的参数,光类别就被分为了8大类,77个小类,参数总数超过1400个,炉内物质形态都是固液气三相并存的,每一种参数都可能跟其他的多种参数互相的勾连、互相耦合。
谁和谁反应,反应的先后,一个参数变化会引发其他参数怎么变化,最终会出什么样质量的结果,几乎不可能用数学公式去表达,只能依赖首席操作工的经验判断。
这在工业界叫做“参数之间具有强耦合性”,就像你吃了1400种菇子,发现眼前有小人儿跳舞,谁也说不清楚哪个小人儿是哪种菇子下的手。
这套高炉生产的做法,从十多年前持续运作至今,效率也没有过颠覆性的提升,因为无论是观测还是模拟,都实在是超越了人类的物理极限。
而盘古大模型用上了时序信息增强算法,尽量把时间跨度切到足够小,原先可能以分钟为单位,现在以秒为单位。划分到足够细的时候,就能把菇子和小人儿们全都打上时间戳,让大家都规规矩矩地排排坐,再进一步模拟到底是哪个菇子产生了反应,造出了哪个小人儿在你眼前跳舞。
通过先进的算法和庞大的算力支持,模拟预测了过去上百年都被认为无法完全观测的反应,用“算力”和“智力”颠覆了传统工业对物理传感器的依赖。
人工智能的觉醒,放在普通人的身边,也许会成为和病人聊天的心理医生;但工业智能的觉醒,放在钢铁生产的高炉里,就成了第四次工业革命的枪声。
根据实践,炉内每减少10℃的温度波动,每吨铁水就可以减少1kg焦炭的消耗,成本就能降低3块钱。按照官方预测,盘古大模型在高炉炉况优化这一个场景,每年就可以为宝钢降本超过10亿元。
而这还只是水面之上,最直接的经济效益。
水面之下,是对整个中国工业体系创新研发效率的巨大推动。
盘古钢铁大模型的横空出世,有点要帮着高炉炼铁打响逆天改命第一枪的意思:它们终于让曾经被认为几乎不可能被观测到的高炉炼铁炉内反应,变得越来越可预测。
但可预测的并不只有高炉炼铁。
推动创新飞轮的AI之手
气象过程过去也被认为是无法完全观测,过程机理也都不甚明确的一个领域。所以大型城市的高分辨率预报,一直是业界持续试图解决的难题。
而盘古气象大模型在发布之后,就在这方面展现了相当优秀的能力。去年就凭借对台风轨迹的预测准确度震惊过业界,到了今年,华为云在去年25KM的全球模型基础上,融合区域高质量气象数据集,升级了分辨率分别为1公里、3公里、5公里的区域预报能力。
我曾经把基础大模型进化到行业大模型的过程,比作一个极其出色的学霸,完成了基本知识的学习之后,开始专攻不同的专业。
盘古大模型的架构就很典型:
但和很多人所熟知的各类大语言模型不同,盘古大模型的基础能力并不只是理解自然语言,而是真正意义上的用包含自然语言、机器视觉、科学计算、多模态等等方式,理解三维的物理世界。
这就是为什么盘古大模型具有如此泛化的能力,能够同时赋能千行百业,可以预测高炉中的反应,也可以预测气象变化,还能做自动驾驶,预测车辆和行人的行为,甚至能够预测一些极其罕见,以至于没有样本的故障类型——
据华为云专家的叙述,他们团队在将盘古铁路大模型用于高铁巡检机器人的过程中,遇到了一个谁都没想到的问题:中国的高铁太可靠了,以至于故障样本太少,一些低概率但高风险的类型根本收集不到真实数据。
怎么办?还是模拟,不光模拟好的情况,咱也能模拟问题和故障。华为云和北铁所采用了“高铁故障数据生成算法”, 利用文生图、图生图的方式,生成高铁场景罕见故障样本,来丰富故障类型,再通过一种小样本学习技术,用多轮迭代把识别率逐步做上去。
这将许多巡检工人从繁重的劳动中解放了出来,减轻、减少凌晨时段巡检的艰辛作业,还大幅提升了检测效率和检测准确率。一个大模型就能覆盖8大类型、350多种故障,而且故障识别率已经提高到了99%以上。
当这种模拟能力被用在设计领域,简直就是个神器。
比如建筑设计,曾经是极其复杂且耗时的工作,要借助CAD等工具画图,再用3DMax等软件对图纸进行渲染,制作效果图和相关视频,接着在一个漫长的周期里,反复进行大量的确认流程,不断对图纸和效果图、视频进行修改。
一般来说,自行制作渲染一张效果图可能需要数小时,而制作一个视频可能要数天。如果选择供应商服务,渲染一张效果图的费用上千元人民币,动画视频的制作成本每秒钟都要400-800元。
华为云用盘古大模型搞了个狠活,依托可控高质量视频生成和3D重建两个技术,用户只需要输入建筑周边环境的场景视频或者图片,加上一张建筑意向的草图,再配一段描述,盘古就能直接给你生成一段建筑物在该环境中的环绕效果视频,然后快速重建出高真实感的建筑3D模型。
我都不敢想,设计师有了这玩意,能玩出什么花活来。
普通的大语言模型,输入的是互联网上的图片跟文字,输出的也是图片跟文字;而华为云做出的盘古,输入是物理世界的三维数据,所以输出也是物理世界三维数据。
跟AI聊天,许多人还感受不到智能化时代的到来究竟意味着什么;但当AI大模型被成功地用在工业领域、气象领域、设计领域,那种颠覆性的力量很容易就能化成一只看得见的巨手,在你面前一把推动了可以颠覆世界的那个创新飞轮。
智能与工业的交响曲
高炉的火焰见证了AI技术的神奇,高铁的轨道上,人们享受着AI带来的精准与效率。在许多大模型还在卷聊天的时候,华为云已经在工业领域走得很远了。
钢铁产业的背后,是C919的飞机起落架,是高铁列车的轴承与车轮,是中国汽车产业3000万的年产销量,和全球第一的出口量。
铁路大模型赋能的是中国四万五千公里的高铁里程,是每年36.8亿人次(2023年数据)的出行安全与体验,是能够重塑客运与货运交通逻辑与效率体系的交通网络。
精准的气象预测,则可以走入水利水电、航空航天、农业牧业,甚至是各类新能源领域……
从行业的角度来看,人工智能+千行百业的未来,正以惊人的速度在中国成为现实。
而从AI发展的角度看,中国的千行百业,也成为了AI大模型产业实践最好的舞台。这片拥有全球门类最齐全、体系最完整工业体系的土地,本就是智能化走向应用的最好的土壤。
而盘古这样从诞生开始,就立足产业的大模型,也的确不断推动着新质生产力的腾飞,真真正正地在帮助传统行业“解难题,做难事”。
而且已经解出了一些题,做成了一些事。
当一个又一个的案例在盘古5.0发布的过程中出现,你会发现所有人在一起,其实都是在做一件事:推动整个中国社会做一场关于新质生产力的革命。
而华为云和其他同样可以被定义为生产力工具的厂商相比,最大的区别或许是华为云的整个算力体系,从底层应用件,到系统,到大模型,是全栈自研的。
这场智能化引发的人类第四次工业革命,和互联网带来的革命有个本质的区别,就是边际成本不同。
互联网过去喜欢强调规模效应,因为互联网的规模增长,往往没有太高的边际成本。互联网企业在10万用户和100万用户时的成本差别,通常都不算太大。但大模型则是每计算一次,都要产生一次计算的成本,这就让华为这样具有全栈能力和自有算力基础设施的厂商,有了更强的竞争力。
生产力工具带来生产关系的变革,生产关系的变革带来生产力的腾飞。