在一路高歌猛进之后,大模型最近似乎有点累了。scaling law驱动的参数上升斜度呈现出趋缓迹象,训练与推理的价格战也如火如荼,技术创新的狂热期也许临近尾声。
率先提出“技术成熟度”曲线的Jackie Fenn曾指出,创新活动受人的本性和技术演进的内在规律双重影响——钟形曲线描述炒作的影响,S形曲线反映技术发展轨迹,二者相互作用不断将创新推向“命运的岔路口”。
当下,大模型正处于这样的节点。伴随铺天盖地的炒作告一段落,大模型前行的路口上挂着五花八门的标识:选择开源还是闭源,主攻ToC抑或ToB,继续“卷”技术参数与拼命降使用门槛哪个优先,追逐通用智能的梦想和扎根行业场景的实践到底能否“兼容”?
这些问题都没有标准答案,此刻的抉择需要大智慧。曾多次面临战略决策考验的“经营之神”稻盛和夫给出的建议是,“坚持做难而正确的事”。在大模型领域,其实也有上述理念的践行者,盘古大模型就是选择“难而正确”道路的典型代表。
所谓“正确”是指能准确判断大模型在复杂内外部环境下亟待解决的主要矛盾,认识到由千行万业组成的ToB市场才是大模型施展身手的主赛道;而“难”则是指行业智能化转型水深浪大,在复杂、多元的应用场景谋求突破,将大模型的技术创新能力真正转化为新质生产力,可谓任重而道远。
华为常务董事、华为云CEO张平安一旦踏上这条路,就不会停下脚步。在华为开发者大会2024(HDC 2024)举办期间,华为云重磅发布盘古大模型5.0,在全系列、多模态、强思维三方面带来全新升级,并推出大模型混合云十大创新技术,为大模型在行业市场加速落地注入澎湃动力。尤值一提的是,盘古大模型积极应对传统和新兴行业场景的各类高难度挑战,在“难而正确”的路上树立起一座座里程碑。
从某种意义上讲,“难”是“五彩斑斓的黑”,其总是转化为不同维度或系数的障碍。盘古大模型跨越“栏杆”的方法与路径,值得业界借鉴。
高复杂性的“难”:大模型如何破解“薛定谔的猫”
事实上,很多行业场景相当于一个复杂系统,其中的变量众多且关系错综,难以用线性的推理找到解决方案。在打开“盒子”之前,里面的“猫”可能处在“生死叠加”的未知状态,这对大模型的算法和精度提出前所未有的要求。
在钢铁行业,高炉被称作AI落地最难的应用场景。其一,高炉是个5000m³的高温超大黑箱反应器,固液气三相并存,物理化学变化繁多;其二,高炉炼铁过程涉及的变量类型混杂,变量之间有多重相关性;其三,只能通过外部传感器间接感知炉内变化,数据采集存在较大误差;其四,各变量的反应周期也不同,高时滞性和多时滞性互相耦合。
作为全球规模最大的钢铁企业,宝钢股份与华为云深度合作,将盘古大模型应用于高炉场景,对炉温、铁水温度、硅含量等炉况进行仿真,从而辅助高炉精准控制,充分利用每一分能源,降低能源成本。
面对多维数据复杂度高的难题,华为云采用频域多尺度算法,让模型更加鲁棒;为了解决高时滞多时滞耦合问题,华为云以时序信息增强算法来捕捉时序关系;为了减少采集数据误差,华为云采用机理+数据融合驱动预测模型,二者并行交叉验证,显著增强模型精度。
实践表明,高炉每降低10℃的温度波动,每吨铁水可减少1kg焦炭消耗,成本约降3元。基于盘古大模型高炉炉况预测,指导高炉生产调控,能大幅提升炉内工况的稳定性,预计每年可为宝钢降本逾10亿元。
盘古大模型上线宝武钢铁集团1880热轧生产线
此外,上海宝武钢铁热轧生产线每次调整生产钢板的种类和尺寸,都需要工程师重新优化7道精轧机组的300多个参数,耗时约5天。盘古大模型能对最优参数进行预测,显著降低热轧生产线调优时间,并提高预测精度和钢板成材率。目前,盘古大模型已在宝钢1880热轧生产线上线,预测精度提高5%以上,钢板成材率提升0.5%,预计每年可多产钢板2万余吨,年收益达9000余万元。
若以复杂性衡量应用场景的AI落地难度,钢铁行业的高炉场景、热轧场景只是冰山一角,高铁行业的故障检测、气象领域的高分辨率预报等场景同样蕴藏着世界级的高难挑战。
在高铁故障检测场景,盘古高铁大模型借助一双“盘古眼”,解决了巡检工作量巨大、故障形态庞杂、高铁场景故障样本稀缺且开发成本高等难题,能精准识别一列动车的3.2万个项点,覆盖8大类、350+种复杂故障,故障识别准确率可达99%,帮助高铁提升运营效率,降低成本,减少人工在凌晨时段去巡检的艰辛作业。
大型城市的高分辨率气象预报是公认的高难度系数应用。盘古气象大模型是首个精度超过传统数值预报方法的AI预测模型,能秒级提供全球气象预报,并通过融合区域高质量气象数据集不断优化预测能力,使降雨量预测精度增强20%。华为云在分辨率为25公里的全球模型基础上,融合区域高质量气象数据集,升级了分辨率分别为1公里、3公里、5公里的区域预报能力,包含气温、降雨、风速等气象要素。
高差异化与适应性的“难”:大模型突围传统痛点和新兴樊篱
如果说高复杂性体现了“难”的深度,那么千行万业数智化转型带来的差异化特征则折射出“难”的广度——大模型既要帮助传统行业“重做一遍”,又必须探寻新兴场景的破局之道,这需要其具备适应不同环境的能力与全面均衡的水平。
相关统计显示,目前国内传统行业中AI渗透率超过10%的只有电子等少数行业,媒体、医药、石化等行业的渗透率在5%~10%,建筑等行业则低于5%。大模型无疑是加速AI在传统行业落地的助推器,但针对各个行业的需求痛点找到适宜的解决方案殊非易事。
以媒体行业为例:传统的运作方式已无法适应新环境的要求,重塑内容生产与应用的新模式迫在眉睫。盘古媒体大模型以语音生成、视频生成、AI翻译等维度为突破口:在语音生成方面,只需几句话、几秒钟的声音,即可实现个性化语音生成以及情感化表达;在视频生成方面,通过训练几十张特定美学风格的图片,输入实拍视频即可按需时长生成稳定的动漫视频;在AI翻译方面,可保留原始角色的音色、情感、语气,并借助AI将视频翻译为目标语言。
不难看出,大模型正在为传统行业提供崭新的生产力工具,很多行业的“玩法”将由此彻底改变。在历史悠久的建筑与工业设计等领域,盘古大模型的“魔法棒”同样大显神威:依托可控高质量视频生成和3D重建等关键技术,盘古大模型为建筑设计构建全新的解决方案,并让工业设计的3D建模生成质量实现从玩具级到工业级的蜕变。
与对传统行业“点石成金”相比,大模型在新兴应用场景拥有更宽阔的舞台。在自动驾驶领域,盘古大模型重塑训练数据的积累方式,从过去的建模仿真升级到AI生成,让自动驾驶模型学习到更多的人类驾驶规律,更好地应对复杂的行车环境,解决了自动驾驶数据集泛化生成、难例生成等业界难题。
按照难度级别划分新兴场景,具身智能堪称通用人工智能的终极形态,是大模型想要摘取的“皇冠上的明珠”。盘古具身智能大模型以云助端,一脑多形,赋能端侧机器人设备。它能让机器人完成10步以上的复杂任务规划,并在执行中实现多场景泛化和多任务处理。除了人形机器人,盘古具身智能大模型还赋能多种形态的工业机器人和服务机器人,更具颠覆性的未来图景值得期待。
高创新性的“难”:大模型探索底座升级与方案落地新路径
从某种意义上讲,大模型的底层创新能力将决定其向上的高度。只有核心技术与落地路径两个维度相辅相成,才能充分释放大模型的潜能,为千行万业的数智化跃迁提供最佳底座。
早在2021年4月,华为云就正式发布包括NLP和CV两种形态的盘古大模型,此时距离生成式AI火爆全球还有一年半的时间。其后,华为云又推出科学计算大模型、药物分子大模型、矿山大模型、气象大模型,集大成的盘古大模型3.0于2023年7月问世。
显而易见,盘古大模型始终扮演着引领者的角色,每一次创新突破都是大模型进化的风向标。近日,华为云重磅发布盘古大模型5.0,实现全系列、多模态、强思维三大创新升级,继续在“难而正确”的道路上迈出坚实的一大步。
全系列是大模型适配纷繁业务场景的不二之选。盘古5.0以不同参数规格的模型满足各类场景需求:十亿级参数的Pangu E系列可支撑手机、PC等端侧的智能应用;百亿级参数的Pangu P系列单卡可推,适用于低时延的推理场景;千亿级参数的Pangu U系列适用于处理复杂任务;万亿级参数的Pangu S系列超级大模型能帮助企业处理更为复杂的跨领域多任务。
多模态是大模型精准理解和重构物理世界的必由之路。盘古大模型5.0能更精准地理解物理世界,包括文本、图片、视频、雷达、红外、遥感等更多模态。在图片和视频识别方面,可支持10K超高分辨率;在内容生成方面,采用业界首创的STCG(Spatio Temporal Controllable Generation,可控时空生成)技术,聚焦自动驾驶、工业制造、建筑等多个行业场景,可生成更符合物理规律的多模态内容。
强思维是大模型真正成为行业助手的关键要素。盘古5.0将思维链技术与策略搜索深度结合,显著提升数学能力、复杂任务规划能力和工具调用能力。思维链可帮助智能体更好地理解和预测环境变化,而策略搜索则是智能体适应这些变化并做出决策的过程。两者共同作用,将促使企业客户能在复杂环境中进行有效的学习和决策。
从AI落地的角度看,大模型底层能力的跃升固然具有决定性作用,但部署方式和落地路径的优化同样不可或缺。在华为开发者大会2024期间,华为云开创性地推出大模型混合云十大创新技术,借助AI-Native存储、增强AI网络、算子加速、多样性算力调度、云边协同、数据工程、统一数据编码、精细视觉神经网络、无感断点续训、安全护栏等方面的协同发力,打通大模型应用落地进程中的主要堵点,为行业智能化之旅扫清了“最后一公里”的障碍。
人间正道是沧桑。在“难而正确”的漫漫征途上,难免还会有荆棘或险滩,而以盘古大模型为代表的开路先锋将筚路蓝缕以启山林,栉风沐雨砥砺前行。多年以后,站在行业智能化的高峰回望来时路,大模型留下的脚印会是最美的风景。