从全民热衷尝鲜,到仅有少部分人仍在使用,上半年的ChatGPT喧嚣进入尾声,而由另一维度观测,新技术的生命力在市场,只有客户拿真金白银买单的大模型,才是技术-商业的正向循环,下半年,行业大模型争相落地开启新的竞争。
在华为开发者大会2023(Cloud)上,华为云正式发布盘古大模型3.0。盘古大模型3.0是一个完全面向行业提供服务,以行业需求为基础设计的大模型体系,包括5+N+X三层架构。
不疾不徐,华为盘古大模型揭开了新的一重面纱,也是ChatGPT热潮之后,华为首次系统性地谈论大模型。
钛媒体App了解到,华为并不热衷于“百模大战”,尽管早在2021年4月,华为云就发布了盘古大模型,包括NLP大模型和CV大模型,此后华为相继发布科学计算大模型、药物分子大模型、盘古矿山大模型和气象大模型。
“熟悉华为的人想想就知道,‘盘古chat’不符合华为的主航道,华为的策略是拿下B端市场,基础模型早就发布过,国内国外C端的大模型声量虽然大,但是华为没有想去掺一脚,还是坚定地做自己擅长的事,到了整个市场都重视大模型落地、谈论行业大模型的时候,华为就必须要站出来了”,一位接近华为人士表示。
华为是国内最早发布大模型的厂商之一,资本市场概念的炒作一轮又一轮,当产业潮水涌向行业大模型,华为还是按捺不住,将自己的大模型战略和盘托出。
华为轮值董事长胡厚崑在WAIC上表示,华为人工智能的发展关键是“走深向实”,着力点放在让人工智能为千行百业的生产活动服务,为科研创新服务。
当前阶段,华为在人工智能发展上有两个着力点:第一,打造强有力的算力底座,支撑中国人工智能产业的发展。第二,从通用大模型到行业大模型,让人工智能服务好千行百业、服务好科研创新。
大模型“卷”落地
前车之鉴,后事之师。数十年间,人工智能技术发展的曲线潮起潮落,“落地难”始终是横亘在产业现实的一道关卡。
在ChatGPT热潮之前,人工智能面临场景碎片化的问题,同时人工智能并没有进入到企业的核心场景,技术和业务不是紧耦合的关系,也就很难形成规模效应。
根据第三方网站SimilarWeb的监测数据,6月份,ChatGPT的网站与移动客户端的全球流量(PV)环比下降了9.7%,美国地区的流量环比下降了10.3%。同时,ChatGPT的独立访客数量(UV)下降了5.7%,访客在网站上花费的时间也下降了8.5%。这是自2022年11月30日发布以来,ChatGPT首次出现流量负增长。
拐点的到来,在一些人的意料之外,却在另一些人的情理之中。
华为常务董事、华为云CEO张平安表示,“目前大模型大多数应用都集中在2C领域,在面向行业应用时,由于行业数据获取难,技术与行业know-how结合难,大模型在行业的落地进展较慢。”
当普罗大众还在沉浸ChatGPT聊天的惊艳表现时,人工智能厂商已经在设想大模型的商业化,国际上,微软、亚马逊等大厂向企业级服务寻求商业化路径,进行多个行业的探索;国内,诸如华为、百度、阿里、腾讯等大小厂商,都在快马加鞭加速行业大模型投入。
华为很早就看到了这一方向,据悉,2020年,华为判断人工智能有两个发展方向,一个是小模型到大模型的趋势;第二个,人工智能和行业的结合,就是AI for Industries,华为认为AI在千行百业有着极大的想象空间。
前者,随着模型参数的不断扩大,小模型到大模型的趋势已然兑现,张平安介绍,盘古3.0能够为客户提供100亿参数、380亿参数、710亿参数和1000亿参数的系列化基础大模型,匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。
后者,在GPT火热之前,盘古大模型已经深耕行业,打造矿山、气象、药物分子、铁路等领域行业大模型和能力集,将行业知识know-how与大模型能力相结合,重塑千行百业,为每个企业、每个人提供专家助手,让工作更轻松。
如果说,彼时华为的战略预判还略显突兀,没有太多的参考,那么,如今大模型已经足以证明,华为的技术和业务路线的双重正确。
今年以来,华为迟迟不去“蹭”大模型的风口,而是在水面之下做一些基础的工作。盘古大模型发布以来,华为一直思考的都是客户运营、产品研发、软件工程、生产供应、市场营销等行业客户所关注的问题,坚持自己的技术主张和研发节奏,不急于求成,始终追求技术突破和技术领先,确保产品质量和交付质量。
“华为早在2020年就坚定地选择了大模型路线,当时市场上的热度并没有今天高,也存在很多质疑的声音,我们仍然坚持了下来,未来不管炒作与否,热度高低,我们都会尽量不受外界干扰,坚持做正确的事。”华为云人工智能领域专家对钛媒体App表示。
谈及行业过热的状态,华为云人工智能领域专家表示,“针对大模型这样最顶尖的技术,市场的热度一方面反映了资本对大模型盈利能力的期待,另一方面也反映了公众对大模型应用能力的期待。”
市场是最大的驱动力,大模型最大的改变,是创造了一个规模化效应的出口,上层应用都可以基于大模型去发展,把碎片化的场景,归拢统一,形成一套大模型解决方案,盘古大模型3.0的升级也遵循相似的逻辑。
盘古3.0大模型体系的5+N+X三层架构中,5大L0层的基础大模型,包括自然语言大模型、视觉大模型、多模态大模型、预测大模型、科学计算大模型,能够提供各种通用技能,支撑企业的各类应用。
N个L1层的行业大模型,例如政务大模型,金融大模型,矿山大模型等,能够基于基础大模型的多种能力组合,通过行业数据以及企业自有数据的二次训练,帮助企业打造自己的大模型。
X代表海量L2层的场景模型,与基础大模型和行业大模型相比,场景模型更加专注于某个具体的应用场景或特定业务,为客户提供开箱即用的模型服务,例如,在医疗领域,针对小分子筛选,小分子优化等。
从“无人相信”到登上《Nature》
华为开发者大会2023(Cloud)发布会前夕,华为云盘古大模型团队研发的高分辨率全球AI气象预报系统研究成果,正式在《Nature》正刊上发表,基于三维神经网络的气象预报系统精度,超过传统数值预报方法,且速度提高了1万倍以上。
少有人知道的是,就在去年12月份,国际气象领域的专家教授们还普遍认为,AI要达到传统数值方法的精度,是一件非常遥远的事。
“There are a lot of comments I could make indicating that this is perhaps not yet quite the triumph of AI over physical modelling. despite the claims in the paper. Never the less it is a big step forward compared to other efforts. The paper has also been causing a degree of existential angst at ECMWF.(我可以发表很多评论,表明这可能还不是AI相对于物理建模的巨大胜利,尽管论文中提出了主张,与其他努力相比,这绝不是向前迈出的一大步。但是,该论文还是在ECMWF引起了一定程度的焦虑。)
欧洲中期天气预报中心(ECMWF)是全球权威的国际性天气预报研究和业务机构,该中心于1979年6月首次做出了实时的中期天气预报,现在,华为盘古气象大模型,为世界展现了另一种可能。
盘古气象大模型研发团队核心成员对钛媒体App表示,之前大家不相信AI方法能够实现更高的精度和更好的效率,ECMWF也在探索用AI预测天气,但是规划的时间表以十年计算,他们认为,AI方法存在很多现阶段难以突破的问题。
例如分辨率不够,省级和区级的天气预报,数据量相差很大,如果要做到更高的分辨率,数据量要达到上千TB,这比其他AI应用数据量要大得多,大数据意味着消耗大算力,这部分问题能够通过堆硬件、工程化解决。
再如现有的 AI 预报方法精度大部分显著低于数值预报方法,这也是很多人都不相信AI能够超过数值预测方法的主要原因,现有的 AI 气象预报模型都是基于 2D 神经网络,无法很好地处理不均匀的 3D 气象数据,同时AI 方法缺少数学物理机理约束,因此在迭代过程中会不断积累迭代误差。
华为云提出了3D Earth-Specific Transformer方法,在每一个视觉transformer模块中新引入和纬度、高度相关的绝对位置编码,从而更好地处理复杂的3D气象数据,并且拆分各个不同的时间段模型分散训练,减少单个模型迭代的次数,从而减少迭代误差。
“我们不仅做出来一个精度超过欧洲气象中心数据预报的模型,而且我们迅速让这个模型落地,其中克服了很多问题,让气象专家实测验证模型结果,他们没有理由否认AI方法的先进性。”如上人士表示。
气象大模型的打造成为一个实证,华为云不仅能有意愿打造行业大模型,并且有将其付诸实践的工具和能力。对应华为盘古大模型,L0是科学计算基础大模型,L1是气象行业大模型,L2就是气象预测等应用。
大模型回答了“一个模型能否解决通用问题”以及“模型本身是否有价值”的关键问题,但是要想真正构建完整的业务链条,还需要从商业化层面跟进,为了加速和简化行业大模型从开发到落地,华为云提供了盘古大模型工程化平台,覆盖了数据处理、模型训练和应用开发三大环节。
在数据平台方面,相比传统标注平台(能提供的例如自动数据清洗等功能),华为云数据工程平台专门为SFT训练提供了基于模板的Prompt在线辅助撰写功能,为RLHF训练提供了多人Rank在线标注和任务分拨功能;对比离线进行这两种任务,实测效率可提升3倍。
有了高质量的数据如何产生高质量的模型,还需要确保模型开发的过程准确无误,在模型训练方面,大模型开发套件提供了自监督预训练,有监督SFT训练,强化学习训练3种工作流,覆盖了从数据集创建,超参配置到模型训练、评估、部署的全流程,凝结了大模型专家的实践经验,把复杂的大模型开发,流程化,标准化,简单化,帮助行业用户一键启动,一站式开发。
之后,开发好的盘古大模型要想在行业发挥作用,离不开下游应用,在模型开发方面,华为云提供盘古应用开发套件,将传统软件工程与大模型相结合,提供多种API和工具可调用,支撑企业分钟级构建大模型原生应用。
例如,基于盘古语言大模型和视觉大模型的基础能力,以及盘古大模型工程化平台,在学习了超过20万条政务数据,包括政策文件、政务百科等公开政务知识,以及12345热线场景等专有政务知识后,深圳市福田区政府打造了具备丰富法律法规、办事流程等行业知识的福田政务大模型。
据了解,参照GPT-3完成一个千亿行业模型端到端开发,基于盘古大模型工程化平台,开发大模型从过去需要5个月缩短到现在1个月,整体速度提升5倍。
AI世界的另一极
人工智能已经成为国家战略竞争焦点,AGI(通用人工智能)可能改变甚至颠覆世界运转的原有逻辑,国家层面强调:“人工智能是引领这一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的‘头雁’效应。”
人工智能与实体经济的结合,行业大模型扮演着重要作用,行业重塑、技术扎根、开放同飞,是华为云的差异化优势。
行业大模型以行业数据和know-how为重中之重,华为云AI的优势在于,在各行业已有超过数百个项目,基于对行业的深入理解,沉淀行业核心know-how,华为云盘古大模型能够更好地落地在行业客户的主业务场景。
盘古大模型已经学习10多个行业公开数据,涵盖金融、政务、气象、医疗、健康、互联网、教育、汽车、零售等。华为云和伙伴还联合打造了工业、供热、政务、煤矿、教育、电力、公路7大行业aPaaS,为盘古大模型了构建最深厚的行业积累。
墙高基下,虽得必失,人工智能产业需要从最底层夯实基础,张平安提到,其他人都可以依赖行业最成熟的AI算力和AI生态,但是华为只能依靠自己的AI根技术。
中国工程院院士郑纬民此前表示,大模型是新型关键基础设施的底座之一,大模型的竞争也是国家科技战略的竞争,中国一定要布局全栈自主创新的大模型产品,同时要构建国产化算力,也要解决算力能耗与国家“双碳”战略的平衡。
为此,华为构建了最深的AI堆栈根技术,在最底层构建了以鲲鹏和昇腾为基础的AI算力云平台,构建了昇腾的计算引擎CANN、AI框架MindSpore,以及AI开发生产线ModelArts,为大模型开发和运行提供分布式并行加速,算子和编译优化,集群级通信优化等关键能力。
“现在基于华为的AI堆栈,我们的大模型训练效能不仅不落后,在大模型场景下我们的训练效能是业界主流GPU的1.1倍”,张平安说。
与此同时,华为云提供了易用可靠的大模型工具套件、汇聚海量多行业场景API的开天aPaaS,以及包含丰富优质课程和技术认证的大模型专属社区,帮助开发者一站式完成入门到专家。
华为也积累了高密度的大模型人才:盘古团队中大概50%以上是博士,还有很多名“天才少年”,上述气象大模型的核心成员便是之一,大模型在训练过程中,会遭遇各种各样的困难和挑战,一个技术过硬、敢于创新的团队,才是大模型能够练成的核心保障,也是华为对外输出大模型能力的依托。
在安全方面,华为云提供公有云、混合云、大模型专区三种模式,保障安全部署;建立长效机制,确保大模型安全合规:包括数据集来源和使用合规、数据全生命周期安全、构建完整的数据标注以及审核机制、构建模型合规使用政策、确保模型使用边界。
AI大模型时代,面临自下而上自主创新的宏大命题,华为正在打造世界AI另一极。