ColossalAI Platform 独立部署版-
版本: V1.0 | 交付方式: License |
适用于: Linux | 上架日期: 2024-02-23 03:39:55 |
潞晨科技推出基于昇腾的 一体化 的大模型训练推理平台,该平台提供了企业级MLOps管理系统,集成计算能力、尖端模型和加速优化,使用户能够简单快速地进行大模型训练和部署。
产品特点
ColossalAI Platform和Colossal-AI通过在⼤型集群上提供“低代码零代码开发体验”,显著提⾼复杂应⽤程序的开发速度。
ColossalAI Platform原⽣集成⾼效分布式开发基础设施Colossal-AI,进⼀步优化⼤模型的训练和推理过程。
ColossalAI Platform预置⾃动化算⼒和存储资源的解决⽅案,⾃动为⽤⼾配置最优集群,并确保 数据安全 。
ColossalAI Platform显著降低企业研发成本,将⼤模型项⽬上线时间缩短10倍。
详细功能
- 基础设施层:计算节点、存储、⽹络
- 硬件与框架⽀持:硬件⽀持调度和部署基于X86和ARM 架构的CPU和Nvidia GPU和NPU昇腾等;平台预制 镜像 预置了多 个 主 流 AI 框 架 , 包 括 : ColossalAI 、 TensorFlow 、Pytorch、ONNX、⻜桨、昇思等。
- 原 ⽣ 集 成 ColossalAI 的 预 制 镜 像 : 该 镜 像 囊 括 运 ⾏ColossalAI的官⽅⽤例和官⽅应⽤的所有环境依赖。⽤⼾⽆需任何配置,便可直接体验ColossalAI所带来的⼤模型降本增效⽅案。该⽅案包括了如下优化⽅式:张量并⾏、流⽔并⾏、基于zero的数据并⾏、序列并⾏、混合精度训练、LAMB 优 化 器 、 FlashAttention 、 Distributed PPO 、Paged Attention和Inference Quantization 等。其API设计保持与Pytorch相同或类似的接⼝语义, 与Pytorch、transformers等主流AI产品有⾼度兼容性,提供与Pytorch 相同或类似的接⼝封装,⾼度兼容Pytorch原⽣功能,例如distributed dataloader,DDP等,和其他第三⽅Pytorch 插件也有很好的兼容性,例如apex、bitsandbytes等。⽀持预制镜像⾥AI代码框架版本的定期更新:通过部署版本控制服务,⽀持在内⽹环境下对AI框架镜像及其依赖环境的定期更新。
- AI 算⼒资源管理:本平台⽀持对算⼒中⼼的算⼒和存储资源进⾏纳管,⽀持为⽤⼾按需分配算⼒资源和存储资源并进⾏⾃动化资源配置。
- 服务层-AI服务中台
- AI 算⼒资源管理: 数据管理 模块为⽤⼾提供了全⽅位的云上⽂件管理的服务。⽤⼾可以通过该服务创建⾃⼰的存储空间,像管理本地⽂件系统⼀样管理云上⽂件,并实现云上云下的数据同步。平台⽀持对算⼒中⼼的算⼒和存储资源进⾏纳管,⽀持为⽤⼾按需分配算⼒资源和存储资源并进⾏⾃动化资源配置。该模块提供的服务包括:资源池配置、资源调度、资源监控。
- AI 云主机:AI云主机模块提供了弹性云资源调度功能,⽀持以单个GPU或CPU为最⼩粒度弹性分配云主机资源。AI云主机功能提供了⼀个便捷的交互式编程环境,其内置JupyterLab、VSCode及SSH等插件,并为⽤⼾提供底层Sudo权限,⽅便⽤⼾以裸机的形式进⾏灵活开发。⽀持预制镜像⾥AI代码框架版本的定期更新:通过部署版本控制服务,⽀持在内⽹环境下对AI框架镜像及其依赖环境的定期更新。
模型训练:模型训练模块为⽤⼾提供云原⽣⼀站式的机器学习训练平台,为⽤⼾提供了灵活、稳定、易⽤和⾼性能的机器学习的分布式训练环境。同时,平台原⽣集成了国产分布式训练框架Colossal-AI,通过最⼤限度的发挥Colossal-AI的并⾏和异构内存优化技术,为开发者和企业提供极致的降本增效体验。该模块提供的服务包括:训练任务提交、任务监控。 - 训练任务模版:平台训练任务模版提供多种基于 Colossal-AI 框架的⼤模型训练和微调模版,模版⽀持的模型包括 Llama2、Bloom、GPT、ChatGLM 、MOE和 StableDiffussion等;⽤⼾可在创建训练任务时进⾏⾃定义选择所需的优化策略,包括张量并⾏、模型并⾏、数据并⾏和 Zero 等;平台⾃研的ShardFormer技术为不同的主流模型⾃动选择和配置训练所需要的并⾏⽅案,包括:张量并⾏、流⽔线并⾏、序列并⾏、数据并⾏、Zero 数据并⾏等,并⽀持多种并⾏⽅式组合使⽤。同时ShardFormer技术内置各种⾼性能算 ⼦ , 包 括 : Flash attention 2 、 Memory efficient attention(xformers)、Fused Normalization Layer、JIT kernels 等。同等条件下在512张A100上,利 ⽤ ColossalAI ShardFormer 技 术 训 练LLaMA2-70B 的 速 度 对 ⽐DeepSpeed提升95%;平台⾃研的Colossal-MOE技术提供Pytorch版本的Open-MOE模型的训练⽅法,并为Open-MoE 模型适配了ColossalAI团队为MoE 模 型 ⾃ 研 的 EZ-MoE 并 ⾏ 技 术 。 同等 条 件 下 在 8 张 A800 上 , 利 ⽤Colosasl-MoE 训 练 OpenMoE-8B 的速 度 对 ⽐ Pytorch 提 升 7.9 倍 , 对 ⽐DeepSpeed提升42%;平台⾃研的StableDiffusion模型训练和推理技术通过集成Flash Attention算⼦技术,结合平台⾃研的ZeRO(内存优化技术)和Gemini(异构内存管理技术),可⼤幅度减少训练和StableDiffusion所需要的显存,提升训练速度。对于StableDiffusion-v2模型,在同等硬件条件(A100)之下,训练所需的显存消耗可平均降低70%,推理所需的显存消耗可平均降低60%。
- 模型部署:模型部署模块为⽤⼾提供了⼀站式模型部署和在线推理服务平台,⽀持⼀键部署模型并提供在线推理服务。模型部署服务⽀持虚拟化异构算⼒和弹性扩缩容能⼒,能够帮助⽤⼾解决模型部署复杂、资源浪费和⼿⼯扩展资源效率低下等问题。同时,平台为多个主流⼤模型提供了ColossalAI的推理部署解决⽅案代码模版,⽤⼾⽆需写代码便可体验⾼性能的推理引擎。该模块提供的服务包括:模型部署创建、预置解决⽅案、模型部署调⽤、推理部署监控。
- 模型管理:模型管理模块为⽤⼾提供了标准化的模型管理平台,⽀持⽤⼾管理和发布⾃⼰的模型,管理操作包括:创建模型、更新模型信息、更新模型内部的⽂件、删除模型等;提供模型市场功能,市场上预制多个主流 开源 AI模型,其类别包括:⾃然语⾔处理模型、多模态模型、计算机视觉模型、语⾳模型等,为⽤⼾提供了快捷的模型使⽤体验。
- 数据集 管理:数据集管理模块为⽤⼾提供便捷的数据集管理服务,⽤⼾可⾼效管理多个私有数据集。本模块同时提供开源数据集社区功能,社区内置多个领域的常⽤开源数据集,⽅便⽤⼾直接使⽤。
- 算法管理:算法管理模块提供多种成熟的AI模块解决⽅案,其类型包括⼤模型预训练、微调、评估和知识库检索等等。平台内置多个可落地的AI领域 算 法 解 决 ⽅ 案 , 包 括 ColossalChat ( 类 ChatGPT 解 决 ⽅ 案 ) 、Colossal-Llama2(Llama2中⽂训练⽅案)、Colossal-Evalution(⼤模型评估⽅案)和ColossalQA(知识库检索⽅案)。平台内置算法解决⽅案将提供完整的README⽂档,默认Docker镜像配置以及推荐资源配置,减少了⽤⼾的调试成本。⽀持在线预览算法解决⽅案内的⽂件(包括代码⽂件、模型⽂件和数据⽂件等),算法解决⽅案内的README⽂档平台渲染到UI。⽤⼾可切换代码分⽀浏览不同代码版本的⽂件。平台上的解决⽅案可直接在AI云主机或模型训练中使⽤,其使⽤⽅式⽆需配置、即插即⽤,⼤幅度地减少了⽤⼾调研、开发和调试解决⽅案的时间。
- 应⽤层-AI解决⽅案
- AI 应⽤市场:AI应⽤市场提供了⼀个多租⼾共享的AI应⽤社区。应⽤市场预制了多个AI应⽤⽅便⽤⼾使⽤,同时⽤⼾可以创建⾃⼰的AI应⽤并在社区内发布。该模块提供的AI应⽤包括:⽂本检索知识库应⽤:该应⽤⽀持⽤⼾上传需要转化为知识库的⽂档,并通过⽤⼾提供的⼤语⾔模型的API实现询问知识库的功能;⽂⽣图应⽤:⽂⽣图应⽤内置了StableDiffusion作为推理底座模型,为⽤⼾提供了⽂⽣图的功能。该应⽤同时原⽣集成了ColossalAI 框 架 对 StableDiffusion 的 推 理 加 速 ⽅ 案 , 使 得StableDiffusion的推理速度相较于原⽣的解决⽅案提升了7倍。
- 镜像管理:镜像管理模块为⽤⼾提供了⾃定义镜像环境的功能,⽤⼾可通过管理⾃定义镜像,为⾃⼰的开发、训练或模型部署提供⼀个更稳定、可复现、更⾼效的开发和部署环境。该模块提供的服务包括:⽀持⽤⼾上传第三⽅镜像、⽀持⽤⼾管理和下载平台上的私有镜像
- ⽂档中⼼:⽂档中⼼模块为⽤⼾提供了所有关于平台上产品的详尽⽤⼾⼿册以及官⽅博客,⽅便⽤⼾随时查阅,以解决使⽤云平台上功能的任何疑惑或困难。该模块提供的服务包括:提供专有的官⽅⽂档⽹站,其内容包括每个模块的功能介绍、使⽤说明和官⽅提供的以博客形式书写的使⽤案例;⽂档服务提供了版本更新信息及产品新增、变动功能介绍;⽂档服务提供了关于平台上所有SDK的使⽤说明,⽀持控制台内进⾏接⼝调试。
购买说明
ColossalAI Platform 独立部署版。可按年/买断购买。
当部署NPU卡数大于64卡时,每多8卡需多购买1天配套人工服务。