检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。
ModelArts专题 了解ModelArts 华为云开发者学堂 华为云EI基于AI和大数据技术,通过云服务的方式提供开放可信的平台。 智能客服 您好!我是有问必答知识渊博的智能问答机器人,有问题欢迎随时求助哦! 社区求助 华为云社区是华为云用户的聚集地。这里有来自ModelArts服务的技术牛人,为您解决技术难题。
开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图1 开启故障重启 断点续训练是通过checkpoint机制实现。c
#构造vllm评测配置脚本名字 相关文档 和本文档配套的模型训练文档请参考主流开源大模型(PyTorch)基于DevServer训练指导。 父主题: 主流开源大模型基于DevServer适配PyTorch NPU推理指导(6.3.908)
#构造vllm评测配置脚本名字 相关文档 和本文档配套的模型训练文档请参考主流开源大模型基于DevServer适配PyTorch NPU训练指导(6.3.906)。 父主题: 主流开源大模型基于DevServer适配PyTorch NPU推理指导(6.3.906)
主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.905) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 父主题: LLM大语言模型训练推理
主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.905) 场景介绍 准备工作 在Notebook调试环境中部署推理服务 在推理生产环境中部署推理服务 推理精度测试 推理性能测试 父主题: LLM大语言模型训练推理
检查containerd是否安装 在创建CCE集群时,会选择 containerd 作为容器引擎,并默认给机器安装。如尚未安装,说明机器操作系统安装错误。需要重新纳管机器,重新安装操作系统。 安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具,使用方式和docker命令基本一致,可用于后续镜像构建步骤中。
主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.910) 场景介绍 准备工作 在Notebook调试环境中部署推理服务 在推理生产环境中部署推理服务 推理精度测试 推理性能测试 推理模型量化 eagle 投机小模型训练 附录:基于vLLM不同模型推理支持最小卡数和最大序列说明
主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.906) 场景介绍 准备工作 在Notebook调试环境中部署推理服务 在推理生产环境中部署推理服务 推理精度测试 推理性能测试 推理模型量化 父主题: LLM大语言模型训练推理
主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.909) 场景介绍 准备工作 在Notebook调试环境中部署推理服务 在推理生产环境中部署推理服务 推理精度测试 推理性能测试 推理模型量化 附录:基于vLLM不同模型推理支持最小卡数和最大序列说明
主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.908) 场景介绍 准备工作 在Notebook调试环境中部署推理服务 在推理生产环境中部署推理服务 推理精度测试 推理性能测试 推理模型量化 附录:基于vLLM不同模型推理支持最小卡数和最大序列说明
主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.907) 场景介绍 准备工作 在Notebook调试环境中部署推理服务 在推理生产环境中部署推理服务 推理精度测试 推理性能测试 推理模型量化 附录:基于vLLM不同模型推理支持最小卡数和最大序列说明
#构造vllm评测配置脚本名字 相关文档 和本文档配套的模型训练文档请参考主流开源大模型(PyTorch)基于DevServer训练指导。 父主题: 主流开源大模型基于Server适配PyTorch NPU推理指导(6.3.911)
TP×PP×CP)的值进行整除。 Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断
检查containerd是否安装 在创建CCE集群时,会选择 containerd 作为容器引擎,并默认给机器安装。如尚未安装,说明机器操作系统安装错误。需要重新纳管机器,重新安装操作系统。 安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具,使用方式和docker命令基本一致,可用于后续镜像构建步骤中。
lora_13b.sh localhost 1 0 训练完成后,请参考查看日志和性能章节查看LoRA微调训练的日志和性能。 父主题: 主流开源大模型基于DevServer适配PyTorch NPU训练指导(6.3.905)
查看 Kubernetes 集群信息正确弹出内容 创建SFS Turbo SFS Turbo HPC型文件系统为用户提供一个完全托管的共享文件存储。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象,用户可以指定SFS Turbo内的目录与OBS对象存储桶进行关
查看 Kubernetes 集群信息正确弹出内容 创建SFS Turbo SFS Turbo HPC型文件系统为用户提供一个完全托管的共享文件存储。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象,用户可以指定SFS Turbo内的目录与OBS对象存储桶进行关
/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断