搜索_华为云

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

使用SDK调测多机分布式训练作业代码中涉及到的OBS路径，请用户替换为自己的实际OBS路径。代码是以PyTorch为例编写的，不同的AI框架之间，整体流程是完全相同的，仅需修改7和11中的 framework_type参数值即可，例如：MindSpore框架，此处framew

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

预训练前提条件已上传训练代码、训练权重文件和数据集到OBS中，具体参考代码上传至OBS。 Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。代码目录选择：OBS桶路径下的llm_train/AscendSpeed代码目录。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练前提条件已上传训练代码、训练权重文件和数据集到OBS中，具体参考代码上传至OBS。 Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。代码目录选择：OBS桶路径下的llm_train/AscendSpeed代码目录。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的模型软件包如下表所示，请提前准备好。获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.907-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
准备Notebook - AI开发平台ModelArts

准备Notebook ModelArts Notebook云上云下，无缝协同，更多关于ModelArts Notebook的详细资料请查看开发环境介绍。本案例中的训练作业需要通过SFS Turbo挂载盘的形式创建，因此需要将上述数据集、代码、权重文件从OBS桶上传至SFS Turbo中。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的模型软件包如下表所示，请提前准备好。获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.908-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
配置Workflow参数 - AI开发平台ModelArts

配置Workflow参数功能介绍参数相关的配置使用Placeholder对象来表示，以占位符的形式实现用户数据运行时配置的能力，当前支持的数据类型包括：int、str、bool、float、Enum、dict、list。开发者可根据场景需要，将节点中的相关字段（如算法超参）通

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
手动部署推理服务 - AI开发平台ModelArts

手动部署推理服务前提条件已经完成资源购买。约束限制脚本中的镜像是在西南-贵阳一区域，请在西南-贵阳一区域上部署推理服务。步骤一：检查环境 SSH登录机器后，检查NPU设备检查。如果驱动版本不是24.1.0，请先升级驱动和对应固件。 npu-smi info -t board

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 部署推理服务
约束与限制 - AI开发平台ModelArts

约束与限制本节介绍ModelArts服务在使用过程中的约束和限制。规格限制表1 规格说明资源类型规格说明计算资源所有按需计费、包年/包月、套餐包中的计算资源规格，包括CPU、GPU和NPU 购买的所有类型的计算资源均不支持跨Region使用。计算资源套餐包套

 帮助中心 > AI开发平台ModelArts > 产品介绍
计费样例 - AI开发平台ModelArts
计费样例 - AI开发平台ModelArts

计费样例计费场景一某用户于2023/03/18 15:30:00使用一个按需计费的公共资源池进行训练，规格配置如下：规格：CPU: 8 核 32GB (modelarts.vm.cpu.8ud) 计算节点个数：1个用了一段时间后，于2023/03/20 10:30:00停

 帮助中心 > AI开发平台ModelArts > 计费说明
Notebook中构建新镜像 - AI开发平台ModelArts

Notebook中构建新镜像 ModelArts中注册镜像通过ECS获取和上传基础镜像将基础镜像上传后，可在SWR中查看已上传的镜像。但在ModelArts中还需要完成镜像注册后，才能在后续的Notebook中使用。镜像注册的操作步骤如下：登录ModelArts管理控制台，在左侧导航栏单击“镜像管理”。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
ModelArts入门实践 - AI开发平台ModelArts

ModelArts入门实践本章节列举了一些常用的实践案例，方便您快速了解并使用ModelArts完成AI开发。表1 常用最佳实践分类实践案例描述适用人群 ModelArts Standard模型训练基于ModelArts Standard上运行GPU训练任务本案例介绍了如何使用ModelArts

帮助中心 > AI开发平台ModelArts > 快速入门
W8A8量化 - AI开发平台ModelArts
W8A8量化 - AI开发平台ModelArts

W8A8量化什么是W8A8量化 W8A8量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。约束限制支持SmoothQuant（W8A8）量化的模型列表请参见支持的模型列表。激活量化支持动态per-token和静态per-tensor，支持非对称量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练作业的场景介绍不同AI模型训练所需要的数据量和算力不同，在训练时选择合适的存储及训练方案可提升模型训练效率与资源性价比。ModelArts Standard支持单机单卡、单机多卡和多机多卡的训练场景，满足不同AI模型训练的要求。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像准备大模型推理适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 准备工作
执行训练任务【新】 - AI开发平台ModelArts

执行训练任务【新】新的训练方式将统一管理训练日志、训练结果和训练配置，使用yaml配置文件方便用户根据自己实际需求进行修改。推荐用户使用该方式进行训练。权重文件支持以下组合方式，用户根据自己实际要求选择：训练stage 不加载权重增量训练：加载权重，不加载优化器（默认开启）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
修复Standard专属资源池故障节点 - AI开发平台ModelArts

修复Standard专属资源池故障节点 Standard专属资源池支持对故障节点进行修复操作，目前提供了替换节点、高可用冗余节点、重置节点和重启节点等方式。华为云技术支持在故障定位和性能诊断时，部分运维操作需要用户授权才可进行，本章节同时也介绍了如何进行授权操作。故障节点处理方式

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
ModelArts最佳实践案例列表 - AI开发平台ModelArts

ModelArts最佳实践案例列表在最佳实践文档中，提供了针对多种场景、多种AI引擎的ModelArts案例，方便您通过如下案例快速了解使用ModelArts完成AI开发的流程和操作。 DeepSeek模型推理场景表1 样例场景说明 DeepSeek模型基于ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像准备大模型推理适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像准备大模型推理适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 准备工作

总条数： 2045

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

配置Workflow参数 - AI开发平台ModelArts

手动部署推理服务 - AI开发平台ModelArts

约束与限制 - AI开发平台ModelArts

计费样例 - AI开发平台ModelArts

Notebook中构建新镜像 - AI开发平台ModelArts

ModelArts入门实践 - AI开发平台ModelArts

W8A8量化 - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

执行训练任务【新】 - AI开发平台ModelArts

修复Standard专属资源池故障节点 - AI开发平台ModelArts

ModelArts最佳实践案例列表 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线