搜索_华为云

查询AI应用详情 - AI开发平台ModelArts

参数参数类型描述 min_cpu String 最小CPU规格。 min_gpu String 最小GPU规格。 min_memory String 最小内存。 min_ascend String 最小Ascend规格。表9 ModelParamsInfo 参数参数类型描述

 帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。资源规格要求计算规格：不同模型训练推荐的NPU卡数请参见表2。硬盘空间：至少200GB。 Ascend资源规格： Ascend: 1*ascend-snt9b表示Ascend单卡。 Ascend:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

本文档中的模型运行环境是ModelArts Lite的Cluster。请参考本文档要求准备资源环境。资源规格要求计算规格：不同模型训练推荐的NPU卡数请参见表2。硬盘空间：至少200GB。 Ascend资源规格： Ascend: 1*ascend-snt9b表示Ascend单卡。 Ascend:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 准备工作
扩缩容Lite Cluster资源池 - AI开发平台ModelArts

擎空间大小。创建节点池相关参数请参见Lite Cluster资源开通。图3 新增节点池（单节点方式）新增节点池时，部分规格支持整柜购买，若选中此类规格，可以通过下拉框选择整柜方式或单节点方式新增节点池。若选择整柜方式，目标总节点数等于“数量*整柜”，购买的节点总数为两者的乘积。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
在Notebook中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

k。在Notebook对应操作列，单击“更多 > 变更镜像”，打开“变更镜像”弹出框，变更镜像选择“自定义镜像”，将当前镜像变更为Step2 构建成功的镜像注册到镜像管理模块注册的镜像，如图8所示。图8 变更镜像启动变更后的Notebook，并打开。进入Terminal运行界面，在工作目录，运行启动脚本run

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
查询Notebook实例详情 - AI开发平台ModelArts

空间，以实际取值为准。 feature String 实例类别。枚举值： DEFAULT：CodeLab免费规格实例，每个用户最多只能创建一个。 NOTEBOOK：计费规格实例。 billing_items Array of strings 计费资源类型。枚举值： STORAGE：存储资源计费。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
查询训练作业的运行指标 - AI开发平台ModelArts

metrics 参数参数类型描述 metric String 运行指标，可选值如下： cpuUsage（CPU使用率）、memUsage（物理内存使用率）、gpuUtil（GPU使用率）、gpuMemUsage（显存使用率）、npuUtil（NPU使用率）、npuMemUsage（NPU显存使用率）。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
在ECS中创建ma-user和ma-group - AI开发平台ModelArts

在ECS中创建ma-user和ma-group 在ModelArts训练平台使用的自定义镜像时，默认用户为ma-user、默认用户组为ma-group。如果在训练时调用ECS中的文件，需要修改文件权限改为ma-user可读，否则会出现Permission denied错误，因此需

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
显存溢出错误 - AI开发平台ModelArts

max_split_size_mb to avoid fragmentation. 解决方法通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

max_split_size_mb to avoid fragmentation. 解决方法通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

max_split_size_mb to avoid fragmentation. 解决方法通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

否与作业规格匹配。例如您选择4卡规格的作业，实际可用的卡ID为0、1、2、3，但是您在进行cuda相关的运算时，例如"tensor.to(device="cuda:7")"，将张量搬到了7号GPU卡上，超过了实际可用的ID号。如果cuda相关运算设置的卡ID号在所选规格范围内，

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
指令监督微调训练任务 - AI开发平台ModelArts

1 指定每个设备的训练批次大小 gradient_accumulation_steps 8 指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可根据自己要求适配 num_train_epochs 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型模型参数量训练类型序列长度cutoff_len 梯度累积值优化工具(Deepspeed) 规格与节点数 llama2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
ModelArts统一镜像列表 - AI开发平台ModelArts

ModelArts统一镜像列表统一镜像列表 ModelArts提供了ARM+Ascend规格的统一镜像，包括MindSpore、PyTorch。适用于开发环境，模型训练，服务部署，请参考统一镜像列表。表1 MindSpore 预置镜像适配芯片适用范围 mindspore_2

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
部署服务 - AI开发平台ModelArts
部署服务 - AI开发平台ModelArts

必须大于0，不配置默认值为1。当小于1时，代表滚动升级时增加的实例数的百分比；当大于1时，代表滚动升级时最大扩容的实例数。 max_unavailable 否 Float 必须大于0，不配置默认值为0。当小于1时，代表滚动升级时允许缩容的实例数的百分比；当大于1时，代表滚动升级时允许缩容的实例数。 te

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
套餐包 - AI开发平台ModelArts
套餐包 - AI开发平台ModelArts

中，单击“购买套餐包”，进入“购买套餐包”页面。可根据需要，自行购买适用规格的套餐包。适用场景 ModelArts服务支持购买套餐包，根据用户选择使用的资源不同进行收费。您可以根据业务需求选择使用不同规格的套餐包。 ModelArts提供了AI全流程开发的套餐包，面向有AI基础

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费模式
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值优化工具(Deepspeed) 规格与节点数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

调用认证鉴权接口获取用户Token，在后续的请求中需要将Token放到请求消息头中作为认证。调用获取训练作业支持的公共规格接口获取训练作业支持的资源规格。调用获取训练作业支持的AI预置框架接口查看训练作业支持的引擎类型和版本。调用创建算法接口创建一个算法，记录算法id。

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
执行微调训练任务 - AI开发平台ModelArts

指定每个设备的训练批次大小 gradient_accumulation_steps 8 可修改。指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可根据自己要求适配。取值可参考表1中梯度累积值列。 num_train_epochs 5 表示训练轮次，根据实际需要修改。一个Epo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）

总条数： 802

上一页
1
...
19
20
21
...
41
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查询AI应用详情 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

扩缩容Lite Cluster资源池 - AI开发平台ModelArts

在Notebook中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

查询Notebook实例详情 - AI开发平台ModelArts

查询训练作业的运行指标 - AI开发平台ModelArts

在ECS中创建ma-user和ma-group - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

指令监督微调训练任务 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

ModelArts统一镜像列表 - AI开发平台ModelArts

部署服务 - AI开发平台ModelArts

套餐包 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

执行微调训练任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线