搜索_华为云

准备镜像环境 - AI开发平台ModelArts

卡davinci0~davinci7。 driver及npu-smi需同时挂载至容器。不要将多个容器绑到同一个NPU上，会导致后续的容器无法正常使用NPU功能。 Step5 进入容器通过容器名称进入容器中。默认使用ma-user用户执行后续命令。 docker exec -it

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
SFT全参微调训练 - AI开发平台ModelArts

即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
管理训练容器环境变量 - AI开发平台ModelArts

OBS环境变量 PIP源环境变量 API网关地址环境变量作业元信息环境变量约束限制为了避免新设置的环境变量与系统环境变量冲突，而引起作业运行异常或失败，请在定义自定义环境变量时，不要使用“MA_”开头的名称。如何修改环境变量用户可以在创建训练作业页面增加新的环境变量，也可以设置新的取值覆盖当前训练容器中预置的环境变量值。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

containerd 默认命名空间是 k8s.io。所以在导入镜像时需要指定命令空间为 k8s.io，否则使用 crictl images 无法查询到。以下命令可选其一进行镜像拉取：使用 containerd 自带的工具 ctr 进行镜像拉取。 ctr -n k8s.io images

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
构造请求 - AI开发平台ModelArts
构造请求 - AI开发平台ModelArts

是 application/json Content-Length 请求body长度，单位为Byte。 POST/PUT请求必填，GET不能包含。 3495 X-Project-Id project id，用于不同project取token。否 e9993fc787d94b6c886cbaa340f9c0f4

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
SFT全参微调训练 - AI开发平台ModelArts

即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
发布免费模型 - AI开发平台ModelArts

AI Gallery服务协议》。单击“发布”。发布使用容器镜像导入的资产时，后台会进行资产安全扫描，如果扫描发现资产有问题，则资产发布失败并邮件通知发布者。编辑资产详情资产发布成功后，发布者可以进入详情页修改该资产的标题、封面图、描述等，让资产更吸引人。修改封面图和二级标题

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
Qwen-VL基于DevServer适配Pytorch NPU的推理指导（6.3.909） - AI开发平台ModelArts

容器时会用到，此处可以自己定义一个容器名称。 ${image_id}：镜像ID，通过docker images查看刚拉取的镜像ID。容器不能挂载到/home/ma-user目录，此目录为ma-user用户家目录。如果容器挂载到/home/ma-user下，拉起容器时会与基础镜像冲突，导致基础镜像不可用。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
指令监督微调训练任务 - AI开发平台ModelArts

ate列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。 per_device_train_batch_size 1 指定每个设备的训练批次大小

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
ma-cli image镜像构建支持的命令 - AI开发平台ModelArts

参数说明 FILE_PATH String 是 Dockerfile文件所在的路径。 -t / --target String 否表示构建生成的tar包保存在本地的路径，默认是当前文件夹目录。 -swr / --swr-path String 是 SWR镜像名称，遵循organi

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
使用MaaS压缩模型 - AI开发平台ModelArts

“主题名”：事件通知的主题名称。单击“创建主题”，前往消息通知服务中创建主题。 “事件”：选择要订阅的事件类型。例如“创建中”、“已完成”、“运行失败”等。说明：需要为消息通知服务中创建的主题添加订阅，当订阅状态为“已确认”后，方可收到事件通知。订阅主题的详细操作请参见添加订阅。使

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
使用MaaS部署模型服务 - AI开发平台ModelArts

“主题名”：事件通知的主题名称。单击“创建主题”，前往消息通知服务中创建主题。 “事件”：选择要订阅的事件类型。例如“运行中”、“已终止”、“运行失败”等。说明：需要为消息通知服务中创建的主题添加订阅，当订阅状态为“已确认”后，方可收到事件通知。订阅主题的详细操作请参见添加订阅。使

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
查看Standard专属资源池详情 - AI开发平台ModelArts

该指标用于统计测量对象的磁盘使用率。百分比（Percent） 0～100% GPU/NPU碎片数由于资源调度产生碎片，导致某些卡虽然空闲，但无法被多卡任务所使用。不同卡数的任务，根据已占用卡的分布不同，实际会有不同的碎片情况，且随时间变化，表格中仅表示当前时间的状态。 / / 管理资源池标签

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
发布数据 - AI开发平台ModelArts
发布数据 - AI开发平台ModelArts

Gallery数字内容发布协议》和《华为云AI Gallery服务协议》。单击“发布”。发布数据时，数据集文件所在的OBS文件夹不能增加或删除文件，否则会引起发布前后文件数量或大小不一致，从而导致发布失败。编辑资产详情数据集发布成功后，发布者可以进入数据集的详情页修改该数据集“描述”、“版本”和“限制”等信息。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
Lite Cluster资源配置流程 - AI开发平台ModelArts

//特权容器，允许访问连接到主机的所有设备 -u 0 //root用户 -v /dev/shm:/dev/shm //防止shm太小训练任务失败 --device=/dev/davinci0 //npu卡设备 --device=/dev/davinci1 //npu卡设备 --device=/dev/davinci2

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
执行微调训练任务 - AI开发平台ModelArts

ate列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。 per_device_train_batch_size 1 指定每个设备的训练批次大小

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）

总条数： 1504

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备镜像环境 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

构造请求 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

发布免费模型 - AI开发平台ModelArts

Qwen-VL基于DevServer适配Pytorch NPU的推理指导（6.3.909） - AI开发平台ModelArts

指令监督微调训练任务 - AI开发平台ModelArts

ma-cli image镜像构建支持的命令 - AI开发平台ModelArts

使用MaaS压缩模型 - AI开发平台ModelArts

使用MaaS部署模型服务 - AI开发平台ModelArts

查看Standard专属资源池详情 - AI开发平台ModelArts

发布数据 - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

执行微调训练任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线