搜索_华为云

准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

8*ascend-snt9b表示昇腾8卡。推荐使用“西南-贵阳一”Region上的昇腾资源。创建OBS桶 ModelArts使用对象存储服务（Object Storage Service，简称OBS）进行数据存储以及模型的备份和快照，实现安全、高可靠和低成本的存储需求。因此，在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

8*ascend-snt9b表示昇腾8卡。推荐使用“西南-贵阳一”Region上的昇腾资源。创建OBS桶 ModelArts使用对象存储服务（Object Storage Service，简称OBS）进行数据存储以及模型的备份和快照，实现安全、高可靠和低成本的存储需求。因此，在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

8*ascend-snt9b表示昇腾8卡。推荐使用“西南-贵阳一”Region上的昇腾资源。创建OBS桶 ModelArts使用对象存储服务（Object Storage Service，简称OBS）进行数据存储以及模型的备份和快照，实现安全、高可靠和低成本的存储需求。因此，在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

新安装的包与镜像中带的CUDA版本不匹配。处理方法必现的问题，使用本地Pycharm远程连接Notebook调试安装。先远程登录到所选的镜像，使用“nvcc -V”查看目前镜像自带的CUDA版本。重装torch等，需要注意选择与上一步版本相匹配的版本。建议与总结在创建训练作业前，推荐您先使用Mode

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
删除训练作业 - AI开发平台ModelArts

String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。请求参数无响应参数无请求示例如下以删除uuid为3faf5c03-aaa1-4cbe-879d-24b05d997347的训练作业为例。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
发布ModelArts模型 - AI开发平台ModelArts

件资源费用将根据实际使用情况由ModelArts管理控制台向使用方收取。发布至AI云商店华为云云商店是软件及服务交易交付平台。云商店AI专区汇聚优质的人工智能服务提供商，提供丰富的人工智能解决方案、应用、API及算法模型，助力用户快速部署、接入、调用相关应用，方便地购买和使用算法模型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
工作负载Pod异常 - AI开发平台ModelArts

若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod，需要先找到config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod，需要先找到config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

8*ascend-snt9b表示昇腾8卡。推荐使用“西南-贵阳一”Region上的昇腾资源。创建OBS桶 ModelArts使用对象存储服务（Object Storage Service，简称OBS）进行数据存储以及模型的备份和快照，实现安全、高可靠和低成本的存储需求。因此，在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作
工作负载Pod异常 - AI开发平台ModelArts

若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod，需要先找到config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod，需要先找到config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
模型管理计费项 - AI开发平台ModelArts

假设用户于2023年4月1日10:00将创建模型需用到的模型包文件上传至OBS桶中。按照存储费用结算，那么创建的费用计算如下：存储费用：创建模型的模型包文件通过对象存储服务（OBS）上传或导出，存储计费按照OBS的计费规则。具体费用可参见对象存储价格详情。综上，模型的费用 = 存储费用父主题：计费项

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
删除训练作业标签 - AI开发平台ModelArts

String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。请求参数表2 请求Body参数参数是否必选参数类型描述 tags 是 Array of TmsTagForDelete

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
执行训练任务（历史版本） - AI开发平台ModelArts

NPUS_PER_NODE=4 sh scripts_modellink/llama2/0_pl_sft_7b.sh 最后，请参考查看日志和性能章节查看SFT微调的日志和性能。父主题：执行训练任务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
系统容器异常退出 - AI开发平台ModelArts

OBS限流。参考5.1.1 OBS复制过程中提示“BrokenPipeError: Broken pipe”。 OBS其他问题。请参考OBS服务端错误码或者采集request id后向OBS客服进行咨询。如果是空间不足。参考常见的磁盘空间不足的问题和解决办法章节处理。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
作业状态参考 - AI开发平台ModelArts

JOBSTAT_SUBMIT_MODEL_FAILED，提交模型失败。 17 JOBSTAT_DEPLOY_SERVICE_FAILED，部署服务失败。 18 JOBSTAT_CHECK_INIT,审核作业初始化。 19 JOBSTAT_CHECK_RUNNING，审核作业正在运行中。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版）
W8A8量化 - AI开发平台ModelArts
W8A8量化 - AI开发平台ModelArts

--per-channel：权重量化方法，如果指定则为per-channel粒度量化，否则为per-tensor粒度量化。参考启动推理服务，启动推理服务时添加如下命令。 -q smoothquant 或者 --quantization smoothquant 使用llm-compre

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
训练中的权重转换说明 - AI开发平台ModelArts

/home/ma-user/ws/processed_for_ma_input/llama2-13b/converted_weights_TP${TP}PP${PP} 目录下查看转换后的权重文件。 Megatron转HuggingFace参数说明训练完成的权重文件默认不会自动转换为Hugging Face格式权重

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
SFT全参微调训练任务 - AI开发平台ModelArts

<NODE_RANK=0> sh scripts/llama2/0_pl_sft_13b.sh localhost 1 0 训练完成后，请参考查看日志和性能章节查看SFT微调的日志和性能。父主题：主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905）
LoRA微调训练 - AI开发平台ModelArts

<NODE_RANK=0> sh scripts/llama2/0_pl_lora_13b.sh localhost 1 0 训练完成后，请参考查看日志和性能章节查看LoRA微调训练的日志和性能。父主题：主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905）

总条数： 2181

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

删除训练作业 - AI开发平台ModelArts

发布ModelArts模型 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

模型管理计费项 - AI开发平台ModelArts

删除训练作业标签 - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

系统容器异常退出 - AI开发平台ModelArts

作业状态参考 - AI开发平台ModelArts

W8A8量化 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

SFT全参微调训练任务 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线