搜索_华为云

服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

问题现象服务部署、启动、升级和修改时，拉取镜像失败。原因分析节点磁盘不足，镜像大小过大。解决方法首先考虑优化镜像，减小节点磁盘的占用。优化镜像无法解决问题，请联系系统管理员处理。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
训练脚本说明 - AI开发平台ModelArts

训练脚本说明 Yaml配置文件参数配置说明模型NPU卡数、梯度累积值取值表各个模型训练前文件替换 NPU_Flash_Attn融合算子约束 BF16和FP16说明录制Profiling 父主题：主流开源大模型基于DevServer适配LlamaFactory PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
训练脚本说明 - AI开发平台ModelArts

训练脚本说明 Yaml配置文件参数配置说明模型NPU卡数、梯度累积值取值表各个模型训练前文件替换 NPU_Flash_Attn融合算子约束 BF16和FP16说明录制Profiling 父主题：主流开源大模型基于Lite Server适配LlamaFactory PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

connect to endpoint”。处理方法对于OBS连接不稳定的现象，通过增加代码来解决。您可以在代码最前面增加如下代码，让TensorFlow对ckpt和summary的读取和写入可以通过本地缓存的方式中转解决： import moxing.tensorflow as mox

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

ModelArts-xxx port xxx: Connection timed out"如何解决？问题现象原因分析原因分析一：实例配置的白名单IP与本地网络访问IP不符。解决方法：请修改白名单为本地网络访问IP或者去掉白名单配置。原因分析二：本地网络不通。解决方法：检查本地网络以及网络限制。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
运行训练作业时提示URL连接超时 - AI开发平台ModelArts

timed out> 原因分析由于安全性问题在ModelArts上不能联网下载。处理方法如果在运行训练作业时提示连接超时，请您将需要联网下载的数据提前下载至本地，并上传至OBS中。父主题：外网访问限制

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
训练脚本说明 - AI开发平台ModelArts

训练脚本说明 Yaml配置文件参数配置说明模型NPU卡数、梯度累积值取值表各个模型训练前文件替换 NPU_Flash_Attn融合算子约束 BF16和FP16说明录制Profiling 父主题：主流开源大模型基于DevServer适配LlamaFactory PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
产品发布说明 - AI开发平台ModelArts

产品发布说明 ModelArts版本配套关系表昇腾云服务6.3.912版本说明昇腾云服务6.3.911版本说明昇腾云服务6.3.910版本说明（推荐）昇腾云服务6.3.909版本说明昇腾云服务6.3.908版本说明昇腾云服务6.3.907版本说明昇腾云服务6.3.906版本说明

 帮助中心 > AI开发平台ModelArts > 服务公告
在线服务预测报错DL.0105 - AI开发平台ModelArts

not subscriptable”。原因分析根据报错日志分析，是因为一个float数据被当做对象下标访问了。处理方法将模型推理代码中的x[0][i]修改为x[i]，重新部署服务进行预测。父主题：服务预测

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
ModelArts部署在线服务时，如何避免自定义预测脚本python依赖包出现冲突？ - AI开发平台ModelArts

ModelArts部署在线服务时，如何避免自定义预测脚本python依赖包出现冲突？导入模型时，需同时将对应的推理代码及配置文件放置在模型文件夹下。使用Python编码过程中，推荐采用相对导入方式（Python import）导入自定义包。如果ModelArts推理框架代码内

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错 - AI开发平台ModelArts

IsADirectoryError(21, 'Is a directory'). update products failed! 原因分析用户代码中设置的目标路径（local_path）有误。处理方法需要将local_path路径设置为文件夹且后缀必须以“/”结尾。父主题： API/SDK

帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

只支持布尔（bool）数据类型，或者为None。 query的shape仅支持 [B, N1, S1, D]，其中N1≤ 2048，D≤ 512并且dim== 4。对于GQA，key的shape是 [B, N2, S2, D]，其中 N2 ≤ 2048，并且N1是N2的正整数倍。不满足以上场景，则不能实现NPU_Flash_Attn功能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

类型，或者为None。 query的shape仅支持 [B, N1, S1, D]，其中N1≤ 2048，D≤ 512并且dim== 4。对于GQA，key的shape是 [B, N2, S2, D]，其中N2 ≤ 2048，并且N1是N2的正整数倍。不满足以上场景，则不能实现NPU_Flash_Attn功能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
训练作业失败，如何使用开发环境调试训练代码？ - AI开发平台ModelArts

训练作业失败，如何使用开发环境调试训练代码？在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VsCode）联接云上环境调试请参考使用本地IDE开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

只支持布尔（bool）数据类型，或者为None。 query的shape仅支持 [B, N1, S1, D]，其中N1≤ 2048，D≤ 512并且dim== 4。对于GQA，key的shape是 [B, N2, S2, D]，其中 N2 ≤ 2048，并且N1是N2的正整数倍。不满足以上场景，则不能实现NPU_Flash_Attn功能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

只支持布尔（bool）数据类型，或者为None。 query的shape仅支持 [B, N1, S1, D]，其中N1≤ 2048，D≤ 512并且dim== 4。对于GQA，key的shape是 [B, N2, S2, D]，其中 N2 ≤ 2048，并且N1是N2的正整数倍。不满足以上场景，则不能实现NPU_Flash_Attn功能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

类型，或者为None。 query的shape仅支持 [B, N1, S1, D]，其中N1≤ 2048，D≤ 512并且dim== 4。对于GQA，key的shape是 [B, N2, S2, D]，其中N2 ≤ 2048，并且N1是N2的正整数倍。不满足以上场景，则不能实现NPU_Flash_Attn功能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

由于ECC错误，导致作业运行失败。处理方法当ECC错误且计数超过64时，系统会自动隔离故障节点，重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死，请联系技术支持处理。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
删除处理任务 - AI开发平台ModelArts

提供SDK代码示例调试功能。 URI DELETE /v2/{project_id}/processor-tasks/{task_id} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 task_id

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
删除标注团队成员 - AI开发平台ModelArts

DELETE /v2/{project_id}/workforces/{workforce_id}/workers/{worker_id} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 worker_id

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）

总条数： 2382

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

运行训练作业时提示URL连接超时 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

产品发布说明 - AI开发平台ModelArts

在线服务预测报错DL.0105 - AI开发平台ModelArts

ModelArts部署在线服务时，如何避免自定义预测脚本python依赖包出现冲突？ - AI开发平台ModelArts

ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

训练作业失败，如何使用开发环境调试训练代码？ - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

删除处理任务 - AI开发平台ModelArts

删除标注团队成员 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线