搜索_华为云

附录：训练常见问题 - AI开发平台ModelArts

odule_utils.py 问题4：Error waiting on exit barrier错误错误截图：报错原因：多线程退出各个节点间超时时间默认为300s，时间设置过短。解决措施：修改容器内torch/distributed/elastic/agent/server/api

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
日志提示"Permission denied" - AI开发平台ModelArts

v1训练作业环境变量迁移v2说明： v1的DLS_TASK_NUMBER环境变量，可以使用v2的MA_NUM_HOSTS环境变量替换，即选择的训练节点数。 v1的DLS_TASK_INDEX环境变量，当前可以使用v2的VC_TASK_INDEX环境变量替换，下一步使用MA_TASK_INDEX替换，建议使用demo

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
训练中的权重转换说明 - AI开发平台ModelArts

Megatron mg2hf：用于Megatron 转 Hugging Face TP 8 张量并行数，一般等于单机卡数 PP 1 流水线并行数，一般等于节点数量 ORIGINAL_HF_WEIGHT /home/ma-user/ws/xxx-Ascend/llm_train/AscendSpe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

是MPI，训练使用的资源是CPU或GPU。本实践教程仅适用于新版训练作业。场景描述本示例使用Linux x86_64架构的主机，操作系统ubuntu-18.04，通过编写Dockerfile文件制作自定义镜像。目标：构建安装如下软件的容器镜像，并在ModelArts平台上

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
FLUX.1基于DevSever适配PyTorch NPU Finetune&Lora训练指导（6.3.911） - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
SDXL基于Lite Server适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
LLaVA模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
基本配置 - AI开发平台ModelArts
基本配置 - AI开发平台ModelArts

基本配置权限配置创建网络专属资源池VPC打通 ECS服务器挂载SFS Turbo存储在ECS中创建ma-user和ma-group obsutil安装和配置（可选）工作空间配置父主题：专属资源池训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
测试用户权限 - AI开发平台ModelArts

册镜像。验证SFS权限。在左上角的服务列表中，选择SFS服务，进入SFS管理控制台。在SFS管理控制台，在SFS Turbo中单击右上角的“创建文件系统”，如果能正常打开页面，表示当前用户具备SFS的操作权限。验证ECS权限。在左上角的服务列表中，选择ECS服务，进入ECS管理控制台。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置 > 权限配置
在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

服务预测请求内容过大时，会因数据处理慢导致请求超时，优化预测代码，缩短预测时间。推理速度与模型复杂度强相关，优化模型，缩短预测时间。扩容实例数或者选择性能更好的“计算节点规格”，例如使用GPU资源代替CPU资源，提升服务处理能力。服务出错报错：{"error_code": "ModelArts.4503"

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
训练的权重转换说明 - AI开发平台ModelArts

Megatron mg2hf：用于Megatron 转 Hugging Face TP 8 张量并行数，一般等于单机卡数 PP 1 流水线并行数，一般等于节点数量 ORIGINAL_HF_WEIGHT /home/ma-user/work/model/Llama2-13B 原始Hugging Face模型路径

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明
训练中的权重转换说明 - AI开发平台ModelArts

Megatron mg2hf：用于Megatron 转 Hugging Face TP 8 张量并行数，一般等于单机卡数 PP 1 流水线并行数，一般等于节点数量 ORIGINAL_HF_WEIGHT /home/ma-user/ws/tokenizers/Llama2-13B 原始Hugging

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
训练中的权重转换说明 - AI开发平台ModelArts

Megatron mg2hf：用于Megatron 转 Hugging Face TP 8 张量并行数，一般等于单机卡数 PP 1 流水线并行数，一般等于节点数量 ORIGINAL_HF_WEIGHT /home/ma-user/ws/llm_train/model/Llama2-13B 原始Hugging

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

"conversation_id": 1, "meta_instruction": "", "num_turns": 3, "chat": { "turn_1": { "Human": "<|Human|>: 如何保障工作中遵循正确的安全准则？<eoh>\n"

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
使用PyCharm ToolKit创建并调试训练作业 - AI开发平台ModelArts

在弹出的对话框中，设置训练作业相关参数，详细参数说明请参见表1。表1 训练作业配置参数说明参数说明 Job Name 训练作业的名称。系统会自动生成一个名称，您可以根据业务需求重新命名，命名规则如下：支持1~64位字符。并包含大小写字母、数字、中划线（-）或下划线（_）。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 创建调试训练作业
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

"conversation_id": 1, "meta_instruction": "", "num_turns": 3, "chat": { "turn_1": { "Human": "<|Human|>: 如何保障工作中遵循正确的安全准则？<eoh>\n"

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
创建和保存Pascal VOC文件 - AI开发平台ModelArts

"@modelarts:shape": "bndbox", "@modelarts:feature": [[347, 186], [382, 249]]}, {"@modelarts:color":

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > Manifest管理
（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

x版本，推荐使用3.7.x版本。如果本地安装SDK时，出现如下图中的报错，需要先安装3.1.1版本的futures依赖包，然后再重新安装SDK。 pip install futures==3.1.1 图1 安装ModelArts SDK报错信息当pip版本>=24.1版本时，会对

 帮助中心 > AI开发平台ModelArts > SDK参考
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

"conversation_id": 1, "meta_instruction": "", "num_turns": 3, "chat": { "turn_1": { "Human": "<|Human|>: 如何保障工作中遵循正确的安全准则？<eoh>\n"

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
查询所有Notebook实例列表 - AI开发平台ModelArts

project_id 是 String 用户项目ID，获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 feature 否 String 实例类别，默认为NOTEBOOK。枚举值如下： DEFAULT：CodeLab免费规格实例，每个用户最多只能创建一个。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理

总条数： 1160

上一页
1
...
39
40
41
...
58
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：训练常见问题 - AI开发平台ModelArts

日志提示"Permission denied" - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

FLUX.1基于DevSever适配PyTorch NPU Finetune&Lora训练指导（6.3.911） - AI开发平台ModelArts

SDXL基于Lite Server适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

LLaVA模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

基本配置 - AI开发平台ModelArts

测试用户权限 - AI开发平台ModelArts

在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

使用PyCharm ToolKit创建并调试训练作业 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

创建和保存Pascal VOC文件 - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

查询所有Notebook实例列表 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线