搜索_华为云

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。图2 volcano资源争抢解决方法：通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
查看日志和性能 - AI开发平台ModelArts

jsonl文件长传至可视化工具页面，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在第一个节点上。图2 Loss收敛情况（示意图） ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
工作负载Pod异常 - AI开发平台ModelArts

接为工作负载状态异常定位方法。通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。解决方法：通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
Pytorch Mox日志反复输出 - AI开发平台ModelArts

问题现象 ModelArts训练作业算法来源选用常用框架的Pytorch引擎，在训练作业运行时Pytorch Mox日志会每个epoch都打印Mox版本，具体日志如下： INFO:root:Using MoXing-v1.13.0-de803ac9 INFO:root:Using

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
工作负载Pod异常 - AI开发平台ModelArts

接为工作负载状态异常定位方法。通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。解决方法：通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

接为工作负载状态异常定位方法。通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。解决方法：通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

接为工作负载状态异常定位方法。通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。解决方法：通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
日志提示“ValueError: label - AI开发平台ModelArts

日志提示“ValueError: label_map not match” 问题现象日志提示“ValueError: label_map not match”，且打印出标签数据，如： ValueError: label_map not match. {1:'apple', 2:'orange', 3:'banana'

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

8作业连接OBS时反复出现提示错误问题现象基于TensorFlow-1.8启动训练作业，并在代码中使用“tf.gfile”模块连接OBS，启动训练作业后会频繁打印如下日志信息： Connection has been released. Continuing. Found secret key 原因分析

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

5-7b-sft-4096-lora-313T-20241028_164746-0.txt，打印吞吐值及训练参数 qwen2.5-7b-sft-4096-lora-313T-20241028_164746-npu_info-0.txt，打印训练过程中AICORE利用率本章节主要介绍训练性能训练任务流程，如需执行训练精度任务可参考训练精度测试

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 执行训练任务
日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” - AI开发平台ModelArts

object has no attribute 'dtype'。原因分析训练镜像的numpy版本与Notebook中不一致。处理方法在代码中打印出numpy的版本，查看是否为1.18.5版本，如果非该版本号则在代码开始处执行： import os os.system('pip install

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练？ - AI开发平台ModelArts

LE： 1 env | grep RANK 在训练作业中，您可以在训练启动脚本的首行加入如下代码，把RANK_TABLE_FILE的值打印出来： 1 os.system('env | grep RANK') 父主题： Standard模型训练

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

如果必须指定卡ID，需要注意1/2/4规格下，指定的卡ID与实际分配的卡ID不匹配的情况。如果上述方法还出现了错误，可以去notebook里面调试打印CUDA_VISIBLE_DEVICES变量，或者用以下代码测试，查看结果是否返回的是True。 import torch torch.cuda

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
创建自动模型优化的训练作业 - AI开发平台ModelArts

练的数据集上传至OBS目录。请准备好训练脚本，并上传至OBS目录。训练脚本开发指导参见开发用于预置框架训练的代码。在训练代码中，用户需打印搜索指标参数。已在OBS创建至少1个空的文件夹，用于存储训练输出的内容。由于训练作业运行需消耗资源，确保账户未欠费。确保您使用的OBS目录与ModelArts在同一区域。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
训练性能测试 - AI开发平台ModelArts

5-7b-sft-4096-lora-313T-20241028_164746-0.txt，打印吞吐值及训练参数 qwen2.5-7b-sft-4096-lora-313T-20241028_164746-npu_info-0.txt，打印训练过程中AICORE利用率执行性能比较脚本进入test-benchmark目录执行命令:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
训练性能测试 - AI开发平台ModelArts

5-7b-sft-4096-lora-313T-20241028_164746-0.txt，打印吞吐值及训练参数 qwen2.5-7b-sft-4096-lora-313T-20241028_164746-npu_info-0.txt，打印训练过程中AICORE利用率执行性能比较脚本进入test-benchmark目录执行命令:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
使用自定义镜像创建的训练作业一直处于运行中 - AI开发平台ModelArts

使用自定义镜像创建的训练作业一直处于运行中问题现象使用自定义镜像创建训练作业，训练作业的“状态”一直处于“运行中”。原因分析及处理办法日志打印如下内容，表示自定义镜像的CPU架构与资源池节点的CPU架构不一致。 standard_init_linux.go:215: exec user

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
ModelArts CLI命令功能介绍 - AI开发平台ModelArts

-P表示鉴权文件中的某一组鉴权信息，默认是DEFAULT； -D表示是否开启debug模式（默认关闭），当开启debug模式后，命令的报错堆栈信息将会打印出来，否则只会打印报错信息； -h表示显示命令的帮助提示信息。命令说明表1 ma-cli支持的命令命令命令详情 configure ma-c

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考

总条数： 866

上一页
1
2
3
4
5
...
44
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

Pytorch Mox日志反复输出 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

日志提示“ValueError: label - AI开发平台ModelArts

TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” - AI开发平台ModelArts

在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练？ - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

创建自动模型优化的训练作业 - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

使用自定义镜像创建的训练作业一直处于运行中 - AI开发平台ModelArts

ModelArts CLI命令功能介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线