搜索_华为云

日志提示“UnboundLocalError: local variable 'epoch'” - AI开发平台ModelArts

一样，则会报错。如果第二次增量训练的epochs数值小于第一次常规训练的epochs数值，则增量训练会出现少训练一个epoch的现象。处理方法第二次增量训练设置的epochs数值需要大于第一次常规训练设置的epochs数值。举例：对一个已经完成的训练作业（假设训练了50个

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

出现该问题的可能原因如下：用户的自定义镜像中无ascend_check工具，导致启动预检失败。用户的自定义镜像中的ascend相关工具不可用，导致预检失败。处理方法通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_CODE”并将对应的值设置成0，就可以将预检功能关闭。环境变量说明参考查看训练容器环境变量。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
查看日志和性能 - AI开发平台ModelArts

# 训练过程日志 |──preprocessed_data # 训练过程预处理后数据集目录 |──saved_checkpoints # 训练生成权重文件父主题：主

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912）
工作负载Pod异常 - AI开发平台ModelArts

复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod，需要先找到config.yaml所在路径，并执行以下命令。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

个时间完成的，然后有的节点没有复制完，其他节点进行torch.distributed.init_process_group()导致超时。处理方法如果是多个节点复制不同步，并且没有barrier的话导致的超时，可以在复制数据之前，先进行torch.distributed.ini

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
ModelArts在线服务和边缘服务有什么区别？ - AI开发平台ModelArts

智能边缘平台（Intelligent EdgeFabric）通过纳管您的边缘节点，提供将云上应用延伸到边缘的能力，联动边缘和云端的数据，满足客户对边缘计算资源的远程管控、数据处理、分析决策、智能化的诉求。 ModelArts支持将模型通过智能边缘平台IEF，在边缘节点将模型部署为一个Web服务。您可以通过API接口访问边缘服务。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

在训练中，程序会自动执行对数据集预处理、权重转换、执行训练等操作，具体可通过训练启动脚本说明和参数配置、训练的数据集预处理说明、训练的权重转换说明了解其中的操作。训练完成后在SFS Turbo中保存训练的模型结果。（多机情况下，只有在rank_0节点进行数据预处理，权重转换等工作，所以原

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
ModelArts权限管理基本概念 - AI开发平台ModelArts

练作业，则该用户必须拥有 "modelarts:trainJob:create" 的权限才可以完成操作（无论界面操作还是API调用）。关于如何给一个用户赋权（准确讲是需要先将用户加入用户组，再面向用户组赋权），可以参考IAM的文档《权限管理》。而ModelArts还有一个特殊的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理
权限管理 - AI开发平台ModelArts
权限管理 - AI开发平台ModelArts

练作业，则该用户必须拥有 "modelarts:trainJob:create" 的权限才可以完成操作（无论界面操作还是API调用）。关于如何给一个用户赋权（准确讲是需要先将用户加入用户组，再面向用户组赋权），可以参考IAM的文档《权限管理》。而ModelArts还有一个特殊的

 帮助中心 > AI开发平台ModelArts > 产品介绍
使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

主文件：no such file or directory。原因分析根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。处理方法需要排查执行命令的启动文件目录是否正确，具体操作如下：在ModelArts管理控制台，使用训练的自定义镜像创建训练作业时，“创建方

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
日志提示"write line error" - AI开发平台ModelArts

0G。 “/cache”目录满了，一般是3.5T存储空间满了，具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小。处理方法如果在训练作业的工作目录下有core文件生成，可以在启动脚本最前面加上如下代码，来关闭core文件产生。 import os os.system("ulimit

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
OOM导致训练作业失败 - AI开发平台ModelArts

按照之前支撑的经验，出现该问题的可能原因如下：绝大部分都是确实是显存不够用。还有较少数原因是节点故障，跑到特定节点必现OOM，其他节点正常。处理方法如果是正常的OOM，就需要修改一些超参，释放一些不需要的tensor。修改网络参数，比如batch_size、hide_layer、cell_nums等。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
删除镜像 - AI开发平台ModelArts
删除镜像 - AI开发平台ModelArts

无响应参数状态码：200 表3 响应Body参数参数参数类型描述 arch String 该镜像所支持处理器架构类型。枚举值如下： X86_64：x86处理器架构。 AARCH64：ARM体系架构。 create_at Long 镜像创建的时间，UTC毫秒。 description

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
查询单个样本信息 - AI开发平台ModelArts

alo_name String 别名。 id Integer 原因ID。 reason String 原因描述。 suggestion String 处理建议。表5 Worker 参数参数类型描述 create_time Long 创建时间。 description String 标注

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
更新团队标注验收任务状态 - AI开发平台ModelArts

alo_name String 别名。 id Integer 原因ID。 reason String 原因描述。 suggestion String 处理建议。表7 Worker 参数参数类型描述 create_time Long 创建时间。 description String 标注

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询单个智能标注样本的信息 - AI开发平台ModelArts

alo_name String 别名。 id Integer 原因ID。 reason String 原因描述。 suggestion String 处理建议。表4 Worker 参数参数类型描述 create_time Long 创建时间。 description String 标注

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

安装docker。如果挂载了GPU，则会安装nvidia-docker2，用以将GPU挂载到docker容器中。制作自定义镜像这一节描述如何编写一个Dockerfile，并据此构建出一个新镜像在Notebook创建实例并使用。关于Dockerfile的具体编写方法，请参考官网。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

个显卡都需要加载相应的内核模块才能正常工作。在这种情况下，也需要手动执行“nvidia-modprobe”命令来加载所有必要的内核模块。处理方法方案1：操作系统内核重新加载nvidia_uvm。 sudo rmmod nvidia_uvm sudo modprobe nvidia_uvm

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
故障恢复 - AI开发平台ModelArts
故障恢复 - AI开发平台ModelArts

用户部署的在线推理服务运行过程中，如发生硬件故障导致推理实例故障，ModelArts会自动检测到并迁移受影响实例到其它可用节点，实例启动后恢复推理请求处理能力。故障的硬件节点会自动隔离不再调度和运行推理服务实例。父主题：安全

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
查询团队标注的样本信息 - AI开发平台ModelArts

alo_name String 别名。 id Integer 原因ID。 reason String 原因描述。 suggestion String 处理建议。表5 Worker 参数参数类型描述 create_time Long 创建时间。 description String 标注

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）

总条数： 1163

上一页
1
...
53
54
55
...
59
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“UnboundLocalError: local variable 'epoch'” - AI开发平台ModelArts

训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

ModelArts在线服务和边缘服务有什么区别？ - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

ModelArts权限管理基本概念 - AI开发平台ModelArts

权限管理 - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

日志提示"write line error" - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

删除镜像 - AI开发平台ModelArts

查询单个样本信息 - AI开发平台ModelArts

更新团队标注验收任务状态 - AI开发平台ModelArts

查询单个智能标注样本的信息 - AI开发平台ModelArts

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

故障恢复 - AI开发平台ModelArts

查询团队标注的样本信息 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线