搜索_华为云

批量服务输入/输出obs目录不存在或者权限不足 - AI开发平台ModelArts

3551：数据输入或者输出的obs目录不存在 ModelArts.3567：使用的数据输入或者输出obs目录存在，但是当前账号无权限访问处理方法 ModelArts.3551：到obs检查输入数据目录是否存在，如果不存在，请按照实际需要创建obs目录；如果检查发现目录存在，但依然报同样的错，可以提工单申请技术支持

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

45CAA1A71019C9D0 retry:0 原因分析出现该问题的可能原因如下: OBS服务的权限出现问题，导致无法正常读取数据处理方法请检查OBS权限配置，如未解决问题可参考OBS文档的已配置OBS权限，仍然无法访问OBS（403 AccessDenied）。建议与总结

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
克隆GitHub开源仓库文件到JupyterLab - AI开发平台ModelArts

输入有效的GitHub开源仓库地址 Clone仓库的过程中会将进度展示出来。图4 Clone仓库的过程 Clone仓库成功。图5 Clone仓库成功异常处理 Clone仓库失败。可能是网络原因问题。可以在JupyterLab的Terminal中通过执行git clone https://github

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发 > 上传文件至JupyterLab
安全边界 - AI开发平台ModelArts
安全边界 - AI开发平台ModelArts

ModelArts推理平台自身的安全合规性容器应用服务加固模型运行环境的版本更新和漏洞定期修复客户侧资源的授权，访问控制保证应用的供应链安全，依赖和自身的安全性，安全扫描、审计和准入校验机制，保证制品源头的安全性权限配置和凭证下发权限最小化模型运行时（自定义镜像，OBS模型和依赖）的安全性

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

个时间完成的，然后有的节点没有复制完，其他节点进行torch.distributed.init_process_group()导致超时。处理方法如果是多个节点复制不同步，并且没有barrier的话导致的超时，可以在复制数据之前，先进行torch.distributed.ini

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
业务代码问题 - AI开发平台ModelArts

ices_out_cuda_frame failed with error code 0” 训练作业失败，返回错误码139 训练作业失败，如何使用开发环境调试训练代码？日志提示“ '(slice(0, 13184, None), slice(None, None, None))'

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
训练作业失败，返回错误码139 - AI开发平台ModelArts

了错误。用户代码问题，出现了内存越界、非法访问内存空间的情况。未知系统问题导致，建议先尝试重建作业，重建后仍然失败，建议提工单定位。处理方法如果存在之前能跑通，什么都没修改，过了一阵跑不通的情况，先去排查跑通和跑不通的日志是否存在pip源更新了依赖包，如下图，安装之前跑通的老版本即可。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
删除镜像 - AI开发平台ModelArts
删除镜像 - AI开发平台ModelArts

无响应参数状态码：200 表3 响应Body参数参数参数类型描述 arch String 该镜像所支持处理器架构类型。枚举值如下： X86_64：x86处理器架构。 AARCH64：ARM体系架构。 create_at Long 镜像创建的时间，UTC毫秒。 description

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
训练作业进程被kill - AI开发平台ModelArts

在开发环境（notebook）申请相同规格的开发环境实例。在notebook调试用户代码，并找出问题的代码段。通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。，通过训练日志排查问题通过日志判断出问题的代码范围。修改代码，在问题代码段添加打印，输出更详细的日志信息。再次运行作业，判断出问题的代码段。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
查询镜像详情 - AI开发平台ModelArts

无响应参数状态码：200 表2 响应Body参数参数参数类型描述 arch String 该镜像所支持处理器架构类型。枚举值如下： X86_64：x86处理器架构。 AARCH64：ARM体系架构。 create_at Long 镜像创建的时间，UTC毫秒。 description

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

失败。重复打印日志，该日志表示正在读取远端存在的文件，当文件列表读取完成以后，开始下载数据。如果文件比较多，那么该过程会消耗较长时间。处理方法在创建训练作业时，数据可以保存到OBS上。不建议使用TensorFlow、MXNet、PyTorch的OBS接口直接从OBS上读取数据。

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

用户选择了1/2/4卡这些规格的作业，然后设置了CUDA_VISIBLE_DEVICES=‘1’这种类似固定的卡ID号，与实际选择的卡ID不匹配。处理方法尽量代码里不要去修改CUDA_VISIBLE_DEVICES变量，用系统默认里面自带的。如果必须指定卡ID，需要注意1/2/4规格

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

re-initialize CUDA in forked subprocess 原因分析出现该问题的可能原因如下： multiprocessing启动方式有误。处理方法可以参考官方文档，如下： """run.py:""" #!/usr/bin/env python import os import torch

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
修改训练作业优先级 - AI开发平台ModelArts

选择优先级1和2，配置了“设置作业为高优先级权限”的用户可选择优先级1~3。如何设置训练作业优先级在创建训练作业页面可以设置训练的“作业优先级”。取值为1~3，默认优先级为1，最高优先级为3。如何修改训练作业优先级在训练作业列表页面，选择“状态”为“等待中”的训练作业，单

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

主文件：no such file or directory。原因分析根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。处理方法需要排查执行命令的启动文件目录是否正确，具体操作如下：在ModelArts管理控制台，使用训练的自定义镜像创建训练作业时，“创建方

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
日志提示"write line error" - AI开发平台ModelArts

0G。 “/cache”目录满了，一般是3.5T存储空间满了，具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小。处理方法如果在训练作业的工作目录下有core文件生成，可以在启动脚本最前面加上如下代码，来关闭core文件产生。 import os os.system("ulimit

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
OOM导致训练作业失败 - AI开发平台ModelArts

按照之前支撑的经验，出现该问题的可能原因如下：绝大部分都是确实是显存不够用。还有较少数原因是节点故障，跑到特定节点必现OOM，其他节点正常。处理方法如果是正常的OOM，就需要修改一些超参，释放一些不需要的tensor。修改网络参数，比如batch_size、hide_layer、cell_nums等。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
InternVL2基于LIte Server适配PyTorch NPU训练指导（6.3.912） - AI开发平台ModelArts

0/2nd_finetune/internvl2_40b_hermes2_yi_34b_dynamic_res_2nd_finetune_lora.sh 多机训练 cd ${container_work_dir}/InternVL/internvl_chat # 8B lora GPUS=8

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
训练作业进程异常退出 - AI开发平台ModelArts

在开发环境（notebook）申请相同规格的开发环境实例。在notebook调试用户代码，并找出问题的代码段。通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。，通过训练日志排查问题通过日志判断出问题的代码范围。修改代码，在问题代码段添加打印，输出更详细的日志信息。再次运行作业，判断出问题的代码段。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
Notebook提示磁盘空间已满 - AI开发平台ModelArts

exceeded。原因分析在JupyterLab浏览器左侧导航删除文件后，会默认放入回收站占用内存，导致磁盘空间不足。磁盘配额不足。处理方法查看虚拟机所使用的存储空间，再查看回收站文件占用内存，根据实际删除回收站里不需要的大文件。在Notebook实例详情页，查看实例的存储容量。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障

总条数： 1276

上一页
1
...
52
53
54
...
64
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

批量服务输入/输出obs目录不存在或者权限不足 - AI开发平台ModelArts

训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

克隆GitHub开源仓库文件到JupyterLab - AI开发平台ModelArts

安全边界 - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

业务代码问题 - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

删除镜像 - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

查询镜像详情 - AI开发平台ModelArts

训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

修改训练作业优先级 - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

日志提示"write line error" - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

InternVL2基于LIte Server适配PyTorch NPU训练指导（6.3.912） - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线