搜索_华为云

镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge - AI开发平台ModelArts

from daemon: Cannot pause container xxx”。原因分析执行镜像保存时，Notebook中存在状态为D的进程，会导致镜像保存失败。解决方案在Terminal里执行ps -aux命令检查进程。执行kill -9 <pid>命令将相关进程结束后，再次执行镜像保存即可。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
删除数据集版本 - AI开发平台ModelArts

删除数据集版本删除数据集的指定版本。 dataset.delete_version(version_id) 示例代码删除数据集指定版本 from modelarts.session import Session from modelarts.dataset import Dataset

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集版本管理
日志提示“label - AI开发平台ModelArts

pbtxt。原因分析算法要求标注框为矩形标注框，提供的数据标注为非矩形，因此导致该错误发生。处理方法请您将数据的标注改为矩形的标注框。建议与总结在训练作业前，推荐您检查数据的标注是否符合算法要求（如物体检测类算法的标注框为矩形标注框）。父主题：预置算法运行故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

原因分析当昇腾规格的训练作业在ModelArts训练平台上运行时，会自动对Cann软件与Ascend驱动的版本匹配情况进行检查。如果平台发现版本不匹配，则会立即训练失败，避免后续无意义的运行时长。解决方案专属资源池的Ascend驱动版本需与训练基础镜像中的Cann软件版本版本匹配。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
在运行finetune_ds.sh 时遇到报错 - AI开发平台ModelArts

[type=int_from_float, input_value=15099494.4, input_type=float] 将deepspeed配置文件的 stage3_prefetch_bucket_size 参数值从 auto 改成整数15099494 父主题：常见错误原因和解决方法

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
文件传输（推荐） - AI开发平台ModelArts

复制有效。表2 失败相应说明参数参数类型描述 error_code String 调用失败时的错误码。调用成功时无此字段。 error_msg String 调用失败时的错误信息。调用成功时无此字段。父主题： OBS管理

 帮助中心 > AI开发平台ModelArts > SDK参考 > OBS管理
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

请检查CUDA_VISIBLE_DEVICES设置的值是否与作业规格匹配。例如您选择4卡规格的作业，实际可用的卡ID为0、1、2、3，但是您在进行cuda相关的运算时，例如"tensor.to(device="cuda:7")"，将张量搬到了7号GPU卡上，超过了实际可用的ID号。如果cuda相关运

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
如何关闭Mox的warmup - AI开发平台ModelArts

如何关闭Mox的warmup 问题现象训练作业mox的Tensorflow版本在运行的时候，会先执行“50steps” 4次，然后才会开始正式运行。 warmup即先用一个小的学习率训练几个epoch（warmup），由于网络的参数是随机初始化的，如果一开始就采用较大的学习率会出现数值不稳定的问题，这是使用warm

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
日志提示“no socket interface found” - AI开发平台ModelArts

EOUT，因此会导致通信速度慢且不稳定，最后造成IB通信断连，偶发上述现象。原因2：NCCL_SOCKET_IFNAME设置错误。当用户的NCCL版本低于2.14时，则需要手动设置NCCL_SOCKET_IFNAME环境变量。处理方法针对原因1，需要在代码中补充如下环境变量。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
TensorFlow在OBS写入TensorBoard到达5GB时停止 - AI开发平台ModelArts

每次触发flush时将该summary文件覆盖OBS上的原文件。当超过5GB后，由于达到了OBS单次导入文件大小的上限，导致无法继续写入。处理方法如果在运行训练作业的过程中出现该问题，建议处理方法如下：推荐使用本地缓存的方式来解决，使用如下方法： import moxing

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
欠费说明 - AI开发平台ModelArts
欠费说明 - AI开发平台ModelArts

认会收费的实例已全部停止或删除，同时需清理运行Notebook实例时存储到云硬盘中的数据和其他存储到对象存储服务中的数据，以免继续扣费。您可以在“费用中心 > 总览”页面设置“可用额度预警”功能，当可用额度、通用代金券和现金券的总额度低于预警阈值时，系统自动发送短信和邮件提醒。

帮助中心 > AI开发平台ModelArts > 计费说明
联网下载SimSun.ttf时可能会遇到网络问题 - AI开发平台ModelArts

/home/ma-user/work/model-dir/Qwen-VL-Chat/tokenization_qwen.py 中的 30-35 行注释 3. 然后增加一行直接读取本地的Simsun.ttf文件，写绝对路径 # FONT_PATH = try_to_load_from_cache

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
联网下载SimSun.ttf时可能会遇到网络问题 - AI开发平台ModelArts

/home/ma-user/work/model-dir/Qwen-VL-Chat/tokenization_qwen.py 中的 30-35 行注释 3. 然后增加一行直接读取本地的Simsun.ttf文件，写绝对路径 # FONT_PATH = try_to_load_from_cache

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
运行训练作业时提示URL连接超时 - AI开发平台ModelArts

timed out> 原因分析由于安全性问题在ModelArts上不能联网下载。处理方法如果在运行训练作业时提示连接超时，请您将需要联网下载的数据提前下载至本地，并上传至OBS中。父主题：外网访问限制

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
AI开发基本流程介绍 - AI开发平台ModelArts

、物体检测等等。不同的项目对数据的要求，使用的AI开发手段也是不一样的。准备数据数据准备主要是指收集和预处理数据的过程。按照确定的分析目的，有目的性的收集、整合相关数据，数据准备是AI开发的一个基础。此时最重要的是保证获取数据的真实可靠性。而事实上，不能一次性将所有数据都采

 帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
访问在线服务支持的传输协议 - AI开发平台ModelArts

访问在线服务支持的传输协议使用WebSocket协议的方式访问在线服务使用Server-Sent Events协议的方式访问在线服务父主题：将模型部署为实时推理作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
部署图像分类服务 - AI开发平台ModelArts

时后”、“自定义”。如果选择“自定义”的模式，可在右侧输入框中输入1~24范围内的任意整数。如果您购买了套餐包，计算节点规格可选择您的套餐包，同时在“配置费用”页签还可查看您的套餐包余量以及超出部分的计费方式，请您务必关注，避免造成不必要的资源浪费。完成资源配置后，单击“继续

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
使用AI市场物体检测YOLOv3 - AI开发平台ModelArts

'feat_2:0', 'feat_3': 'feat_3:0'} 不做数据集切分操作。如果选择未切分的数据集，算法将做纯训练场景；父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
云上迁移适配故障 - AI开发平台ModelArts

云上迁移适配故障无法导入模块训练作业日志中提示“No module named .*” 如何安装第三方包，安装报错的处理方法下载代码目录失败训练作业日志中提示“No such file or directory” 训练过程中无法找到so文件 ModelArts训练作业无法解析参数，日志报错

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？ - AI开发平台ModelArts

-done.flag显示成功上传，但远端未接收到。解决方法关闭VS Code所有窗口后，回到ModelArts控制台界面再次单击界面上的“VS Code接入”按钮。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理

总条数： 2212

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge - AI开发平台ModelArts

删除数据集版本 - AI开发平台ModelArts

日志提示“label - AI开发平台ModelArts

Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

在运行finetune_ds.sh 时遇到报错 - AI开发平台ModelArts

文件传输（推荐） - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

如何关闭Mox的warmup - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

TensorFlow在OBS写入TensorBoard到达5GB时停止 - AI开发平台ModelArts

欠费说明 - AI开发平台ModelArts

联网下载SimSun.ttf时可能会遇到网络问题 - AI开发平台ModelArts

联网下载SimSun.ttf时可能会遇到网络问题 - AI开发平台ModelArts

运行训练作业时提示URL连接超时 - AI开发平台ModelArts

AI开发基本流程介绍 - AI开发平台ModelArts

访问在线服务支持的传输协议 - AI开发平台ModelArts

部署图像分类服务 - AI开发平台ModelArts

使用AI市场物体检测YOLOv3 - AI开发平台ModelArts

云上迁移适配故障 - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线