搜索_华为云

日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” - AI开发平台ModelArts

signal: Killed BP。原因分析由于batch size过大，导致Dataloader进程退出。处理方法请调小batch size的数值。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
显存溢出错误 - AI开发平台ModelArts

fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。父主题：常见错误原因和解决方法

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
制作Lite Server服务器操作系统 - AI开发平台ModelArts

Server资源对应的裸金属服务器，对其进行关机操作。图1 对Lite Server服务器执行关机操作制作镜像单击制作镜像按钮。在制作镜像界面，填入制作镜像的名称、企业项目，并勾选协议，单击下一步即可制作镜像，制作成功的镜像会保存在租户的IMS镜像服务的私有镜像列表中。临时文件清理脚本

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？ - AI开发平台ModelArts

-done.flag显示成功上传，但远端未接收到。解决方法关闭VS Code所有窗口后，回到ModelArts控制台界面再次单击界面上的“VS Code接入”按钮。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
显存溢出错误 - AI开发平台ModelArts

fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。父主题：常见错误原因和解决方法

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
训练性能测试 - AI开发平台ModelArts

<cfgs_yaml_file> --baseline <baseline> --o <output_dir> <cfgs_yaml_file>：性能测试配置的yaml文件地址，指代码目录中performance_cfgs.yaml相对或绝对路径，此配置文件为训练最优配置参数。 --baseline

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练benchmark工具
分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

原因分析分布式Tensorflow不能使用“tf.variable”要使用“tf.get_variable”。处理方法请您将“启动文件”中的“tf.variable”替换为“tf.get_variable”。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
ModelArts版本配套关系表 - AI开发平台ModelArts

当前华为云中国站和国际站所有Region均已上线ModelArts 6.8.0版本。 ModelArts 6.8.0版本中针对Ascend Snt9B资源的周边依赖组件配套版本关系如下表所示。表1 ModelArts 6.8.0版本配套关系表强依赖组件 Ascend Snt9B配套版本 CCE

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
训练性能测试 - AI开发平台ModelArts

<cfgs_yaml_file> --baseline <baseline> --o <output_dir> <cfgs_yaml_file>：性能测试配置的yaml文件地址，指代码目录中modellink_performance_cfgs.yaml相对或绝对路径，此配置文件为训练最优配置参数。 --baseline

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.5.901） > 训练评测
如何在Notebook中安装外部库？ - AI开发平台ModelArts

w-1.8”的环境中使用pip安装Shapely。打开一个Notebook实例，进入到Launcher界面。在“Other”区域下，选择“Terminal”，新建一个terminal文件。在代码输入栏输入以下命令，获取当前环境的kernel，并激活需要安装依赖的python环境。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

connect to endpoint”。处理方法对于OBS连接不稳定的现象，通过增加代码来解决。您可以在代码最前面增加如下代码，让TensorFlow对ckpt和summary的读取和写入可以通过本地缓存的方式中转解决： import moxing.tensorflow as mox

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

问题现象服务部署、启动、升级和修改时，拉取镜像失败。原因分析节点磁盘不足，镜像大小过大。解决方法首先考虑优化镜像，减小节点磁盘的占用。优化镜像无法解决问题，请联系系统管理员处理。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
查询样本列表 - AI开发平台ModelArts

version_id 否 String 数据集版本ID。传入版本ID查询数据集相应版本的样本列表。 offset 否 Integer 分页列表的起始页，默认为0。 limit 否 Integer 指定每一页返回的最大条目数，取值范围[1,100]，默认为10。父主题：样本管理

 帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 样本管理
报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

ModelArts-xxx port xxx: Connection timed out"如何解决？问题现象原因分析原因分析一：实例配置的白名单IP与本地网络访问IP不符。解决方法：请修改白名单为本地网络访问IP或者去掉白名单配置。原因分析二：本地网络不通。解决方法：检查本地网络以及网络限制。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
运行训练作业时提示URL连接超时 - AI开发平台ModelArts

timed out> 原因分析由于安全性问题在ModelArts上不能联网下载。处理方法如果在运行训练作业时提示连接超时，请您将需要联网下载的数据提前下载至本地，并上传至OBS中。父主题：外网访问限制

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
训练性能测试 - AI开发平台ModelArts

<cfgs_yaml_file> --baseline <baseline> --o <output_dir> <cfgs_yaml_file>：性能测试配置的yaml文件地址，指代码目录中performance_cfgs.yaml相对或绝对路径，此配置文件为训练最优配置参数。 --baseline

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.5.901） > 训练benchmark工具
在线服务预测报错DL.0105 - AI开发平台ModelArts

not subscriptable”。原因分析根据报错日志分析，是因为一个float数据被当做对象下标访问了。处理方法将模型推理代码中的x[0][i]修改为x[i]，重新部署服务进行预测。父主题：服务预测

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
安装VS Code软件 - AI开发平台ModelArts

Code下载方式：下载地址: https://code.visualstudio.com/updates/v1_85 图1 VS Code的下载位置 VS Code版本要求：建议用户使用VS Code 1.85.2版本进行远程连接。 VS Code安装指导如下：图2 Windows系统下VS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

launch命令启动训练作业。创建训练作业的关键参数如表2所示。表2 创建训练作业（自定义镜像+torch.distributed.launch命令）参数名称说明创建方式选择“自定义算法”。启动方式选择“自定义”。镜像选择用于训练的PyTorch镜像。代码目录选择

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
ModelArts部署在线服务时，如何避免自定义预测脚本python依赖包出现冲突？ - AI开发平台ModelArts

ModelArts部署在线服务时，如何避免自定义预测脚本python依赖包出现冲突？导入模型时，需同时将对应的推理代码及配置文件放置在模型文件夹下。使用Python编码过程中，推荐采用相对导入方式（Python import）导入自定义包。如果ModelArts推理框架代码内

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署

总条数： 2456

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

制作Lite Server服务器操作系统 - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？ - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

ModelArts版本配套关系表 - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

如何在Notebook中安装外部库？ - AI开发平台ModelArts

保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

查询样本列表 - AI开发平台ModelArts

报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

运行训练作业时提示URL连接超时 - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

在线服务预测报错DL.0105 - AI开发平台ModelArts

安装VS Code软件 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

ModelArts部署在线服务时，如何避免自定义预测脚本python依赖包出现冲突？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线