搜索_华为云

文件传输（推荐） - AI开发平台ModelArts

夹最后一级目录复制至目的文件夹下，仅对文件夹复制有效。表2 失败相应说明参数参数类型描述 error_code String 调用失败时的错误码。调用成功时无此字段。 error_msg String 调用失败时的错误信息。调用成功时无此字段。父主题： OBS管理

 帮助中心 > AI开发平台ModelArts > SDK参考 > OBS管理
训练作业权限 - AI开发平台ModelArts

训练作业权限表1 训练作业（新版）细化权限说明权限对应API接口授权项依赖的授权项 IAM项目企业项目创建训练作业 POST /v2/{project_id}/training-jobs modelarts:trainJob:create swr:repository:listTags

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
工作空间管理权限 - AI开发平台ModelArts

工作空间管理权限表1 工作空间管理细化权限说明权限对应API接口授权项依赖的授权项 IAM项目企业项目创建工作空间 POST /v1/{project_id}/workspaces modelarts:workspace:create - √ √ 查询工作空间列表 GET

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

调优工具链，最大程度减少客户自行配置环境的复杂度。范围本文涉及PyTorch训练的单卡和分布式业务迁移到昇腾的业务范围。当前针对常见的开源LLM/AIGC等领域的开源模型，ModelArts已经提供了迁移好的开箱即用模型，且保证了较优的精度和性能。如果用户业务同样使用这些开源

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

装新版本的NVIDIA驱动和CUDA版本（2）执行nvidia-smi失败，提示Failed to initialize NVML: Driver/library version mismatch 处理方法执行命令：lsmod | grep nvidia，查看内核中是否残留旧版nvidia，显示如下：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
MoXing常用操作的样例代码 - AI开发平台ModelArts

在，则直接追加。当被追加的源文件比较大时，例如“obs://bucket_name/obs_file.txt”文件大小超过5MB时，追加一个OBS文件的性能比较低。如果以写入模式或追加模式打开文件，当调用write方法时，待写入内容只是暂时的被存在的缓冲区，直到关闭文件对象（

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
配置ModelArts委托权限 - AI开发平台ModelArts

在弹出的“添加授权”窗口中，选择：授权对象类型：所有用户委托选择：新增委托权限配置：普通用户选择完成后勾选“我已经详细阅读并同意《ModelArts服务声明》”，然后单击“创建”。图1 配置委托访问授权完成配置后，在ModelArts控制台的权限管理列表，可查看到此账号的委托配置信息。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置 > 权限配置
OOM导致训练作业失败 - AI开发平台ModelArts

initialized”。原因分析按照之前支撑的经验，出现该问题的可能原因如下：绝大部分都是确实是显存不够用。还有较少数原因是节点故障，跑到特定节点必现OOM，其他节点正常。处理方法如果是正常的OOM，就需要修改一些超参，释放一些不需要的tensor。修改网络参数，比如bat

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
删除模型 - AI开发平台ModelArts
删除模型 - AI开发平台ModelArts

示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。方式1：根据导入模型或模型调试生成的模型对象进行模型对象删除 1 2 3 4 5 6 from modelarts.session import

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge - AI开发平台ModelArts

response from daemon: Cannot pause container xxx”。原因分析执行镜像保存时，Notebook中存在状态为D的进程，会导致镜像保存失败。解决方案在Terminal里执行ps -aux命令检查进程。执行kill -9 <pid>命令将相关进程结束后，再次执行镜像保存即可。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
服务管理权限 - AI开发平台ModelArts

服务管理权限表1 服务管理细化权限说明权限对应API接口授权项依赖的授权项 IAM项目企业项目部署模型服务 POST /v1/{project_id}/services modelarts:service:create - √ √ 查询模型服务列表 GET /v1/

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

提示找不到运行的主文件：no such file or directory。原因分析根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。处理方法需要排查执行命令的启动文件目录是否正确，具体操作如下：在ModelArts管理控制台，使用训练的自定义镜像创建训

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
Notebook提示磁盘空间已满 - AI开发平台ModelArts

致磁盘空间不足。磁盘配额不足。处理方法查看虚拟机所使用的存储空间，再查看回收站文件占用内存，根据实际删除回收站里不需要的大文件。在Notebook实例详情页，查看实例的存储容量。执行如下命令，排查虚拟机所使用的存储空间，一般接近存储容量，请排查回收站占用内存。 cd /home/ma-user/work

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
投机推理使用说明 - AI开发平台ModelArts

机流程的时间也仅为大模型的1.5倍左右（投机步数设置为3步）。而这一次投机流程，平均可以生成3个有效token，即用1.5倍的时间代价，生成了3倍的token数量，性能提升了100%。投机推理参数设置在启动离线或在线推理服务时参考表1所示配置参数，使用投机推理功能。表1 投机推理相关参数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 投机推理
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

subprocess” 问题现象在使用pytorch启动多进程的时候，出现如下报错： RuntimeError: Cannot re-initialize CUDA in forked subprocess 原因分析出现该问题的可能原因如下： multiprocessing启动方式有误。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

其相关的内核模块。在Linux系统上安装NVIDIA显卡驱动后，需要通过“nvidia-modprobe”命令来加载相应的内核模块，以便让显卡驱动正常工作。通常情况下，在安装NVIDIA驱动时，会自动执行“nvidia-modprobe”命令，将必要的内核模块加载到系统中。但有

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
Lite Cluster资源管理介绍 - AI开发平台ModelArts

后，由于用户AI开发业务的变化，对于资源池资源量的需求可能会产生变化，面对这种场景，ModelArts提供了扩缩容功能，用户可以根据自己的需求动态调整。升级Lite Cluster资源池驱动：当资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GP

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
ECS获取基础镜像 - AI开发平台ModelArts

docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

//pytorch.org/get-started/previous-versions/ 如果环境中装了多版本的cuda，可以排查LD_LIBRARY_PATH中的cuda优先级，需要手动调整下。举例：如果cuda只兼容cuda-9.1，查询到LD_LIBRARY_PATH=/usr/local/cuda-11

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
昇腾云服务6.3.911版本说明 - AI开发平台ModelArts

获取路径：Support-E，在此路径中查找下载ModelArts 6.3.911 版本。说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。支持的特性表1 本版本支持的特性说明分类软件包特性说明参考文档

 帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明

总条数： 2130

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

文件传输（推荐） - AI开发平台ModelArts

训练作业权限 - AI开发平台ModelArts

工作空间管理权限 - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

MoXing常用操作的样例代码 - AI开发平台ModelArts

配置ModelArts委托权限 - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

删除模型 - AI开发平台ModelArts

镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge - AI开发平台ModelArts

服务管理权限 - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

投机推理使用说明 - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

Lite Cluster资源管理介绍 - AI开发平台ModelArts

ECS获取基础镜像 - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

昇腾云服务6.3.911版本说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线