搜索_华为云

查看训练作业资源占用情况 - AI开发平台ModelArts

资源占用情况表1 参数说明参数说明 cpuUsage cpu使用率。 gpuMemUsage gpu内存使用率。 gpuUtil gpu使用情况。 memUsage 内存使用率。 npuMemUsage npu内存使用率。 npuUtil npu使用情况。如何判断训练作业资源利用率高低

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
附录：部署常见问题 - AI开发平台ModelArts

memory size is not enough“的问题问题：容器共享内存不足解决方法：在启动docker的命令中增加“--shm-size=${memSize}“，其中memSize为要设置的共享内存大小，如2g。 --shm-size 2g \ 如何解决MindIE服务已退出情况下显存依然占用的问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

ma_container_gpu_mem_copy_util 表示内存带宽利用率。以GP Vnt1为例，其最大内存带宽为900 GB/sec，如果当前的内存带宽为450 GB/sec，则内存带宽利用率为50%。百分比（Percent） 0～100% NA NA NA GPU编码器利用率

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
将模型部署为批量推理服务 - AI开发平台ModelArts

result：文件处理结果，值为SUCCESSFUL或FAILED，分别代表成功与失败。 inference-loc：输出结果路径，result为SUCCESSFUL时有此字段，格式为“obs://{{桶名}}/{{对象名}}”。 error_message：错误信息，result为FAILED时有此字段。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
部署的在线服务状态为告警 - AI开发平台ModelArts

业务内存不正常。请检查推理代码是否存在内存溢出或者内存泄漏的问题。模型运行异常。请检查您的模型是否能正常运行。例如模型依赖的资源是否故障，需要排查推理日志。实例pod数量异常。如果您曾经找过运维人员删除过异常的实例pod，事件中可能会出现告警“服务异常，不正常的实例

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

监控周期 cpu_usage CPU使用率该指标用于统计ModelArts用户服务的CPU使用率。单位：百分比。 ≥ 0% ModelArts模型负载 1分钟 mem_usage 内存使用率该指标用于统计ModelArts用户服务的内存使用率。单位：百分比。 ≥ 0% ModelArts模型负载

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
配置Standard专属资源池可访问公网 - AI开发平台ModelArts

方式，使得专属资源池和已绑定EIP的弹性云服务器处于同一VPC内，实现专属资源池访问外网。前提条件已拥有需要部署SNAT的弹性云服务器。待部署SNAT的弹性云服务器操作系统为Linux操作系统。待部署SNAT的弹性云服务器网卡已配置为单网卡。步骤一：打通VPC 通过打通

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
查询训练作业的运行指标 - AI开发平台ModelArts

运行指标，可选值如下： cpuUsage（CPU使用率）、memUsage（物理内存使用率）、gpuUtil（GPU使用率）、gpuMemUsage（显存使用率）、npuUtil（NPU使用率）、npuMemUsage（NPU显存使用率）。 value Array of numbers

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
查询训练作业指定任务的运行指标 - AI开发平台ModelArts

String 运行指标，可选值如下： cpuUsage：CPU使用率 memUsage：物理内存使用率 gpuUtil：GPU使用率 gpuMemUsage：显存使用率 npuUtil：NPU使用率 npuMemUsage：NPU显存使用率 value Array of doubles 运行指标对应数值，1min统计一个平均值。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
Lite Server资源开通 - AI开发平台ModelArts

信息。表2 基础配置参数说明参数名称说明资源类型裸金属服务器是一款兼具弹性云服务器和物理机性能的计算类服务器，为您和您的企业提供专属的云上物理服务器。弹性云服务器是一种可随时自助获取、可弹性伸缩的云服务器，可帮助您打造可靠、安全、灵活、高效的应用环境，确保服务持久稳定运行，提升运维效率。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
查看Standard专属资源池详情 - AI开发平台ModelArts

在节点列表页面中，单击设置图标，支持对节点列表中显示的信息进行自定义。查看资源池规格在资源池详情页，切换到“规格”页签。您可以查看该资源池使用的资源规格以及该规格对应的数量，并可以调整容器引擎空间大小。图4 查看资源池规格（如果创建资源池时未设置容器引擎大小，则显示默认值）查看资源池监控

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
配置Lite Server网络 - AI开发平台ModelArts

单个弹性公网IP用于单个Server服务器：为单台Server服务器绑定一个弹性公网IP，该Server服务器独享网络资源。单个弹性公网IP用于多个Server服务器：一个VPC配置一个EIP（弹性公网IP），通过NAT网关配置进行EIP资源共享，实现该VPC下的所有Server服务器均可以通过该E

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
Lite Server使用流程 - AI开发平台ModelArts

相关名词解释名词含义裸金属服务器裸金属服务器是一款兼具虚拟机弹性和物理机性能的计算类服务，为您和您的企业提供专属的云上物理服务器，为核心数据库、关键应用系统、高性能计算、大数据等业务提供卓越的计算性能以及数据安全。由于Server是一台裸金属服务器，在ModelArts管理控

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
使用Gallery CLI配置工具上传文件 - AI开发平台ModelArts

复制出的信息为“ur5468675/test_cli_model1”，则该资产的“repo_id”为“ur5468675/test_cli_model1”。图1 复制完整资产名称获取待上传的文件名获取待上传的文件在服务器的绝对路径。上传单个文件在服务器执行如下命令，可以将服务器上的文件上传到AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

使用Gallery CLI配置工具下载文件在服务器（ModelArts Lite云服务器或者是本地Windows/Linux等服务器）上登录Gallery CLI配置工具后，通过命令“gallery-cli download”可以从AI Gallery仓库下载资源。命令说明登录Gallery

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

Standard上运行GPU多机多卡训练作业操作流程准备工作：购买服务资源（VPC/SFS/OBS/SWR/ECS）配置权限创建专属资源池（打通VPC） ECS服务器挂载SFS Turbo存储在ECS中设置ModelArts用户可读权限安装和配置OBS命令行工具（可选）工作空间配置模型训练：

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
训练作业进程异常退出 - AI开发平台ModelArts

return code: 137 原因分析日志显示训练进程的退出码为137。训练进程表示用户的代码启动后的进程，所以这里的退出码是用户的训练作业代码返回的。常见的错误码还包括247、139等。退出码137或者247 可能是内存溢出造成的。请减少数据量、减少batch_size，优化代码，合理聚合、复制数据。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

WebSocket使得客户端和服务器之间的数据交换变得更加简单，允许服务端主动向客户端推送数据。在WebSocket API中，浏览器和服务器只需要完成一次握手，两者之间就可以建立持久性的连接，并进行双向数据传输。前提条件在线服务部署时需选择“升级为WebSocket”。在线

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
ECS获取基础镜像 - AI开发平台ModelArts

ECS获取基础镜像 Step1 登录ECS服务器根据创建ECS服务器创建完成ECS服务器后，单击“远程登录”，可使用华为CloudShell远程登录。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。 Step2 创建镜像组织在SWR服务页面创建镜像组织。图1

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像

总条数： 1596

上一页
1
2
3
4
5
...
80
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看训练作业资源占用情况 - AI开发平台ModelArts

附录：部署常见问题 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

将模型部署为批量推理服务 - AI开发平台ModelArts

部署的在线服务状态为告警 - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

配置Standard专属资源池可访问公网 - AI开发平台ModelArts

查询训练作业的运行指标 - AI开发平台ModelArts

查询训练作业指定任务的运行指标 - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

查看Standard专属资源池详情 - AI开发平台ModelArts

配置Lite Server网络 - AI开发平台ModelArts

Lite Server使用流程 - AI开发平台ModelArts

使用Gallery CLI配置工具上传文件 - AI开发平台ModelArts

使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

ECS获取基础镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线