搜索_华为云

查询资源实时利用率 - AI开发平台ModelArts

String 统计间隔，1s表示1秒，1m表示1分钟，1h为1小时。表7 Value 参数参数类型描述 cpu String cpu量，即计算资源量。 memory String 内存。 tnt004 String GPU卡的数量。表8 ResourceMetricsMetadata

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
multi-lora - AI开发平台ModelArts
multi-lora - AI开发平台ModelArts

16、32、64，选择lora1与lora2中rank数量的较大值，比如lora1对应16rank，lora2对应32rank，挂载lora的最大rank数量为32。 --max-loras表示支持的最大lora个数，最大32。 --max-cpu-loras要求配置和--max-loras相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

Step1 创建ECS 下文中介绍如何在ECS中构建一个推理镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注意：CPU架构必须选择鲲鹏计算，镜像推荐选择EulerOS。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 准备工作
查询节点列表 - AI开发平台ModelArts

NodeResource object 节点可用资源量信息。表9 NodeResource 参数参数类型描述 cpu String CPU资源量。 memory String 内存资源量。 nvidia.com/gpu String GPU节点的GPU资源量。 huawei.com/ascend-snt3

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
ModelArts Standard资源监控概述 - AI开发平台ModelArts

Standard训练作业：用户在运行训练作业时，可以查看训练作业占用的CPU、GPU或NPU资源使用情况。具体请参见训练资源监控章节。 Standard在线服务：用户将模型部署为在线服务后，可以通过监控功能查看该推理服务的CPU、内存或GPU等资源使用统计信息和模型调用次数统计，具体参见查看推理服务详情章节。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
查看诊断报告 - AI开发平台ModelArts

SyncBatchNorm分析 memory 内存维度当前识别的问题较为简单，通常是NPU HBM占用过大或者存在内存碎片导致自动触发昇腾内存释放/重整算子（Memory Operator Issues），进而影响了训练性能。下图展示了高优先级的内存算子问题，html中提示对于1号卡存在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

Step1 创建ECS 下文中介绍如何在ECS中构建一个推理镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注意：CPU架构必须选择鲲鹏计算，镜像推荐选择EulerOS。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

弹性文件服务（Scalable File Service，SFS）提供按需扩展的高性能文件存储（NAS），可以在裸金属服务器中通过网络协议挂载使用，SFS支持NFS和CIFS的网络协议。在使用裸金属服务器时，将数据放在SFS盘中，并发建立多个NFS链接、并发的读写数据、做大模型训练。但有时候会出

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
自定义镜像使用场景 - AI开发平台ModelArts

在使用ModelArts时存在与OBS的数据交互，您需要使用的数据可以存储至OBS。弹性云服务器弹性云服务器（Elastic Cloud Server，ECS）是由CPU、内存、操作系统、云硬盘组成的基础的计算组件。弹性云服务器创建成功后，您就可以像使用自己的本地PC或物理服务器一样，使用弹性云服务器。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
不同机型的对应的软件配套版本 - AI开发平台ModelArts

由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源，不同机型的节点对应的操作系统、适用的CCE集群版本等不相同，为了便于您制作镜像、升级软件等操作，本文对不同机型对应的软件配套版本做了详细介绍。裸金属服务器的对应的软件配套版本表1 裸金属服务器类型卡类型 RDMA网络协议

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
部署服务 - AI开发平台ModelArts
部署服务 - AI开发平台ModelArts

Integer 内存，单位为MB，仅支持整数。 cpu 是 Float CPU核数，支持配置小数，输入值不能小于0.01（最多支持2位小数，小数点后第3位做四舍五入处理）。 ascend_a310 否 Integer Ascend芯片个数，可选，默认不使用，不支持与gpu同时配置。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
实时同步用户所有DevServer实例状态 - AI开发平台ModelArts

arch String 服务器镜像架构类型。 ARM X86 image_id String 服务器镜像ID。 name String 服务器镜像名称。 server_type String 服务器类型。枚举值如下： BMS：裸金属服务器 ECS：弹性云服务器表9 ServerHpsInfo

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
查询用户所有DevServer实例列表 - AI开发平台ModelArts

arch String 服务器镜像架构类型。 ARM X86 image_id String 服务器镜像ID。 name String 服务器镜像名称。 server_type String 服务器类型。枚举值如下： BMS：裸金属服务器 ECS：弹性云服务器表9 ServerHpsInfo

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
终止训练作业 - AI开发平台ModelArts

式）。 cpu Cpu object cpu规格信息。 gpu Gpu object gpu规格信息。 npu Npu object Ascend规格信息。 memory Memory object 内存信息。 disk Disk object 磁盘信息。表46 Cpu 参数参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查看Standard专属资源池详情 - AI开发平台ModelArts

在资源池详情页，切换到“监控”页签。展示了CPU使用量、内存利用率、磁盘可用容量等使用情况，均以资源池的维度呈现。当资源池中有AI加速卡时，还会显示GPU、NPU的相关监控信息。图5 查看资源视图表1 监控指标名称指标含义单位取值范围 CPU使用率该指标用于统计测量对象的CPU使用率。百分比（Percent）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
创建诊断任务 - AI开发平台ModelArts

设置更大的进程数可以使能并行分析从而加快分析速度，但也会增大分析占用的cpu资源。通常单进程需要占用1U的cpu和一定cpu memory（取决于模型大小），请根据实际分析环境的资源规格调整该参数，避免因cpu资源占用过大或者OOM类问题导致的notebook实例异常。 5 di

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
附录：部署常见问题 - AI开发平台ModelArts

memory size is not enough“的问题问题：容器共享内存不足解决方法：在启动docker的命令中增加“--shm-size=${memSize}“，其中memSize为要设置的共享内存大小，如2g。 --shm-size 2g \ 如何解决MindIE服务已退出情况下显存依然占用的问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
查询训练作业详情 - AI开发平台ModelArts

式）。 cpu Cpu object cpu规格信息。 gpu Gpu object gpu规格信息。 npu Npu object Ascend规格信息。 memory Memory object 内存信息。 disk Disk object 磁盘信息。表45 Cpu 参数参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
训练作业性能降低 - AI开发平台ModelArts

平台上的代码经过修改优化、训练参数有过变更。训练的GPU硬件工作出现异常。处理方法请您对作业代码进行排查分析，确认是否对训练代码和参数进行过修改。检查资源分配情况（cpu/mem/gpu/snt9/infiniband）是否符合预期。通过CloudShell登录到Linux工作页面，检查GPU工作情况：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业性能问题
在ModelArts的Notebook的CodeLab中能否使用昇腾卡进行训练？ - AI开发平台ModelArts

在ModelArts的Notebook的CodeLab中能否使用昇腾卡进行训练？有两种情况。第一种，在ModelArts控制台的“总览”界面打开CodeLab，使用的是CPU或GPU资源，无法使用昇腾卡训练。第二种，如果是AI Gallery社区的Notebook案例，使用的资源是ASCEND的，“Run in

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook

总条数： 911

上一页
1
...
6
7
8
...
46
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查询资源实时利用率 - AI开发平台ModelArts

multi-lora - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

查询节点列表 - AI开发平台ModelArts

ModelArts Standard资源监控概述 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

自定义镜像使用场景 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

部署服务 - AI开发平台ModelArts

实时同步用户所有DevServer实例状态 - AI开发平台ModelArts

查询用户所有DevServer实例列表 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

查看Standard专属资源池详情 - AI开发平台ModelArts

创建诊断任务 - AI开发平台ModelArts

附录：部署常见问题 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

训练作业性能降低 - AI开发平台ModelArts

在ModelArts的Notebook的CodeLab中能否使用昇腾卡进行训练？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线