检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
的详情。您可以在“资源占用情况”页签查看到如下指标信息。 CPU:CPU使用率(cpuUsage)百分比(Percent)。 MEM:物理内存使用率(memUsage)百分比(Percent)。 GPU:GPU使用率(gpuUtil)百分比(Percent)。 GPU_MEM:显
特权池信息数据显示均为0%如何解决? 问题现象 特权池基本信息页面数据均显示为0%(如CPU使用率、内存使用率、加速卡使用率、加速卡显存使用率)。 原因分析 原因是集群没有安装ICAgent。新建特权池时默认会安装ICAgent,可能由于用户自行卸载ICAgent,导致资源池数据显示异常。
创建训练作业时提示“对象目录大小/数量超过限制”,如何解决? 问题分析 创建训练作业选择的代码目录有大小和文件个数限制。 解决方法 将代码目录中除代码以外的文件删除或存放到其他目录,保证代码目录大小不超过128MB,文件个数不超过4096个。 父主题: 创建训练作业
HBM单比特错误隔离内存页数量 NPU卡HBM单比特错误隔离内存页数量 count instance_id,npu npu_hbm_double_bit_isolated_pages_cnt HBM多比特错误隔离内存页数量 NPU卡HBM多比特错误隔离内存页数量 count instance_id,npu
“nv_peer_mem”是一个Linux内核模块,它允许支持P2P(Peer-to-Peer)的NVIDIA GPU直接进行内存访问(DMA)。这意味着数据可以直接在多个GPU之间传输,而无需经过CPU或系统内存,这可以显著降低延迟并提高带宽。 所以既然nccl-tests能正常测试, 但是达不到预期,可能是nv_peer_mem异常。
推理服务CPU规格使用时长(单节点为统计基础单元) 默认无限制,支持设置1~60000。 分钟 推理服务GPU规格使用时长(单节点为统计基础单元) 默认无限制,支持设置1~60000。 分钟 训练作业CPU规格训练核数 默认无限制,支持设置1~10000。 核 训练作业GPU规格训练卡数
镜像的部署参数。 计算规格选择 - 按需选择计算规格。单击“选择”,在弹窗中选择资源规格并设置运行时长控制,单击“确定”。 在“所在区”选择计算规格所在的区域。默认显示全部区域的计算规格。 选择计算规格不可用的资源会置灰。右侧“配置信息”区域会显示计算规格的详细数据,AI Gal
实例进行使用。 切换规格。 CodeLab支持CPU和GPU两种规格,在右侧区域,单击切换规格,修改规格类型。 图3 切换规格 资源监控。 在使用过程中,如果想了解资源使用情况,可在右侧区域选择“Resource Monitor”,展示“CPU使用率”和“内存使用率”。 图4 资源监控
排查是否符合业务资源使用预期,如果业务无问题,无须处理。 GPU内存带宽利用率 ma_container_gpu_mem_copy_util 表示内存带宽利用率。以英伟达GP Vnt1为例,其最大内存带宽为900 GB/sec,如果当前的内存带宽为450 GB/sec,则内存带宽利用率为50%。 百分比(Percent)
在节点列表页面中,单击设置图标,支持对节点列表中显示的信息进行自定义。 查看资源池规格 在资源池详情页,切换到“规格”页签。您可以查看该资源池使用的资源规格以及该规格对应的数量,并可以调整容器引擎空间大小。 图4 查看资源池规格(如果创建资源池时未设置容器引擎大小,则显示默认值) 查看资源池监控
参数类型 描述 flavor_id String 资源规格的ID。 flavor_name String 资源规格的名称。 max_num Integer 资源规格的最大节点数。 flavor_type String 资源规格的类型。可选值如下: CPU GPU Ascend billing
查询引擎规格列表 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 from modelarts.session import Session from modelarts.estimatorV2
参数类型 描述 flavor_id String 资源规格的ID。 flavor_name String 资源规格的名称。 max_num Integer 资源规格的最大节点数。 flavor_type String 资源规格的类型。可选值如下: CPU GPU Ascend billing
查询作业引擎规格 功能介绍 查看指定作业的引擎类型和版本。 创建训练作业和预测作业需要指定引擎规格。 URI GET /v1/{project_id}/job/ai-engines 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String
查询资源规格列表 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 from modelarts.session import Session from modelarts.estimatorV2
产品变更公告 网络调整公告 预测API的域名停用公告
选择“我的服务”页签。 选择模型服务,单击操作列的“更多 > 服务升级”。 在服务升级页面,配置升级参数。 “模型设置”:单击“更换”,选择原模型下的其他模型版本。 其他参数不可修改,但可以了解原模型服务的配置。 配置完成后,单击“提交”启动服务升级。 父主题: 管理我的服务
为系统需要重新从磁盘加载数据到内存中)。关闭表示不启用缓存清理功能。 大页内存:开启表示配置使用透明大页功能。大页内存是一种内存管理机制,可以通过增大内存页的大小来提高系统性能。透明大页是动态分配大页内存的机制,可以简化大页内存的管理。开启大页内存也是一种应用调优手段,在大部分场
排查是否符合业务资源使用预期,如果业务无问题,无需处理。 GPU内存带宽利用率 ma_container_gpu_mem_copy_util 表示内存带宽利用率。以GP Vnt1为例,其最大内存带宽为900 GB/sec,如果当前的内存带宽为450 GB/sec,则内存带宽利用率为50%。 百分比(Percent)
盘的写入模式。 新增规格 - 支持添加多个规格。限制如下: 当选择多个相同规格时,可打开高级选项指定节点池名称,至多只有一个可不指定节点池名称。 选择多个规格的CPU架构必须相同。例如都是X86,或者都是ARM。 如果选择了多个GPU或NPU规格,由于不同规格的参数网络平面不互通