检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
扩缩容Lite Cluster资源池 场景介绍 当Lite Cluster资源池创建完成,使用一段时间后,由于用户业务的变化,对于资源池资源量的需求可能会产生变化,面对这种场景,ModelArts Lite Cluster资源池提供了扩缩容功能,用户可以根据需求动态调整资源。 缩容操作可能影
查询专属资源池作业统计信息 功能介绍 查询专属资源池作业统计信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/stat
Cluster资源池基本信息 管理Lite Cluster资源池标签 通过给资源池添加标签,可以标识云资源,便于快速搜索资源池。 在ModelArts管理控制台的左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”。 在Lite资源池列表中,单击资源池名称进入资源池详情页面。
内存使用量。 nvidia.com/gpu String GPU资源使用量。 huawei.com/ascend-snt3 String 昇腾资源使用量。 huawei.com/ascend-snt9 String 昇腾资源使用量。 状态码:400 表6 响应Body参数 参数 参数类型
中选择“AI专属资源池 > 弹性集群 Cluster”,在“弹性集群”页面,选择“Lite资源池”页签,查看资源池列表。 在资源池列表中,选择需要进行驱动升级的资源池“ > 驱动升级”。 图1 驱动升级 在“驱动升级”弹窗中,会显示当前专属资源池的驱动类型、实例数、当前版本、目标
ModelArts控制台为什么能看到创建失败被删除的专属资源池? 在控制台页面操作删除专属资源池后,后端服务需要进行资源实例释放。在资源实例释放过程中,用户依然可以查询到资源池。如果需要创建专属资源池,建议等待5min后再创建,且不要使用已创建过的专属资源池名称来命名新建的专属资源池。如果做UI自动化测试,建议用例用随机串替代。
ModelArts Standard资源监控 ModelArts Standard资源监控概述 在ModelArts控制台查看监控指标 在AOM控制台查看ModelArts所有监控指标 使用Grafana查看AOM中的监控指标
调用失败时的错误码,具体请参见错误码,调用成功时无此字段。 error_solution String 调用失败时的提示解决信息,调用成功时无此字段。 父主题: 资源和引擎规格接口
Standard资源池节点故障定位 节点故障定位 对于Standard资源池,ModelArts平台在识别到节点故障后,通过给K8S节点增加污点的方式(taint)将节点隔离避免新作业调度到该节点而受到影响,并且使本次作业不受污点影响。当前可识别的故障类型如下,可通过隔离码及对应检测方法定位故障。
监控Lite Cluster资源:ModelArts支持使用AOM和Prometheus对资源进行监控,方便您了解当前的资源使用情况。 释放Lite Cluster资源:针对不再使用的Lite Cluster资源,您可以释放资源。 图1 Lite Cluster资源管理介绍 父主题: Lite
Integer 作业资源规格总数。 specs specs结构数组 资源规格参数列表,如表4所示。 表4 specs属性列表说明 参数 参数类型 说明 spec_id Long 资源规格的ID。 core String 资源规格的核数。 cpu String 资源规格CPU内存。 gpu_num
Cluster资源池节点驱动状态处于运行中,且专属池中的节点需要含有GPU/Ascend资源。 节点驱动升级操作 登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”,在“弹性集群”页面,选择“Lite资源池”页签,查看资源池列表。 进
监控Lite Server资源 使用CES监控Lite Server资源 使用DCGM监控Lite Server资源 父主题: Lite Server资源管理
监控Lite Cluster资源 使用AOM查看Lite Cluster监控指标 使用Prometheus查看Lite Cluster监控指标 父主题: Lite Cluster资源管理
操作。 添加/编辑/删除资源标签 资源标签用于方便管理资源的计费账单。 勾选节点名称,选择节点列表上方的“添加/编辑资源标签”或“删除资源标签”,操作单个节点或批量操作节点资源标签。 查找搜索节点 在节点管理页面的搜索栏中,支持通过节点名称、IP地址、资源标签等关键字搜索节点。 设置节点列表显示信息
Cluster监控指标 ModelArts Lite Cluster会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况并上报到AOM,用户可直接在AOM上查看默认配置好的基础指标,也支持用户自定义一些指标项上报到AOM查看。 此外,还支持在ModelArts
基础权限开通需要登录管理员账号,为子用户账号开通使用资源池所需的基础权限。 登录统一身份认证服务管理控制台。 单击目录左侧“用户组”,然后在页面右上角单击“创建用户组”。 填写“用户组名称”并单击“确定”。 在操作列单击“用户组管理”,将需要配置权限的用户加入用户组中。 单击用户组名称,进入用户组详情页。
ModelArts训练专属资源池如何与SFS弹性文件系统配置对等链接? 配置训练专属资源池与SFS弹性文件系统的对等链接,需要资源池打通VPC,使得资源池与SFS弹性文件系统所配置的VPC相同。配置完成后,在创建训练作业时,就可以看到SFS的配置选项。 打通VPC步骤请参考打通VPC。
ModelArts Standard资源管理 Standard资源池功能介绍 创建Standard专属资源池 管理Standard专属资源池
TMOUT=0这个命令在SSH连接Linux服务器时的作用是设置会话的空闲超时时间为0,意味着不会因为空闲而自动断开连接。默认情况下,SSH连接可能会在一段时间没有操作后自动断开,这是为了安全考虑。但是,如果您正在进行需要长时间保持连接的任务,可以使用这个命令来防止连接因为空闲而断开。您可