检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
(可选)配置驱动 当专属资源池中的节点含有GPU/Ascend资源时,为确保GPU/Ascend资源能够正常使用,需要配置好对应的驱动。
资源超分对在ModelArts的Notebook实例有什么影响? Notebook超分,是指一个节点中CPU、内存共享的场景。为了充分利用资源,在专属池中存在超分情况。
如何查看ModelArts训练作业资源占用情况? 在ModelArts管理控制台,选择“模型训练>训练作业”,进入训练作业列表页面。在训练作业列表中,单击目标作业名称,查看该作业的详情。您可以在“资源占用情况”页签查看到如下指标信息。
查看资源池失败报错信息,存在"frozen deposit fail",表示账号冻结导致资源创建失败。检查账号状态和资源欠费情况,账号解冻后重新购买资源。 订单取消导致资源创建失败?
查询Notebook资源类型下的标签 功能介绍 查询用户当前project下Notebook实例类型下的标签,默认查询所有工作空间,无权限不返回标签数据。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。
“/cache”与代码目录共用资源,不同资源规格有不同的容量。 映射规则:当前不支持CPU配置cache盘;GPU与昇腾资源为单卡时,cache目录保持500G大小限制;除单卡外,cache盘大小与卡数有关,计算方式为卡数*500G,上限为3T。详细表1所示。
调试与训练 单机单卡 单机多卡 多机多卡 父主题: 专属资源池训练
ModelArts训练中不同规格资源“/cache”目录的大小是多少? 在创建训练作业时可以根据训练作业的大小选择资源。 ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源,不同资源规格有不同的容量。
创建网络 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群 Cluster”,进入“弹性集群 Cluster”页面。 切换到“网络”页签,单击“创建”,弹出“创建网络”页面。 图1 网络列表 在“创建网络”弹窗中填写网络信息。
上传镜像 操作场景 客户端上传镜像,是指在安装了容器引擎客户端的机器上使用docker命令将镜像上传到容器镜像服务的镜像仓库。 如果容器引擎客户端机器为云上的ECS或CCE节点,根据机器所在区域有两种网络链路可以选择: 如果机器与容器镜像仓库在同一区域,则上传镜像走内网链路。 如果机器与容器镜像仓库不在同一区域
操作步骤 在ModelArts控制台左侧导航栏中找到“资源管理 > AI专属资源池 > 弹性集群Cluster”,在“Lite资源池”页签中,单击某个资源池名称,进入资源池详情。 单击左侧“配置管理”,进入资源池配置管理页面。
在各模块资源监控页签查看ModelArts监控指标 训练作业:用户在运行训练作业时,可以查看多个计算节点的CPU、GPU、NPU资源使用情况。具体请参见训练资源监控章节。
登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”,进入“弹性集群 Cluster”页面,选择“Lite 资源池”页签。 在“Lite资源池”页签中,单击创建的Lite Cluster专属资源池,进入资源池详情页面。
由于Ascend Snt3资源有限,当资源售罄后,您在部署上线时,无法选择Ascend Snt3资源(公共资源池)进行推理,即在部署页面中,“Ascend: 1* Snt3 (8GB) | ARM: 3 核 6GB”资源为灰色,无法选择。
父主题: 资源和引擎规格接口
当专属资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自定义GPU/Ascend驱动的需求,ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力,具体操作请参见资源池驱动升级。 父主题: FAQ
父主题: 资源和引擎规格接口
在AOM控制台查看ModelArts所有监控指标 ModelArts会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况以及开发环境、训练作业、推理服务的关键资源的使用情况,并上报到AOM,用户可直接在AOM上查看。
Cluster资源池节点故障如何定位 故障说明和处理建议 图1 Lite池故障处理流程 对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondtition中。
添加/编辑/删除资源标签 资源标签用于方便管理资源的计费账单。 在节点的操作列,选择“更多>编辑资源标签”,支持编辑单个节点的资源标签。 也可以勾选节点名称,在节点列表上方单击“更多 > 添加/编辑资源标签”或者“删除资源标签”,批量操作节点资源标签。