检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Standard资源池节点故障定位 节点故障定位 对于Standard资源池,ModelArts平台在识别到节点故障后,通过给K8S节点增加污点的方式(taint)将节点隔离避免新作业调度到该节点而受到影响,并且使本次作业不受污点影响。当前可识别的故障类型如下,可通过隔离码及对应检测方法定位故障。
释放Lite Cluster资源 针对不再使用的Lite Cluster资源,可以释放资源,停止计费相关介绍请见停止计费。 Lite Cluster资源池资源释放后不可恢复,请谨慎操作。 退订包年/包月的Lite Cluster资源 登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池
调用API接口创建训练作业和部署服务时,如何填写资源池的参数? 调用API接口创建训练作业时,“pool_id”为“资源池ID”。 调用API接口部署在线服务时,“pool_name”为“资源池ID” 。 图1 资源池ID 父主题: API/SDK
示例:使用按需计费的专属资源池。计费项:计算资源费用 假设用户于2023年4月1日10:00:00创建了一个按需计费的专属资源池,并在2023年5月1日10:00:00删除此专属资源池。资源池规格为CPU: 8 核 32GB,计算节点个数为1个,单价为3.50元/小时。按照计算资源费用结算,那么此专属资源池运行期间产生的费用计算如下:
在费用中心退订单个实例资源 登录ModelArts管理控制台。 在左侧导航栏中,选择“资源管理 > AI专属资源池 > 弹性节点Server”,进入“节点”列表页面。 鼠标移动至节点名称上,复制需要退订的实例ID。 图3 复制实例ID Server购买订单里绑定的资源ID为Server
进入当前账号的费用中心,检查是否欠费。 如果欠费,建议您参考华为云账户充值,为您的账号充值。 如果以上都没问题,请尝试退出账号重新登录。 单击页面右上角的账号,选择“退出登录”,并重新登录。 父主题: AI Gallery
查看指定作业的引擎类型和版本。 创建训练作业和预测作业需要指定引擎规格。 URI GET /v1/{project_id}/job/ai-engines 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。
驱动版本。 指定节点计费模式。用户增加节点数量时,可以打开“节点计费模式”开关,为资源池新扩容的节点设置不同于资源池的计费模式、购买时长和开启自动续费功能。例如用户可以在包周期的资源池中创建按需的节点。若用户不指定该参数,则新扩容的节点计费模式和资源池保持一致。 单击“提交”,在弹出的确认框中单击“确定”完成扩缩容。
表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 作业所属的资源池。 请求参数 无 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述
k”路径下。 ln -s建立软连接 如果代码中涉及文件绝对路径,由于Notebook调试与训练作业环境不同,可能会导致文件绝对路径不一致,需要修改代码内容。推荐使用软链接的方式解决该问题,用户只需提前建立好软链接,代码中的地址可保持不变。 新建软链接: # ln -s 源目录/文件
内存使用量。 nvidia.com/gpu String GPU资源使用量。 huawei.com/ascend-snt3 String 昇腾资源使用量。 huawei.com/ascend-snt9 String 昇腾资源使用量。 状态码: 400 表6 响应Body参数 参数 参数类型
Cluster资源池基本信息 管理Lite Cluster资源池标签 通过给资源池添加标签,可以标识云资源,便于快速搜索资源池。 在ModelArts管理控制台的左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”。 在Lite资源池列表中,单击资源池名称进入资源池详情页面。
创建失败的专属资源池删除后,控制台为什么还能看到? 在控制台页面操作删除专属资源池后,后端服务需要进行资源实例释放。在资源实例释放过程中,用户依然可以查询到资源池。如果需要创建专属资源池,建议等待5min后再创建,且不要使用已创建过的专属资源池名称来命名新建的专属资源池。如果做UI自动化测试,建议用例用随机串替代。
Standard资源池 ModelArts支持使用ECS创建专属资源池吗? 1个节点的专属资源池,能否部署多个服务? 专属资源池购买后,中途扩容了一个节点,如何计费? 共享池和专属池的区别是什么? 如何通过ssh登录专属资源池节点? 训练任务的排队逻辑是什么? 专属资源池下的在线服务停止后,启动新的在线服务,提示资源不足
开启滚动:开启开关后,支持滚动升级的方式进行驱动升级。当前支持“按节点比例”和“按实例数量”两种滚动方式。 按节点比例:每批次驱动升级的实例数量为“节点比例*资源池实例总数”。 按实例数量:可以设置每批次驱动升级的实例数量。 对于不同的升级方式,滚动升级选择实例的策略会不同: 如果升级方式为安全升级,则根据滚动
创建训练作业界面无云存储名称和挂载路径排查思路 问题现象 创建训练作业界面没有云存储名称和挂载路径这两个选项。 原因分析 用户的专属资源池没有进行网络打通,或者用户没有创建过SFS。 处理方法 在专属资源池列表中,单击资源池“ID/名称”,进入详情页。单击右上角“配置NAS VPC”,检查是否开启了NAS
监控Lite Cluster资源:ModelArts支持使用AOM和Prometheus对资源进行监控,方便您了解当前的资源使用情况。 释放Lite Cluster资源:针对不再使用的Lite Cluster资源,您可以释放资源。 图1 Lite Cluster资源管理介绍 父主题: Lite
ModelArts Standard资源监控 ModelArts Standard资源监控概述 在ModelArts控制台查看监控指标 在AOM控制台查看ModelArts所有监控指标 使用Grafana查看AOM中的监控指标
基础权限开通需要登录管理员账号,为子用户账号开通使用资源池所需的基础权限。 登录统一身份认证服务管理控制台。 单击目录左侧“用户组”,然后在页面右上角单击“创建用户组”。 填写“用户组名称”并单击“确定”。 在操作列单击“用户组管理”,将需要配置权限的用户加入用户组中。 单击用户组名称,进入用户组详情页。
Cluster资源池节点驱动状态处于运行中,且专属池中的节点需要含有GPU/Ascend资源。 节点驱动升级操作 登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”,在“弹性集群”页面,选择“Lite资源池”页签,查看资源池列表。 进