检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Cluster资源池标签 通过给资源池添加标签,可以标识云资源,便于快速搜索资源池。 在ModelArts管理控制台的左侧导航栏中选择“专属资源池 > 弹性集群”。 在资源池列表中,单击资源池名称进入资源池详情页面。 在资源池详情页面,单击“标签”页签查看标签信息。 支持添加、修改、删除标签。标签
管理Lite Cluster节点 节点是容器集群组成的基本元素,在资源池详情页,单击“节点管理”页签,进行替换、删除、重置等操作。 删除/退订/释放节点: 若是“按需计费”的资源池,您可单击操作列的“删除”,即可实现对单个节点的资源释放。 若想批量删除节点,勾选待删除节点名称前的
参数类型 描述 owner String 集群归属用户。 cluster_name String 集群名称。 period_num Integer 对应订购周期的个数,仅当集群为包周期类型时返回。 created_at Integer 集群创建时间,距“1970.1.1 0:0:0
管理Lite Cluster节点池 为帮助您更好地管理Kubernetes集群内的节点,ModelArts支持通过节点池来管理节点。一个节点池包含一个节点或多个节点,能通过节点池批量配置一组节点。关于更多节点池的介绍,可以查看节点池概述。 在资源池详情页,单击“节点池管理”页签,您可以创建、更新和删除节点池。
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
Cluster资源配置 若已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置 本步骤需要在节点机器,对kubectl进行集群访问配置。 首先进入已创建的CCE集群控制版面中。根据图2的步骤进
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
Cluster资源 登录ModelArts管理控制台。 在左侧导航栏中,选择“AI专属资源池 > 弹性集群 Cluster”,进入“弹性集群 Cluster”列表页面。 在弹性集群列表中,单击操作列的“更多 > 删除”。 在弹出的确认对话框中,输入“DELETE”,单击“确定”,删除资源池。
可阅读通过静态存储卷使用已有极速文件存储和通过动态存储卷使用对象存储。 kubectl访问集群配置 本步骤需要在节点机器,对kubectl进行集群访问配置。 首先进入已创建的 CCE 集群控制版面中。根据图1的步骤进行操作,单击kubectl配置时,会弹出图2步骤页面。 图1 配置中心
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
描述 cluster_id String MRS集群ID。可登录MRS控制台查看。 cluster_mode String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name String MRS集群名称。可登录MRS控制台查看。 database_name
描述 cluster_id String MRS集群ID。可登录MRS控制台查看。 cluster_mode String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name String MRS集群名称。可登录MRS控制台查看。 database_name
本文档,您可以实现弹性云服务器访问公网的目的。 使用华为云账号登录CCE管理控制台。 找到购买Cluster资源时选择的CCE集群,单击名称进入CCE集群详情页面,单击“节点管理”页签,在“节点”页签中单击需要登录的节点名称,跳转至弹性云服务器页面。 图1 节点管理 绑定弹性公网IP。
危操作。 低:高、中风险等级外的其他高危操作。 表1 操作及其对应风险 操作对象 操作名称 风险描述 风险等级 应对措施 集群 升级、修改、休眠集群、删除集群等。 可能影响ModelArts侧基本功能,包括但不限于资源池管理、节点管理、扩缩容、驱动升级等。 高 不可恢复。 节点
网络配置。 购买AI专属集群 登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群Cluster”。 在“弹性集群Cluster”页签,单击“购买AI专属集群”,进入购买AI专属集群界面,参见下表填写参数。 表1 AI专属集群的参数说明 参数名称 子参数
容器日志有error信息。 可能原因 集群节点没有下发topo文件和ranktable文件。 操作步骤 在ModelArts Lite专属资源池列表,单击资源池名称,进入专属资源池详情页面。 在基本信息页面单击CCE集群,跳转到CCE集群详情页面。 在CCE集群详情页,选择左侧导航栏的“节点管理”,选择“节点”页签。
cluster_id 否 String MRS集群ID。可登录MRS控制台查看。 cluster_mode 否 String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name
AffinityPoolInfo objects 配置亲和策略到指定的集群,并指定集群的节点。 表12 AffinityPoolInfo 参数 是否必选 参数类型 描述 pool_name 是 String 集群名称,集群名称必须在外层pool_name中 nodes 是 Array of