检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
参数类型 描述 owner String 集群归属用户。 cluster_name String 集群名称。 period_num Integer 对应订购周期的个数,仅当集群为包周期类型时返回。 created_at Integer 集群创建时间,距“1970.1.1 0:0:0
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
管理Lite Cluster节点池 为帮助您更好地管理Kubernetes集群内的节点,ModelArts支持通过节点池来管理节点。一个节点池包含一个节点或多个节点,能通过节点池批量配置一组节点。 在资源池详情页,单击“节点池管理”页签,您可以创建、更新和删除节点池。 图1 节点池管理
Cluster资源配置 若已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置 本步骤需要在节点机器,对kubectl进行集群访问配置。 首先进入已创建的CCE集群控制版面中。根据图2的步骤进
Cluster资源配置 如果已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置 本步骤需要在节点机器,对kubectl进行集群访问配置。 首先进入已创建的CCE集群控制版面中。根据图2的步骤进
Cluster资源配置 如果已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置 本步骤需要在节点机器,对kubectl进行集群访问配置。 首先进入已创建的CCE集群控制版面中。根据图2的步骤进
可阅读通过静态存储卷使用已有极速文件存储和通过动态存储卷使用对象存储。 kubectl访问集群配置 本步骤需要在节点机器,对kubectl进行集群访问配置。 首先进入已创建的 CCE 集群控制版面中。根据图1的步骤进行操作,单击kubectl配置时,会弹出图2步骤页面。 图1 配置中心
可阅读通过静态存储卷使用已有极速文件存储和通过动态存储卷使用对象存储。 kubectl访问集群配置 本步骤需要在节点机器,对kubectl进行集群访问配置。 首先进入已创建的 CCE 集群控制版面中。根据图1的步骤进行操作,单击kubectl配置时,会弹出图2步骤页面。 图1 配置中心
可阅读通过静态存储卷使用已有极速文件存储和通过动态存储卷使用对象存储。 kubectl访问集群配置 本步骤需要在节点机器,对kubectl进行集群访问配置。 首先进入已创建的 CCE 集群控制版面中。根据图1的步骤进行操作,单击kubectl配置时,会弹出图2步骤页面。 图1 配置中心
可阅读通过静态存储卷使用已有极速文件存储和通过动态存储卷使用对象存储。 kubectl访问集群配置 本步骤需要在节点机器,对kubectl进行集群访问配置。 首先进入已创建的 CCE 集群控制版面中。根据图1的步骤进行操作,单击kubectl配置时,会弹出图2步骤页面。 图1 配置中心
的资源,可通过“打通VPC”来实现。 更加完善的集群信息:全新改版的专属资源池详情页面中,提供了作业、节点、资源监控等更加全面的集群信息,可帮助您及时了解集群现状,更好的规划使用资源。 自助管理集群GPU/NPU驱动:每个用户对集群的驱动要求不同,在新版专属资源池列表页中,可自行
描述 cluster_id String MRS集群ID。可登录MRS控制台查看。 cluster_mode String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name String MRS集群名称。可登录MRS控制台查看。 database_name
描述 cluster_id String MRS集群ID。可登录MRS控制台查看。 cluster_mode String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name String MRS集群名称。可登录MRS控制台查看。 database_name
服务”。 集群高级配置 集群规格:可以保持默认或选择自定义。选择自定义时,支持设置集群规模、开启控制节点高可用开关。 集群规模:表示资源池支持管理的最大实例数量,请根据业务场景选择。 控制节点高可用:开启后,系统为您的集群创建三个控制平面节点,确保集群的可靠性。如果集群规模为10
危操作。 低:高、中风险等级外的其他高危操作。 表1 操作及其对应风险 操作对象 操作名称 风险描述 风险等级 应对措施 集群 升级、修改、休眠集群、删除集群等。 可能影响ModelArts侧基本功能,包括但不限于资源池管理、节点管理、扩缩容、驱动升级等。 高 不可恢复。 节点
AffinityPoolInfo objects 配置亲和策略到指定的集群,并指定集群的节点。 表12 AffinityPoolInfo 参数 是否必选 参数类型 描述 pool_name 是 String 集群名称,集群名称必须在外层pool_name中 nodes 是 Array of
在ModelArts控制台开通自动续费 包年/包月的Standard专属资源池和弹性集群Lite Cluster资源池在购买时或购买成功后支持开通自动续费。 购买时开通自动续费 在ModelArts控制台“AI专属资源池 > 弹性集群Cluster”页面中的Standard资源池页签中,单击“购买A
本文档,您可以实现弹性云服务器访问公网的目的。 使用华为云账号登录CCE管理控制台。 找到购买Cluster资源时选择的CCE集群,单击名称进入CCE集群详情页面,单击“节点管理”页签,在“节点”页签中单击需要登录的节点名称,跳转至弹性云服务器页面。 图1 节点管理 绑定弹性公网IP。
ontainerd和Docker差异对比请见容器引擎。 若CCE集群版本低于1.23,仅支持选择Docker作为容器引擎。若CCE集群版本大于等于1.27,仅支持选择Containerd作为容器引擎。其余CCE集群版本,支持选择Containerd或Docker作为容器引擎。 修
创建Modelarts专属资源池。 在控制台左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”。 在“Standard资源池”页签,单击“购买AI专属集群创建专属资源池”,进入购买AI专属集群创建专属资源池界面填写参数。 “作业类型”包括推理服务。“网络”选择上文中已打通VPC的网络。