检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Cluster节点池:为帮助您更好地管理Kubernetes集群内的节点,ModelArts支持通过节点池来管理节点。节点池是集群中具有相同配置的一组节点,一个节点池包含一个节点或多个节点,您可以创建、更新和删除节点池。 管理Lite Cluster节点:节点是容器集群组成的基本元素,您可以对资源池内单节
通过打通VPC,可以方便用户跨VPC使用资源,提升资源利用率。 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,在“网络”页签,单击网络列表中某个网络操作列的“打通VPC”。 图1 打通VPC 在打通VPC弹框中,打开“打通VPC”
nce problem analysis)三大模块。overall模块包含对单卡或者集群的性能统计数据,comparison模块包含目标集群profiling与标杆集群profiling或目标集群内部快慢卡的算子比对数据,performance problem analysis模
源池。 选择CCE集群 在下拉列表中选择用户账户下已有的CCE集群。如果没有集群,单击右侧的“创建集群”,先去创建集群。集群配套版本请参考不同机型的对应的软件配套版本。 创建Cluster资源池时,请确保CCE集群为“运行中”状态。 说明: 当前仅支持CCE集群1.23&1.25&1
退订包年/包月的Lite Cluster资源 登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”,在“弹性集群”页面,选择“Lite资源池”页签,查看资源池列表。 在资源池列表中,单击操作列的“ > 退订”,跳转至“退订资源”页面。
迁移包括资源池迁移和网络迁移,具体方法可见下文说明。 资源池工作空间迁移 登录ModelArts管理控制台,选择“AI专属资源池 > 弹性集群Cluster”,进入“Standard资源池”页面。 在资源池列表中,选择目标资源池右侧操作列的“ > 工作空间迁移”。 在弹出的“迁移
析性能瓶颈点,支持百卡、千卡及以上规模的可视化集群性能分析,助力开发者天级完成性能调优。 MindStudio-Insight提供时间线视图、内存、算子耗时、通信瓶颈分析等功能,借助于数据库支持超大性能数据处理,可以支持20GB的集群性能文件分析,并且能够支持大模型场景下的性能调
提供节点级、作业级、容器级,多级故障恢复,保障千卡作业稳定训练。 多种资源形态 集群模式,开箱即提供好Kubernetes集群,直接使用,方便高效。 节点模式,客户可采用开源或自研框架,自行构建集群,更强的掌控力和灵活性。 零改造迁移 提供业界通用的k8s接口使用资源,业务跨云迁移无压力。
管理Lite Cluster资源池的游离节点 如果资源中存在游离节点,即没有被纳管到资源池中的节点,可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。 系统支持对游离节点进行续费、退订、开通/修改自动续费、添加/编辑资源标签、删除资源标签、搜索等操作。
训练作业和推理服务等不可用,且删除后不可恢复,请谨慎操作。 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,进入“Standard资源池”页面。 在专属资源池列表中,在需要删除的资源池的右侧操作列选择“ > 删除”。 在“删除资
管理Standard专属资源池的游离节点 如果资源中存在游离节点,即没有被纳管到资源池中的节点,可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。 系统支持对游离节点进行续费、退订、开通/修改自动续费、添加/编辑资源标签、删除资源标签、搜索等操作。
查看Standard专属资源池详情 资源池详情页介绍 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,进入“Standard资源池”列表。 在“Standard资源池”列表页的搜索框中,支持根据资源池的名称、资源池ID、资源池的
管理Lite Cluster节点 节点是容器集群组成的基本元素,在资源池详情页,单击“节点管理”页签,进行删除、重置、续费等操作。当把鼠标放在节点名称上方时,会显示资源ID,资源ID可用于查询账单或者在费用中心查询包周期资源的计费信息。 删除/退订/释放节点 若是“按需计费”的资
管理Lite Cluster节点池 为帮助您更好地管理Kubernetes集群内的节点,ModelArts支持通过节点池来管理节点。一个节点池包含一个节点或多个节点,能通过节点池批量配置一组节点。 在资源池详情页,单击“节点池管理”页签,您可以创建、更新和删除节点池。 图1 节点池管理
参数类型 描述 owner String 集群归属用户。 cluster_name String 集群名称。 period_num Integer 对应订购周期的个数,仅当集群为包周期类型时返回。 created_at Integer 集群创建时间,距“1970.1.1 0:0:0
Cluster资源配置 如果已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置 本步骤需要在节点机器,对kubectl进行集群访问配置。 首先进入已创建的CCE集群控制版面中。根据图2的步骤进
Cluster资源配置 如果已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置 本步骤需要在节点机器,对kubectl进行集群访问配置。 首先进入已创建的CCE集群控制版面中。根据图2的步骤进
Cluster资源配置 若已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置 本步骤需要在节点机器,对kubectl进行集群访问配置。 首先进入已创建的CCE集群控制版面中。根据图2的步骤进
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40