检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
约束限制 专属资源池状态处于“运行中”。 操作步骤 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,进入“弹性集群Cluster”页面。 在资源池列表中,选择某个资源池操作列“更多 > 设置作业类型”。 在“设置作业类型”弹窗中,选择需要设置的作业类型。
数据源(“DWS”) “集群名称”:系统自动将当前账号下的DWS集群展现在列表中,您可以在下拉框中选择您所需的DWS集群。 “数据库名称”:根据选择的DWS集群,填写数据所在的数据库名称。 “表名称”:根据选择的数据库,填写数据所在的表。 “用户名”:输入DWS集群管理员用户的用户名。
cluster_id 否 String MRS集群ID。可登录MRS控制台查看。 cluster_mode 否 String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name
offset 否 Integer 分页记录的起始位置偏移量,默认值0。 type 否 String 集群类型。枚举值如下: MANAGED:公共集群 DEDICATED:专属集群 sort_dir 否 String 排序方式,ASC升序,DESC降序,默认DESC。 sort_key
ModelArts”。 在ModelArts列表页,选择“专属资源池 > 弹性集群”,选中目标专属资源池。在“操作 > 更多 > 转包周期”。 在弹出的“转包周期”页面,确认无误后单击“确定”。 图1 转包周期 选择弹性集群的购买时长,判断是否勾选“自动续费”,确认预计到期时间和配置费用后单击“去支付”。
AffinityPoolInfo objects 配置亲和策略到指定的集群,并指定集群的节点。 表12 AffinityPoolInfo 参数 是否必选 参数类型 描述 pool_name 是 String 集群名称,集群名称必须在外层pool_name中 nodes 是 Array of
公共资源池:公共资源池提供公共的大规模计算集群,根据用户作业参数分配使用,资源按作业隔离。 用户下发训练作业、部署模型、使用开发环境实例等,均可以使用ModelArts提供的公共资源池完成,按照使用量计费,方便快捷。 专属资源池和公共资源池的能力主要差异如下: 专属资源池为用户提供独立的计算集群、网络,不同用
ontainerd和Docker差异对比请见容器引擎。 若CCE集群版本低于1.23,仅支持选择Docker作为容器引擎。若CCE集群版本大于等于1.27,仅支持选择Containerd作为容器引擎。其余CCE集群版本,支持选择Containerd或Docker作为容器引擎。 父主题:
联系华为工程师开启节点绑定。 驱动升级操作 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,进入“弹性集群Cluster”页面。 在资源池列表中,选择需要进行驱动升级的资源池“ > 驱动升级”。 在“驱动升级”弹窗中,会显示当前
of AffinityPoolInfo objects 配置亲和策略到指定的集群,并指定集群的节点。 表9 AffinityPoolInfo 参数 参数类型 描述 pool_name String 集群名称,集群名称必须在外层pool_name中 nodes Array of AffinityNodeInfo
cluster_id 否 String MRS集群ID。可登录MRS控制台查看。 cluster_mode 否 String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name
的“更多 > 变更规格”,在弹出的“变更规格”对话框中选择对应规格资源。 图2 选择规格 规格切换需要该规格所在的集群有其他规格才可以执行,当前上线的部分规格所在集群无其他规格,切换的时候会显示为空,所以不可进行切换,如北京四、上海一的GPU: 1*Tnt004(16GB)|CPU:
点上都没有被其他应用占用。 Kubernetes下Prometheus对接ModelArts 使用kubectl连接集群,详细操作请参考通过kubectl连接集群。 配置Kubernetes的访问授权。 使用任意文本编辑器创建prometheus-rbac-setup.yml,YAML文件内容如下:
【下线公告】华为云ModelArts MindStudio/ML Studio/ModelBox镜像下线公告 华为云ModelArts服务MindStudio,ML Studio,ModelBox镜像将在2024年6月30日00:00(北京时间)正式退市。 下线范围 下线Region:华为云全部Region
观察队头是否有其他作业在排队,如果已有作业在排队,则新建的作业需要继续等待。 图2 作业排队列表 如果通过排查计算,发现资源确实足够,则考虑可能由于资源碎片化导致的。 例如,集群共2个节点,每个节点都空闲了4张卡,总剩余卡数为8张卡,但用户的作业要求为1节点8张卡,因此无法调度上。 父主题: 一般性问题
描述 cluster_id String MRS集群ID。可登录MRS控制台查看。 cluster_mode String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name String MRS集群名称。可登录MRS控制台查看。 database_name
unknown error 使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed 华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA
操作步骤 登录管理控制台,单击左侧导航栏的图标,选择“人工智能 > ModelArts”。 在ModelArts列表页,选择“专属资源池 > 弹性集群”,选中目标专属资源池。在“操作 > 更多 > 调整到期策略”。 在弹出的“调整到期策略”页面,确认无误后单击“确定”。 图1 调整到期策略
细过程。完成本方案的部署,需要先联系您所在企业的华为方技术支持购买Cluster资源。 本方案目前仅适用于企业客户,并且需要用户具备k8s集群相关技能。 资源规格要求 推荐使用“西南-贵阳一”Region上的Cluster资源 表1 环境要求 名称 版本 CANN cann_8.0
对已有规格增减节点数量 修改容器引擎空间大小 登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群Cluster”,进入“弹性集群Cluster”页签,查看资源池列表。 在旧版资源池迁移到新版资源池的过程中,资源池状态显示为“受限”。此时,资源池无法进行扩缩容和退订。