检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
PU/Ascend资源。 节点驱动升级操作 登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”,在“弹性集群”页面,选择“Lite资源池”页签,查看资源池列表。 进入资源池详情页,在节点管理页面,选择需要进行驱动升级的节点,单击操作列的“更多
容器日志有error信息。 可能原因 集群节点没有下发topo文件和ranktable文件。 操作步骤 在ModelArts Lite专属资源池列表,单击资源池名称,进入专属资源池详情页面。 在基本信息页面单击CCE集群,跳转到CCE集群详情页面。 在CCE集群详情页,选择左侧导航栏的“节点管理”,选择“节点”页签。
cluster_id 否 String MRS集群ID。可登录MRS控制台查看。 cluster_mode 否 String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name
计算、通信、调度三大维度,并针对计算和通信分别进行算子级别的比对;将训练占用的总内存,拆分成算子级别的内存占用进行比对。 对于集群训练场景,昇腾提供了集群分析工具cluster_analysis,当前主要对基于通信域的迭代内耗时分析、通信时间分析以及通信矩阵分析为主,从而定位慢卡、慢节点以及慢链路问题。
AffinityPoolInfo objects 配置亲和策略到指定的集群,并指定集群的节点。 表12 AffinityPoolInfo 参数 是否必选 参数类型 描述 pool_name 是 String 集群名称,集群名称必须在外层pool_name中 nodes 是 Array of
offset 否 Integer 分页记录的起始位置偏移量,默认值0。 type 否 String 集群类型。枚举值如下: MANAGED:公共集群 DEDICATED:专属集群 sort_dir 否 String 排序方式,ASC升序,DESC降序,默认DESC。 sort_key
数据源(“DWS”) “集群名称”:系统自动将当前账号下的DWS集群展现在列表中,您可以在下拉框中选择您所需的DWS集群。 “数据库名称”:根据选择的DWS集群,填写数据所在的数据库名称。 “表名称”:根据选择的数据库,填写数据所在的表。 “用户名”:输入DWS集群管理员用户的用户名。
cluster_id 否 String MRS集群ID。可登录MRS控制台查看。 cluster_mode 否 String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name
AffinityPoolInfo objects 配置亲和策略到指定的集群,并指定集群的节点。 表12 AffinityPoolInfo 参数 参数类型 描述 pool_name String 集群名称,集群名称必须在外层pool_name中 nodes Array of AffinityNodeInfo
公共资源池:公共资源池提供公共的大规模计算集群,根据用户作业参数分配使用,资源按作业隔离。 用户下发训练作业、部署模型、使用开发环境实例等,均可以使用ModelArts提供的公共资源池完成,按照使用量计费,方便快捷。 专属资源池和公共资源池的能力主要差异如下: 专属资源池为用户提供独立的计算集群、网络,不同用
在ModelArts列表页,选择“资源管理 > AI专属资源池 > 弹性集群Cluster ”,在Standard资源池列表中选中目标专属资源池。在资源池详情页的右上角选择“更多 > 转包周期”。 在弹出的“转包周期”页面,确认无误后单击“确定”。 图1 转包周期 选择弹性集群的购买时长,判断是否勾选“自动续费”,
通过打通VPC,可以方便用户跨VPC使用资源,提升资源利用率。 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,在“网络”页签,单击网络列表中某个网络操作列的“打通VPC”。 图1 打通VPC 在打通VPC弹框中,打开“打通VPC”
U/Ascend资源。 资源池驱动升级操作 登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”,在“弹性集群”页面,选择“Lite资源池”页签,查看资源池列表。 在资源池列表中,选择需要进行驱动升级的资源池“ > 驱动升级”。 图1
rkflow、Notebook、训练作业、在线/批量/边缘服务 ModelArts Lite Cluster资源池 ModelArts弹性集群Server ModelArts Studio(MAAS) 对象存储(系统盘和数据盘) 计费因子:存储容量、存储类型和时长收费。 按需计费
cluster_id 否 String MRS集群ID。可登录MRS控制台查看。 cluster_mode 否 String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name
cluster_analyse 集群性能分析工具,采集好的多机Profiling数据可通过该工具分析集群通信耗时、通信带宽矩阵等内容,从而辅助定位慢卡、慢节点等问题。工具的输出数据为csv格式,可直接拖入Ascend Insight进行可视化查看。 下载工具源码使用。 集群分析工具 Ascend
【下线公告】华为云ModelArts MindStudio/ML Studio/ModelBox镜像下线公告 华为云ModelArts服务MindStudio,ML Studio,ModelBox镜像将在2024年6月30日00:00(北京时间)正式退市。 下线范围 下线Region:华为云全部Region
点上都没有被其他应用占用。 Kubernetes下Prometheus对接ModelArts 使用kubectl连接集群,详细操作请参考通过kubectl连接集群。 配置Kubernetes的访问授权。 使用任意文本编辑器创建prometheus-rbac-setup.yml,YAML文件内容如下:
unknown error 使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed 华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA
变更实例规格”,在弹出的“变更实例规格”对话框中选择对应规格资源。 图2 选择实例规格 实例规格切换需要该规格所在的集群有其他规格才可以执行,当前上线的部分规格所在集群无其他规格,切换的时候会显示为空,所以不可进行切换,如北京四、上海一的GPU: 1*Tnt004(16GB)|CPU: