AI开发平台MODELARTS-Lite Cluster高危操作一览表

时间:2024-09-25 09:16:02

Lite Cluster高危操作一览表

当您在CCE、E CS 或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时,可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因,风险操作包括但不限于以下内容。

高危操作风险等级说明:

  • 高:对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。
  • 中:对于可能导致安全风险及可靠性降低的高危操作。
  • 低:高、中风险等级外的其他高危操作。
表1 操作及其对应风险

操作对象

操作名称

风险描述

风险等级

应对措施

集群

升级、修改、休眠集群、删除集群等。

可能影响ModelArts侧基本功能,包括但不限于资源池管理、节点管理、扩缩容、驱动升级等。

不可恢复。

节点

退订、移除、关机、污点管理、切换/重装操作系统等。

可能影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级、带本地盘机型的本地盘数据丢失等。

不可恢复。

修改网络安全组

可能影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。

改回原有内容。

网络

修改/删除集群关联网段。

影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。

不可恢复。

插件

升级、卸载gpu-beta插件。

可能导致GPU驱动使用异常。

回退版本、重装插件。

升级、卸载huawei-npu插件。

可能导致NPU驱动使用异常。

回退版本、重装插件。

升级、卸载volcano插件。

可能导致作业调度异常。

回退版本、重装插件。

卸载ICAgent插件。

可能导致日志、监控功能异常。

回退版本、重装插件。

helm

升级、回退、卸载os-node-agent。

导致驱动升级、故障检测、指标采集、节点运维功能异常。

联系华为云技术支持重装os-node-agent。

升级、回退、卸载rdma-sriov-dev-plugin。

可能影响容器内使用RDMA网卡。

联系华为云技术支持重装rdma-sriov-dev-plugin。

support.huaweicloud.com/usermanual-cluster-modelarts/umn-cluster-modelarts-0003.html