AI开发平台MODELARTS-风险操作

时间:2024-09-05 08:36:23

风险操作

当您在CCE、E CS 或BMS服务控制台直接操作ModelArts Lite k8s Cluster资源时,可能会导致资源池部分功能异常,下表可帮助您定位异常出现的原因,风险操作包括但不限于以下内容:

表1 操作及其对应风险

类型

操作

风险

集群

升级、修改、休眠集群、删除集群等。

可能影响ModelArts侧基本功能,包括但不限于资源池管理、节点管理、扩缩容、驱动升级等。

节点

退订、移除、关机、污点管理、修改登录密码、修改网络安全组、切换/重装操作系统等。

可能影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。

网络

修改/删除集群关联网段。

影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。

插件

升级、卸载gpu-beta插件。

可能导致NPU驱动使用异常。

升级、卸载huawei-npu插件。

可能导致NPU驱动使用异常。

升级、卸载volcano插件。

可能导致作业调度异常。

卸载ICAgent插件。

可能导致日志、监控功能异常。

helm

升级、回退、卸载os-node-agent。

可能影响节点故障检测。

升级、回退、卸载rdma-sriov-dev-plugin。

可能影响容器内使用RDMA网卡。

support.huaweicloud.com/usermanual-modelarts-lite/usermanual-modelarts-lite-0337.html