AI开发平台MODELARTS-风险操作
风险操作
当您在CCE、E CS 或BMS服务控制台直接操作ModelArts Lite k8s Cluster资源时,可能会导致资源池部分功能异常,下表可帮助您定位异常出现的原因,风险操作包括但不限于以下内容:
类型 |
操作 |
风险 |
---|---|---|
集群 |
升级、修改、休眠集群、删除集群等。 |
可能影响ModelArts侧基本功能,包括但不限于资源池管理、节点管理、扩缩容、驱动升级等。 |
节点 |
退订、移除、关机、污点管理、修改登录密码、修改网络安全组、切换/重装操作系统等。 |
可能影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。 |
网络 |
修改/删除集群关联网段。 |
影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。 |
插件 |
升级、卸载gpu-beta插件。 |
可能导致NPU驱动使用异常。 |
升级、卸载huawei-npu插件。 |
可能导致NPU驱动使用异常。 |
|
升级、卸载volcano插件。 |
可能导致作业调度异常。 |
|
卸载ICAgent插件。 |
可能导致日志、监控功能异常。 |
|
helm |
升级、回退、卸载os-node-agent。 |
可能影响节点故障检测。 |
升级、回退、卸载rdma-sriov-dev-plugin。 |
可能影响容器内使用RDMA网卡。 |