AI开发平台MODELARTS-Lite Cluster高危操作一览表
Lite Cluster高危操作一览表
当您在CCE、E CS 或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时,可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因,风险操作包括但不限于以下内容。
高危操作风险等级说明:
- 高:对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。
- 中:对于可能导致安全风险及可靠性降低的高危操作。
- 低:高、中风险等级外的其他高危操作。
操作对象 |
操作名称 |
风险描述 |
风险等级 |
应对措施 |
---|---|---|---|---|
集群 |
升级、修改、休眠集群、删除集群等。 |
可能影响ModelArts侧基本功能,包括但不限于资源池管理、节点管理、扩缩容、驱动升级等。 |
高 |
不可恢复。 |
节点 |
退订、移除、关机、污点管理、切换/重装操作系统等。 |
可能影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级、带本地盘机型的本地盘数据丢失等。 |
高 |
不可恢复。 |
修改网络安全组 |
可能影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。 |
中 |
改回原有内容。 |
|
网络 |
修改/删除集群关联网段。 |
影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。 |
高 |
不可恢复。 |
插件 |
升级、卸载gpu-beta插件。 |
可能导致GPU驱动使用异常。 |
中 |
回退版本、重装插件。 |
升级、卸载huawei-npu插件。 |
可能导致NPU驱动使用异常。 |
中 |
回退版本、重装插件。 |
|
升级、卸载volcano插件。 |
可能导致作业调度异常。 |
中 |
回退版本、重装插件。 |
|
卸载ICAgent插件。 |
可能导致日志、监控功能异常。 |
中 |
回退版本、重装插件。 |
|
helm |
升级、回退、卸载os-node-agent。 |
导致驱动升级、故障检测、指标采集、节点运维功能异常。 |
高 |
联系华为云技术支持重装os-node-agent。 |
升级、回退、卸载rdma-sriov-dev-plugin。 |
可能影响容器内使用RDMA网卡。 |
高 |
联系华为云技术支持重装rdma-sriov-dev-plugin。 |
- ModelArts是什么_AI开发平台_ModelArts功能
- GaussDB操作_GaussDB版本_高斯数据库操作
- TMS开发_金蝶TMS系统_TMS技术系统_信息化管理_视频
- 如何配置CTS关键操作通知_关键操作通知的使用场景_CTS关键操作通知的常见问题-华为云
- 华为CCI操作指导_华为云CCI如何使用_云容器实例怎么操作
- RPA功能_RPA操作_RPA纳税申报
- 如何查看CTS操作事件_云审计操作事件_CTS指导视频-华为云
- 安全云脑-安全总览_安全总览有哪些模块_安全总览可以查看哪些信息
- RPA自动化_财务RPA_RPA操作
- Web应用防火墙_网站APP小程序防护_ 拦截常见Web攻击_应用安全防护