AI开发平台MODELARTS-Cluster资源池节点故障如何定位:故障说明和处理建议

时间:2024-10-22 15:11:54

故障说明和处理建议

图1 Lite池故障处理流程

对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondtition中。同时,节点故障指标默认会上报到 AOM ,您可在AOM配置告警通知。

当发生节点异常时,在故障初步分析阶段,您可先按表1识别是否为亚健康并自助进行处理,若不是,则为故障,请联系客户经理发起维修流程(若无客户经理可提交工单)。

support.huaweicloud.com/trouble-modelarts/modelarts_13_0287.html