检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点关键命令检查异常处理 检查项内容 检查节点升级依赖的一些关键命令是否能正常执行。 解决方案 问题场景一:包管理器命令执行失败 检查到包管理器命令rpm或dpkg命令执行失败,请登录节点排查下列命令的可用性。 rpm -qa 如果上述命令不可用,可通过以下命令恢复: rpm --
“云原生网络2.0”模型的集群需要根据业务诉求放通容器关联的安全组,容器关联的默认安全组名称为{集群名}-cce-eni-{随机ID},具体请参见云原生网络2.0(CCE Turbo集群)安全组规则。 父主题: 网络指导
极速文件存储类型的PVC支持使用量监控(包括子目录场景,但子目录PVC采集到的使用量和容量与SFS Turbo实例的使用量和容量一致)。 挂载到普通容器的PVC支持采集使用量及inodes数据,挂载至安全容器PVC不支持。
检查系统关键资源Memory内存资源是否耗尽 默认阈值:80% 使用量:/proc/meminfo中MemTotal-MemAvailable 最大值:/proc/meminfo中MemTotal 进程资源不足 PIDProblem 检查系统关键资源PID进程资源是否耗尽 默认阈值
开启告警中心 CCE Standard集群和CCE Turbo集群均支持开启告警中心。 在目标集群左侧导航栏选择“告警中心”。 选择“告警规则”页签,单击“开启告警中心”,在弹出的页面中选择一个或多个联系组,以便分组管理订阅终端并接收告警消息。
前提条件 已创建一个集群,且集群有可用节点,具体操作步骤请参见购买Standard/Turbo集群。 集群内节点已绑定弹性公网IP,且已配置kubectl命令行工具,具体请参见将弹性公网IP绑定至实例和通过kubectl连接集群。
Prometheus(停止维护) Prometheus是一套开源的系统监控报警框架。在云容器引擎CCE中,支持以插件的方式快捷安装Prometheus。
节点NetworkManager检查异常处理 检查项内容 检查节点上的NetworkManager状态是否正常。 解决方案 请登录该节点,执行systemctl is-active NetworkManager命令查询NetworkManager服务运行状态。若回显状态异常,请执行
选择“系统预置规格”时,您可选择“单实例”或“高可用”规格。 选择“自定义规格”时,您可根据需求修改插件各个组件的副本数以及CPU/内存配置。
判断方法 1.23及以下版本的CCE集群、CCE Turbo集群中: 1. 客户自行安装nginx-ingress的场景,判断nginx-ingress应用的镜像版本是否小于1.2.0 2.
集群类型对比 集群类型对比 CCE支持多种类型的集群创建,以满足您各种业务需求,如下为集群类型之间的区别,可帮助您选择合适的集群: 维度 子维度 CCE Standard CCE Turbo CCE Autopilot 产品定位 - 标准版本集群,提供高可靠、安全的商业级容器集群服务
重装操作系统 节点组件被删除,节点不可用 重置节点,具体请参见重置节点。
Prometheus Server视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态。
约束与限制 支持多个PV挂载同一个SFS或SFS Turbo,但有如下限制: 多个不同的PVC/PV使用同一个底层SFS或SFS Turbo卷时,如果挂载至同一Pod使用,会因为PV的volumeHandle参数值相同导致无法为Pod挂载所有PVC,出现Pod无法启动的问题,请避免该使用场景
Gauge GPU显存使用量 cce_gpu_memory_total Gauge GPU显存总量 cce_gpu_memory_free Gauge GPU显存空闲量 cce_gpu_memory_clock Gauge GPU显存频率 cce_gpu_gpu_temperature
工作负载异常:Pod一直处于Terminating状态 问题描述 查询某个命名空间下的工作负载时,偶现部分Pod(实例)一直处于Terminating 状态。 例如,查询aos命名空间下的Pod: #kubectl get pod -n aos NAME
51 节点系统参数检查异常处理 检查您节点上默认系统参数是否被修改。 52 残留packageversion检查异常处理 检查当前集群中是否存在残留的packageversion。 53 节点命令行检查异常处理 检查节点中是否存在升级所必须的命令。
集群节点使用networkpolicy概率性出现panic问题 问题场景 集群版本:v1.15.6-r1版本 集群类型:CCE集群 网络模式:容器隧道网络模式 节点操作系统:CentOS 7.6 上述集群的用户配置使用networkpolicy后,由于节点上canal-agent网络组件与
定时任务是基于时间的Job,就类似于Linux系统的crontab,在指定的时间周期运行指定的Job,即: 在给定时间点只运行一次。 在给定时间点周期性地运行。 CronJob的典型用法如下所示: 在给定的时间点调度Job运行。
检查系统关键资源Memory内存资源是否耗尽 默认阈值:80% 使用量:/proc/meminfo中MemTotal-MemAvailable 最大值:/proc/meminfo中MemTotal 进程资源不足 PIDProblem 检查系统关键资源PID进程资源是否耗尽 默认阈值