检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
异常。 nodepool id(master)表示集群配置管理异常。 问题场景一:节点池配置管理异常 修复节点池异常配置步骤如下: 登录CCE控制台,进入“节点管理”。 找到问题节点池,单击“更多”并选择“配置管理”。 选择“网络组件配置(eni)”,修改节点池级别的节点预热容器网卡回收阈值
节点状态检查 检查项内容 集群升级后,需要检查节点状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群内节点的状态,您可以根据诊断结果前往节点列表页面进行确认。 解决方案 集群节点异常时,建议您通过重置节点来解决,若无法解决,请联系技术支持人员。 父主题: 升级后验证
仪表盘 使用仪表盘 集群视图 APIServer视图 Pod视图 主机视图 Node视图 节点池视图 GPU视图 XGPU视图 CoreDNS视图 PVC视图 Kubelet视图 Prometheus Server视图 Prometheus Agent视图 父主题: 监控中心
容器使用SCSI类型云硬盘偶现IO卡住如何解决? 问题描述 容器使用SCSI类型的云硬盘存储,在CentOS节点上创建和删除容器触发磁盘频繁挂载卸载的场景,有概率会出现系统盘读写瞬时冲高,然后系统卡住的问题,影响节点正常工作。 出现该问题时,可在dmesg日志中观察到: Attached SCSI
集群节点使用networkpolicy概率性出现panic问题 问题场景 集群版本:v1.15.6-r1版本 集群类型:CCE集群 网络模式:容器隧道网络模式 节点操作系统:CentOS 7.6 上述集群的用户配置使用networkpolicy后,由于节点上canal-agent网络组件与CentOS
用户节点组件健康检查异常处理 检查项内容 检查用户节点的容器运行时组件和网络组件等是否健康。 解决方案 问题场景一:CNI Agent is not active 如果您的集群版本在1.17.17以下,或者1.17.17以上且是隧道网络,请登录该节点,执行systemctl status
通过预判算法,在所有节点池中选择能满足Pending状态的Pod正常调度的规格。 考虑因素包括节点资源是否满足Pod的Request值,以及nodeSelector、nodeAffinity和taints等是否满足Pod正常调度的条件。 另外,部分节点池规格由于资源不足等扩容失败
检查节点是否需要迁移。 解决方案 该问题由于节点拉包组件异常或节点由比较老的版本升级而来,导致节点上缺少关键的系统组件导致。 解决方案一 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面,单击对应节点的“更多 > 重置节点”,详情请参见重置节点。节点重置完毕后,重试检查任务。
节点CPU使用率检查异常处理 检查项内容 检查节点CPU使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
standard-ia) name: pvc-obs-auto-example # PVC名称 namespace: default spec: accessModes: - ReadWriteMany resources: requests:
扩缩容节点池 您可指定节点池中的某个规格进行扩缩容。 默认节点池不支持扩缩容,请通过创建节点添加。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“节点管理”,在右侧选择“节点池”页签。 单击节点池名称后的“扩缩容”。 在弹出的“节点池扩缩容”窗口中,设置扩缩容参数。 扩缩容:选择“扩容节点”或“缩容节点”。
云原生成本治理概述 云原生成本治理是基于FinOps理念的容器成本治理解决方案,提供部门维度、集群维度、命名空间维度的成本和资源画像,并通过工作负载资源推荐等优化手段协助企业IT成本管理人员实现容器集群的提效降本诉求。 成本洞察 成本洞察基于真实账单和集群资源用量统计数据,通过自
io/storage-class: nfs-rw name: pvc-sfs-auto-example namespace: default spec: accessModes: - ReadWriteMany resources: requests:
'container_cpu_usage_seconds_total{namespace!="",pod!=""}' seriesFilters: [] resources: overrides: namespace: resource:
检查项内容 检查本次升级的目标版本是否支持Secret落盘加密特性,若不支持则不允许开启Secret落盘加密特性的集群升级至该版本。 解决方案 CCE从v1.27版本开始支持Secret落盘加密特性,开放该特性的版本号如下: v1.27集群:v1.27.10-r0及以上 v1.28集群:v1
跳过节点检查 检查项内容 集群升级后,需要检测集群内是否有跳过升级的节点,这些节点可能会影响正常使用。 检查步骤 系统会为您检查集群内是否存在跳过升级的节点,您可以根据诊断结果前往节点列表页进行确认。跳过的节点含有标签upgrade.cce.io/skipped=true。 解决方案 对
使用kubectl自动创建文件存储 使用kubectl对接已有文件存储 使用kubectl部署带文件存储卷的无状态工作负载 使用kubectl部署带文件存储卷的有状态工作负载 父主题: 存储管理-Flexvolume(已弃用)
v1.27 修复插件在CCI场景下pod请求耗时长问题 1.22.20 1.3.7 v1.19 v1.21 v1.23 v1.25 v1.27 - 1.22.20 1.3.5 v1.19 v1.21 v1.23 v1.25 v1.27 适配CCE v1.27集群 1.22.20 1
问题描述: 在什么场景下设置工作负载生命周期中的“停止前处理”? 问题解答: 服务的业务处理时间较长,在升级时,需要先等Pod中的业务处理完,才能kill该Pod,以保证业务不中断的场景。 父主题: 容器设置
避免IPVS缺陷导致的DNS概率性解析超时 问题描述 当集群使用IPVS作为kube-proxy负载均衡模式时,您可能会在CoreDNS缩容或重启时遇到DNS概率性解析超时的问题。 该问题由社区Linux内核缺陷导致,具体信息请参见https://github.com/torva