检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
"集群CPU实际使用率超过50%, 集群当前CPU使用率为{{ printf \"%.2f\" $value }}%" description: "集群CPU实际使用率超过50%, 集群当前CPU使用率为{{ printf \"%.2f\" $value }}%" 配置成
/etc/systemd/journald.conf 修改RuntimeMaxUse参数,建议值为100M。 若查看journald.conf文件时,文件中已设置RuntimeMaxUse值,可通过以下命令对参数值进行修改。 sed -i "s/RuntimeMaxUse=[0-9]*M/RuntimeMaxUse=100M/g"
际转发策略可根据域名、service来区分);所以出现客户侧在其它命名空间无法创建相同端口的ingress的情况(会提示端口冲突)。 解决方法 可以使用yaml创建,端口冲突只有前台限制,后台未限制。 父主题: 网络指导
群Master成本+系统命名空间成本)组成。其中未被分配空闲成本以及集群管理成本,被定义为公共成本。当部门按照命名空间进行设置时,需要关联业务命名空间,并设置公共成本的分摊比例。 图2 部门成本计算示例 示例中,Cluster1是部门A的专属集群,Cluster2是部门C的专属集
ntainerd.service LimitNOFILE或LimitNPROC参数设置为infinity时,表示容器单进程最大文件句柄数为1048576。 容器单进程最大文件句柄数通过以下参数设置: ... LimitNOFILE=1048576 LimitNPROC=1048576
application/octet-stream 的layer,而containerd不支持application/octet-stream,导致没有拉取。 解决方法 有如下两种方式可解决该问题。 使用高版本Docker(>= docker v1.11)重新打包镜像。 手动下载镜像 登录节点。 执行如下命令手动下载镜像。
跨租户共享,影响范围较小,对于多用户场景需要关注。 当前CCE采用华为优化的Docker容器,其中RUNC采用静态编译,目前公开披露的攻击方法无法成功入侵。 华为云CCI容器实例服务: CCI引擎采用华为Kata容器引擎,提供单节点上多容器高安全的hypervisor级别的隔离能
节点数量过少,无法满足组件Pod的反亲和性要求,对应事件描述中存在didn't match pod anti-affinity rules等字样。 解决方案:可以参考以下方法满足组件Pod的调度要求,处理完成之后再次尝试组件变更操作。 检查节点的污点,删除不必要的污点。具体操作,请参见管理节点污点。 合理分配容
imagePullPolicy: Never 说明如下: 如果设置为Always ,则每次容器启动或者重启时,都会从远程仓库拉取镜像。 如果省略imagePullPolicy,策略默认为Always。 如果设置为IfNotPreset,有下面两种情况: 当本地不存在所需的镜像时,会从远程仓库中拉取。
会同时存在于AOM中。 随着历史数据的老化,集群内的Prometheus将会与AOM中数据完全相同(例如:您的Prometheus存储时长设置为7天,7天以后AOM中的数据将会和集群内的Prometheus数据完全相同)。 编辑云原生监控插件,切换为无本地存储的轻量化模式,您可以
工作负载 工作负载异常问题排查 容器设置 监控日志 调度策略 其他
签,默认展示集群视图。 监控中心仪表盘提供了预置视图,您可单击视图名称边上的“切换视图”按钮,选择需要的视图查看监控数据。 设置查看视图的相关参数。 设置视图的时间窗。 在页面右上角处,选择时间段,或者自定义时间,并单击刷新界面。 父主题: 仪表盘
范围可选择对应集群或者选择全部。 当指标值小于等于1时,表示集群重度过载,推荐设置紧急告警。 当指标值小于等于2时,表示集群中度过载,推荐设置重要告警。 当指标值小于等于3时,表示集群轻度过载,推荐设置次要告警。 其余参数可按需求填写。 图6 配置集群过载告警 单击“立即创建”。
命名空间 创建命名空间 管理命名空间 设置资源配额及限制
的差异及适配方案进行排查并做相应的适配验证。 如您短期内切换到 Helm V3 存在困难,可通过后台 Helm 客户端方式继续管理并部署 Helm V2 实例,操作方法请参见通过 Helm V2 客户端部署应用。为了更好地维护您的权益以及更好地获取运维支撑,请您在2022年12月30日前彻底切换至 Helm
umount: <mount-path>: target is busy 问题根因 出现以上问题的原因是宿主机上有其他进程正在使用该设备。 解决方法 您需要登录到Pod所在宿主机上查找正在使用该设备的进程,并终止对应的进程。 登录Pod所在节点。 执行以下命令,找到对应挂载路径下的云存
但在内核中没有释放cssid,导致内核认为的cgroup的数量实际数量不一致,残留的cgroup达到节点上限后,导致该节点无法继续新建Pod。 解决方法 该问题可以通过可以在内核层全局使用 “cgroup.memory=nokmem” 参数关闭kmem使用防止发生泄漏。 1.17集群版本已停止维护,修复该问题建议升级至1
其他类型的节点不涉及该问题。 上述问题在v1.19.16-r7、v1.21.9-r10、v1.23.7-r10版本的集群中被修复。 解决方法 若您的集群版本为v1.19.16-r7、v1.21.9-r10、v1.23.7-r10及以上,该版本的节点已经切换至chronyd时间同步,请重置节点即可修复该问题。
该诊断工具通过综合使用Kubernetes原生API、Kubernetes事件、日志以及监控指标,对问题进行全面的分析和判定,并提供具体的修复建议。这种综合诊断方法不仅提高了故障定位的准确性,还显著减少了运维人员的工作负担,从而提升了整体运维效率。 前提条件 已获取资源权限。 集群版本高于v1.17。
coredns_dns_request_do_count_total counter 设置了DO标志位的请求次数累计值 coredns_dns_do_requests_total counter 设置了DO标志位的请求总数 coredns_dns_request_size_bytes_bucket