检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
8开始,Kubernetes通过Metrics API提供资源使用指标,例如容器CPU和内存使用率。这些度量可以由用户直接访问(例如,通过使用kubectl top命令),或者由集群中的控制器(例如,Horizontal Pod Autoscaler)使用来进行决策,具体的组件为Metric
工作负载的“事件”保存多长时间? 在1.7.3-r12、1.9.2-r3及以上版本的集群中,工作负载的“事件”信息保存时间为1个小时,1小时后自动清除数据。 在1.7.3-r12之前更老的集群版本中,保存时间为24小时。 父主题: 监控日志
权限和命名空间权限。 场景二 如果某IAM用户拥有一定范围的集群管理权限和命名空间权限,然后在界面下载kubeconfig认证文件。此时CCE根据用户信息的权限判断kubectl有权限访问哪些Kubernetes资源,即哪个用户获取的kubeconfig文件,kubeconfig
/etc/sysctl.conf 参数值为0或1。 0:表示关闭,所有不在TCP窗口中的包都被标志为无效。 1:表示开启,只有不在TCP窗口内的包被标志为无效。容器场景下,开启这个参数可以避免NAT过的TCP连接带宽受限。 查看参数: sysctl net.netfilter.nf_conntrack_tcp_be_liberal
节点CPU数量检查异常处理 检查项内容 检查您的集群Master节点的CPU核心数量,要求Master节点的核心数量大于2核。 解决方案 当前您的Master节点cpu数量为2,可能会导致集群升级失败; 请联系技术支持人员,将该集群Master节点扩容至4核及以上。 父主题: 升级前检查异常问题排查
节点关键命令检查异常处理 检查项内容 检查节点升级依赖的一些关键命令是否能正常执行。 解决方案 问题场景一:包管理器命令执行失败 检查到包管理器命令rpm或dpkg命令执行失败,请登录节点排查下列命令的可用性。 rpm -qa 如果上述命令不可用,可通过以下命令恢复: rpm --rebuilddb
检查节点镜像数量异常处理 检查项内容 检查到您的节点上镜像数量过多(>1000个),可能导致docker启动过慢,影响docker标准输出,影响nginx等功能的正常使用。 解决方案 请手动删除残留的镜像,防止后续升级异常; 删除镜像之后请您重新进行升级前检查 父主题: 升级前检查异常问题排查
节点镜像层数量异常检查 检查项内容 检查到您的节点上镜像层数量过多(>5000层),可能导致docker/containerd启动过慢,影响docker/containerd标准输出。 如果您集群中使用了nginx,可能会出现转发变慢等问题。 解决方案 请登录节点手动删除用不到的镜像,防止后续升级异常。
集群资源规划合理性 租户配额是否充足 资源与业务层面 存储插件(everest)健康程度 日志采集插件(log-agent)健康程度 域名解析插件(coredns)健康程度 业务节点负载情况 业务节点状态 Pod配置健康程度 Pod负载情况 Pod运行状态 更多内容请参见诊断项及修复方案。
书文件,证书文件过多可能导致节点升级过慢,节点上Pod被驱逐等。 解决方案 方案一:优先建议您重置节点,详情请参考重置节点。 方案二:修复节点上证书轮转异常问题。 登录节点,并进入节点证书目录。 cd /opt/cloud/cce/kubernetes/kubelet/pki/
前提条件 已开通成本洞察功能 约束与限制 由于实际账单的获取存在两天时间延迟,开通成本洞察后,成本洞察成本数据会延迟2天显示。 使用成本洞察期间,需要保证云原生监控插件运行正常,否则影响成本洞察中命名空间、工作负载、节点池等相关视图的呈现。 操作入口 登录CCE控制台,单击集群名称进入集群。
jection=enabled)下Pod的创建请求,自动配置使用DNS缓存的Pod dnsConfig字段。未开启DNSConfig自动注入或Pod属于非目标命名空间,则需要手动给Pod配置DNSConfig。 enable_namespace_admission 否 bool
842/pods/mypod 执行以下命令,将输出结果的pod.yaml文件与您创建Pod使用的文件进行对比。 kubectl get pods/$mypod yaml > mypod.yaml $mypod为异常Pod的名称,您可以通过kubectl get pods命令查看。
请参考工作负载异常:Init容器启动失败 Init:Error Init容器启动失败 请参考工作负载异常:Init容器启动失败 Init:CrashLoopBackOff Init容器不断重启失败 请参考工作负载异常:Init容器启动失败 Pod状态检查方法 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。
GPU/NPU Pod重建风险检查异常处理 检查项内容 检查当前集群升级重启kubelet时,节点上运行的GPU/NPU业务容器是否可能发生重建,造成业务影响。 解决方案 请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重建带来的影响; 如需帮助,请您提交工单联系运维人员获取支持。
检查集群是否满足滚动升级条件 检查项内容 检查到您的集群暂时不满足滚动升级条件。 解决方案 该检查失败一般由于资源租户的资源配额不足引起,无法支持滚动升级; 请联系运维人员扩充资源之后重新检查。 父主题: 升级前检查异常问题排查
一次性Job 创建一个Pod直至其成功结束 数据库迁移 固定结束次数的Job 依次创建一个Pod运行直至completions个成功结束 处理工作队列的Pod 固定结束次数的并行Job 依次创建多个Pod运行直至completions个成功结束 多个Pod同时处理工作队列 并行Job
为满足数据持久化的需求,CCE支持将对象存储服务(OBS)创建的存储卷挂载到容器的某一路径下,对象存储适用于云工作负载、数据分析、内容分析和热点对象等场景。 图1 CCE挂载对象存储卷 约束限制 安全容器不支持使用对象存储卷。 OBS限制单用户创建100个桶,但是CCE使用OBS桶为单个
修改kubelet参数导致已驱逐的Pod被重新调度 问题现象 如果节点存在Memory/Disk/PID Pressure的情况,节点会被添加系统污点。此时修改节点池kubelet组件配置参数或者重启节点kubelet后,该污点会被临时删除,可能会导致由于节点资源压力而触发驱逐的
Master节点时区检查 检查项内容 检查到您集群中Master节点实际时区与集群时区不一致,滚动升级后Master节点上的时区会变为集群时区。 如果您集群中存在Cronjob,则可能会导致Cronjob在升级后触发一次非预期的执行。 解决方案 请在升级前关闭Cronjob后再次