检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
问题根因 鲲鹏集群节点为EulerOS 2.8系统时,如果在Docker服务文件中配置了MountFlags=shared字段,会因为systemd特性的原因导致容器挂载点被卸载。 解决方法 修改Docker服务文件,删除MountFlags=shared字段,重启Docker。 登录节点。
节点journald检查异常处理 检查项内容 检查节点上的journald状态是否正常。 解决方案 请登录该节点,执行systemctl is-active systemd-journald命令查询journald服务运行状态。若回显状态异常,请执行systemctl restart
节点时钟同步服务器检查异常处理 检查项内容 检查节点时钟同步服务器ntpd或chronyd是否运行正常。 解决方案 问题场景一:ntpd运行异常 请登录该节点,执行systemctl status ntpd命令查询ntpd服务运行状态。若回显状态异常,请执行systemctl restart
安全组检查异常处理 检查项内容 检查Node节点安全组规则中,协议端口为ICMP:全部,源地址为Master节点安全组的规则是否被删除。 仅VPC网络模型的集群执行该检查项,非VPC网络模型的集群将跳过该检查项。 解决方案 请登录VPC控制台,前往“访问控制 > 安全组”,在搜索框内输入集群名称,此时预期过滤出两个安全组:
Ingress控制器 插件介绍 NGINX Ingress控制器能根据Service中Pod的变化动态地调整配置,结合Nginx的高稳定性、高性能、高并发处理能力等特点,对容器化应用具有灵活的应用层管理能力。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否
ngress自动创建的监听器、转发策略、转发规则、后端云服务器组、后端云服务器和证书配置。 升级后会覆盖您在ELB自行修改的内容,请整改后再进行集群升级。 解决方案 根据诊断分析中的日志排查哪些资源需要整改,常见场景是在Ingress对接的监听器下配置了其他的转发策略,导致监听器
返回结果 状态码 请求发送以后,您会收到响应,包含状态码、响应消息头和消息体。 状态码是一组从1xx到5xx的数字代码,状态码表示了请求响应的状态,完整的状态码列表请参见状态码。 对于获取用户Token接口,如果调用后返回状态码为“201”,则表示请求成功。 响应消息头 对应请求
no larger than 10. 由于ELB的API限制,使用高级转发规则时,每一条转发策略中设置的域名、路径、HTTP请求方法、HTTP请求头、查询字符串、网段、Cookie所有类型的转发规则下条件总数最多为10(同一个规则中的每个参数值均视为1个条件)。 例如,在一条转发策
修复报错信息中的APIService对象,使其能够正常访问,如果是插件中的APIService,请确保插件的Pod正常运行。 删除报错信息中的APIService对象,如果是插件中的APIService,可从页面卸载该插件。 父主题: 命名空间
健康中心概述 集群健康诊断用于诊断集群的健康状态,该功能集合了容器运维专家的经验,为您提供了集群级别的健康诊断最佳实践。可对集群健康状况进行全面检查,帮助您及时发现集群故障与潜在风险,并给出应对的修复建议供您参考。 健康诊断覆盖范围 健康诊断覆盖范围如下图所示: 图1 健康诊断覆盖范围
ed)下Pod的创建请求,自动配置使用DNS缓存的Pod dnsConfig字段。未开启DNSConfig自动注入或Pod属于非目标命名空间,则需要手动给Pod配置DNSConfig。 enable_namespace_admission 否 bool 为已创建的命名空间添加no
勾选需要加入安全组的服务器,单击“确定”。您也可以通过服务器的名称、ID、私有IP地址、状态、企业项目或标签进行筛选。 通过修改左下角的单页最大显示条数,您可至多一次性添加20台服务器至安全组中。 加入新的安全组后,节点仍保留原安全组。如需移除,请单击原安全组的“管理实例”按钮,并勾选其中的节点服务器进行移除。
节点被判定不可缩容后能再次启动检查的时间间隔,单位分钟,默认值:5。 scaleDownUtilizationThreshold 否 double 判断节点可缩容的cpu和内存资源使用率门限,默认0.5。 maxNodesTotal 否 int 集群扩容的节点数量上限,默认1000。 coresTotal
Standard/CCE Turbo 匹配实际节点ECS/BMS规格分类 vm:弹性云服务器 ElasticBMS:C6型弹性裸金属通用计算增强型云服务器,规格示例:c6.22xlarge.2.physical pm: 裸金属服务器 不填写时默认为vm 父主题: 节点池
18版本内核存在调度相关问题,使用CPU cgroup场景下,设置cfs bandwidth,并触发CPU带宽管控,会概率性触发warn级别告警打印,该流程会持有调度的rq锁,跟其他进程发生死锁(x86_64下为ABBA锁,aarch64下为AA锁)。 解决方法 您可以修改配置文件中的kernel
登录ECS控制台,查看节点对应的弹性云服务器是否已绑定弹性IP。 若弹性IP一栏有IP地址,表示已绑定弹性IP。若没有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性IP 排查项二:节点是否配置网络ACL 登录VPC控制台,单击左侧导航栏的“访问控制 > 网络ACL”。排查节点所在集群的子网是否配置了网络ACL,并限制了外部访问。
问题现象 NGINX Ingress控制器插件处于Unknown状态时,卸载插件会出现组件残留。 NGINX Ingress控制器插件涉及的K8s资源: 命名空间级别资源:secret、configmap、deployment、service、role、rolebinding、l
Pod出现Terminating 状态的原因可能有多种,以下是一些常见的情况: 节点异常:在节点处于“不可用”状态时,CCE会迁移节点上的容器实例,并将节点上运行的Pod置为Terminating状态。 待节点恢复后,处于Terminating状态的Pod会自动删除。 容器无响应:如果Pod中的容器在终止过
节点特殊资源:部分Pod可能请求特殊的资源类型,例如GPU等资源,调度器只能将其调度到GPU类型的节点上。 节点健康状态:节点的健康状况和状态可能影响调度决策,不健康的节点可能不会调度新的Pod。 为什么Pod实际负载在节点上分布不均匀 kube-scheduler调度器在分配Pod时不会考虑应用的实际负载
定时任务停止一段时间后,为何无法重新启动? 定时任务在运行过程中,如果被暂停,再次被开启时,控制器会检查上一次调度的时间点到现在所错过了调度次数。如果错过的调度次数超过100次, 那么它就不会启动这个任务并记录这个错误,详情请参考CronJob限制。 Cannot determine