检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Pod重建风险检查异常处理 检查项内容 检查当前集群升级重启kubelet时,节点上运行的GPU/NPU业务容器是否可能发生重建,造成业务影响。 解决方案 请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重建带来的影响; 如需帮助,请您提交工单联系运维人员获取支持。
节点paas用户登录权限检查异常处理 检查项内容 检查paas用户是否有登录权限。 解决方案 执行以下命令查看paas用户是否有登录权限: sudo grep "paas" /etc/passwd 如果paas用户权限中带有"nologin"或者"false",说明paas用户没
检查历史升级记录是否满足升级条件 检查项内容 检查集群的历史升级记录,要求您的集群原始版本满足升级到目标集群版本的条件。 解决方案 该问题一般由于您的集群从比较老的版本升级而来,升级风险较大,建议您优先考虑集群迁移 若您仍然想要升级该集群,请您提交工单,联系技术支持人员进行评估。
com/torvalds/linux/commit/35dfb013149f74c2be1ff9c78f14e6a3cd1539d1。 解决方案 您可以通过使用节点DNS缓存NodeLocal DNSCache降低IPVS缺陷的影响,具体操作请参见使用NodeLocal DNSCache提升DNS性能。
延迟增加:CoreDNS需要处理更多的请求,可能会导致DNS查询变慢,从而影响业务性能。 资源占用率增加:为保证DNS性能,CoreDNS往往需要更高规格的配置。 解决方案 NodeLocal DNSCache可以提升服务发现的稳定性和性能。 关于NodeLocal DNSCache的介绍及如何在CCE集群中部署NodeLocal
节点时钟同步服务器检查异常处理 检查项内容 检查节点时钟同步服务器ntpd或chronyd是否运行正常。 解决方案 问题场景一:ntpd运行异常 请登录该节点,执行systemctl status ntpd命令查询ntpd服务运行状态。若回显状态异常,请执行systemctl restart
升级管控检查异常处理 检查项内容 检查集群是否处于升级管控中。 解决方案 CCE基于以下几点原因,可能会暂时限制该集群的升级功能: 基于用户提供的信息,该集群被识别为核心重点保障的生产集群。 正在或即将进行其他运维任务,例如Master节点3AZ改造等。 集群中存在容器引擎为Do
Master节点规格检查异常处理 检查项内容 检查本次升级集群的Master节点规格与实际的Master节点规格是否一致。 解决方案 该问题一般因为您进行过Master节点改造,此次升级可能会将您的Master节点重置为标准版本; 如您无法确认影响,请您提交工单联系运维人员支撑。
查看节点池配置的规格是否资源不足。 租户的ECS或内存配额是否不足。 如果一次创建节点太多,可能会出现租户的ECS容量校验不过的情况发生。 解决方案: 若租户已经欠费,请尽快续费。 若ECS节点资源不足,使用其他规格节点替代。 若ECS或内存配额不足,请扩大配额。 若ECS容量校验不通过,请重新校验。
该告警通常发生在低版本集群升级到v1.27及以上集群。CCE不建议您在1.27以上版本集群中继续使用docker,并计划在未来移除对docker的支持。 解决方案 若您的节点的运行时非containerd,您可通过节点重置功能重置节点的运行时为containerd。 如果您仍想在1.27以上集群中
<backend-svc-name> -n <namespace> 如果无法查询到对应的Service,则无法通过该检查项。 解决方案 检查项一解决方案 为Nginx类型的Ingress添加注解,方式如下: kubectl annotate ingress <ingress-name>
supports console access, not programmatic access." 该错误表示IAM用户没有编程访问权限。 解决方案 请联系主账号管理员,登录统一身份认证服务。 找到需要修改的IAM用户,单击用户名称。 修改“访问方式”,同时勾选“编程访问”和“管理控制台访问”。
节点Kubelet检查异常处理 检查项内容 检查节点kubelet服务是否运行正常。 解决方案 问题场景一:kubelet状态异常 kubelet异常时,节点显示不可用,请参考集群可用,但节点状态为“不可用”修复节点后,重试检查任务。 问题场景二:cce-pause版本异常 检测
为帮助企业高效上云,华为云Solution as Code萃取丰富上云成功实践,提供一系列基于华为云可快速部署的解决方案,帮助用户降低上云门槛。同时开放完整源码,支持个性化配置,解决方案开箱即用,所见即所得。 表3 Solution as Code一键式部署类最佳实践汇总 一键式部署方案 说明
增强型CPU管理策略检查异常处理 检查项内容 检查当前集群版本和要升级的目标版本是否支持增强型CPU管理策略。 解决方案 问题场景:当前集群版本使用增强型CPU管理策略功能,要升级的目标集群版本不支持增强型CPU管理策略功能。 升级到支持增强型CPU管理策略的集群版本,支持增强型CPU管理策略的集群版本如下表所示:
检查项内容 检查当前集群内使用containerd的节点在升级containerd组件时,节点上运行的业务容器是否可能发生重启,造成业务影响。 解决方案 检测到您的节点上的containerd服务存在重启风险;请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重启带来的影响;
7会偶现触发ext4文件系统卡死,ext4/jbd2会因为死锁而永远挂起。在文件系统上执行I/O的所有任务都将受到影响。 解决方法 临时解决方案:该问题触发后可以通过重启节点临时恢复。 长久解决方案: 若您的集群版本为1.19.16-r0、1.21.7-r0、1.23.5-r0、1.25.1-r0及以上,请
\"app_name\":\"magento\",\"mysql_database\":\"magento\",\"mysql_name\":\"mysql\",\"mysql_password\":\"******\",\"mysql_port\":3306,\"mysql_root_password\":\"******\"
\"app_name\":\"magento\",\"mysql_database\":\"magento\",\"mysql_name\":\"mysql\",\"mysql_password\":\"******\",\"mysql_port\":3306,\"mysql_root_password\":\"******\"
pod等)数量以及资源(cpu, memory)上限进行控制。启用该功能后,用户创建命名空间时将自动创建ResourceQuota对象 在高并发场景下(如批量创建pod),配额管理机制可能导致部分请求因冲突而失败,除非必要不建议启用该功能;如启用,请确保请求客户端具备重试机制 父主题: