检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
业务不同,验证的方式也有所不同,建议您在升级前确认适合您业务的验证方式,并在升级前后均执行一遍。 常见的业务确认方式有: 业务界面可用 监控平台无异常告警与事件 关键应用进程无错误日志 API拨测正常等 解决方案 若集群升级后您的在线业务有异常,请联系技术支持人员。 父主题: 升级后验证
问题现象 当您访问控制台时,出现报错“权限不足”,错误码:CCE.01403001。 问题原因 您使用的账号未被授予当前操作所需的IAM权限。 解决方案 使用华为云账号或者具有IAM权限的账号登录IAM管理控制台。 根据错误提示页面的信息为您的账号添加CCE控制台依赖的权限。详细
初始化 Running 运行中 Success 成功 Failed 失败 Error 错误 expireTimeStamp String 检查结果过期时间 message String 信息,一般是执行错误的日志信息 clusterCheckStatus clusterCheckStatus
先结束。如果容器持续使用超过限制的内存,这个容器就会被终结。如果一个结束的容器允许重启,kubelet就会重启它,但是会出现其他类型的运行错误。 场景一 节点的内存超过了节点内存预留的上限,导致触发OOMkill。 解决方法: 可扩容节点或迁移节点中的pod至其他节点。 场景二
定时任务在运行过程中,如果被暂停,再次被开启时,控制器会检查上一次调度的时间点到现在所错过了调度次数。如果错过的调度次数超过100次, 那么它就不会启动这个任务并记录这个错误,详情请参考CronJob限制。 Cannot determine if job needs to be started. Too many
如何解决VPC网段与容器网络冲突的问题? 在集群创建页面,若“容器网段”配置与“VPC网段”冲突,界面会提示“该网段与VPC网段有冲突,请重新选择”,重新调整“容器网段”即可。 图1 网段冲突提示 父主题: 网络异常问题排查
会发送RST中断建立的TCP连接。该实现方式可能会导致后端服务器中的应用认为TCP连接异常退出,并打印错误信息,如“Connection reset by peer”。 这种错误是合理范围内的,无法避免的,不必关心它。 父主题: 网络异常问题排查
排查项一:cce-pause镜像是否被误删除 排查项二:集群开启CPU管理策略后变更节点规格 排查项一:cce-pause镜像是否被误删除 问题现象 创建工作负载时报如下错误,显示无法创建sandbox,原因是拉取cce-pause:3.1镜像失败。 Failed to create pod sandbox: rpc
ELB Ingress高级配置示例 为ELB Ingress配置HTTPS证书 更新ELB Ingress的HTTPS证书 为ELB Ingress配置服务器名称指示(SNI) 为ELB Ingress配置多个转发策略 为ELB Ingress配置HTTP/2 为ELB Ingress配置HTTPS协议的后端服务
跨云Harbor同步镜像至华为云SWR 场景描述 部分客户存在多云场景,并且使用某一家云上的自建Harbor作为镜像仓库。跨云Harbor同步镜像至SWR存在两种场景: Harbor可以通过公网访问SWR,配置方法参见公网访问场景。 通过专线打通Harbor到VPC间的网络,使用
客户node节点vdb盘受损,通过重置节点,无法恢复节点。 问题过程: 在一个正常的node节点上,删除lv,删除vg,节点不可用。 重置异常节点,重置过程中,报语法错误,而且节点不可用。 如下图: 问题定位 node节点中vg被删除或者损坏无法识别,为了避免重置的时候误格式化用户的数据盘,需要先手动恢复v
查看集群上所运行的应用程序 创建、修改Kubernetes上的资源(例如Deployment、Job、DaemonSet等) 展示集群上发生的错误 例如:您可以伸缩一个Deployment、执行滚动更新、重启一个Pod或部署一个新的应用程序。 开源社区地址:https://github
对于原因二引起的扩容失败,请使用已给您授权的共享密钥ID。 节点池指定的安全组被删除 当扩容节点池失败时,事件中包含创建节点失败的错误,错误信息如下: Security group [*****] not found 该问题可能存在以下两种情况: 情况一:节点池配置了自定义安
问题现象 安装kube-prometheus-stack插件时, 插件状态一直处于“部分就绪”,查看插件的prometheus实例事件中提示“0/x nodes are available: x node(s) had volume node affinity conflict
on。 解决方案 检查提示您的集群中存在残留的CRD资源10.12.1.109,该问题一般由于CCE早期版本节点删除后,对应的CRD资源未被清除导致。 您可以尝试手动执行以下步骤: 备份残留的CRD资源。10.12.1.109 为示例资源,请根据报错中提示的资源进行替换。 kubectl
轮转证书文件数量检查 检查项内容 检查您节点上的证书数量过多(>1000),由于升级过程中会批量处理证书文件,证书文件过多可能导致节点升级过慢,节点上Pod被驱逐等。 解决方案 方案一:优先建议您重置节点,详情请参考重置节点。 方案二:修复节点上证书轮转异常问题。 进入节点/op
Nginx Ingress高级配置示例 为Nginx Ingress配置HTTPS证书 为Nginx Ingress配置重定向规则 为Nginx Ingress配置URL重写规则 为Nginx Ingress配置HTTPS协议的后端服务 为Nginx Ingress配置GRPC协议的后端服务
registry-1.docker.io: no such host 镜像地址配置有误找不到镜像导致失败。 排查项二:填写的镜像地址错误(使用第三方镜像时) 排查项三:使用错误的密钥(使用第三方镜像时) Failed create pod sandbox: rpc error: code = Unknown
出现关键参数格式错误或缺失的问题。 请您根据以下思路进行逐一排查Ingress配置: 检查对接ELB参数是否正确 由于ELB通过annotations字段下的参数进行定义,但是K8s在创建资源时并不会对annotations字段参数进行校验,如果出现关键参数错误或缺失,Ingress资源也可被创建,但无法正常访问。
x86_64的场景下(主要为1.17.9版本集群),反复创建应用时出现cgroup kmem泄露,导致节点内存有空余,但是无法创建新的Pod,并提示报错Cannot allocate memory。 问题根因 在反复创建应用时会创建的临时memory cgroup,但在应用删除时,内核已经删除了