检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
items: - key: ca.crt path: ca.crt name: kube-root-ca.crt - downwardAPI:
模板包信息 name 参数名 取值范围 默认值 是否允许修改 作用范围 name 无 无 支持初始化时配置,不支持后续修改 - 模板名称 version 参数名 取值范围 默认值 是否允许修改 作用范围 version 无 无 上传新版本后更新 - 模板版本 description
容器镜像。由于kubelet无法感知到非Pod产生的容器,也就无法感知到该容器镜像被引用,因此当kubelet尝试删除容器镜像时,容器运行时会因为容器镜像仍处于被引用的状态而拦截kubelet的删除行为,导致kubelet在定期回收镜像过程中出现失败。 解决方法 登录节点上执行以
创建集群时返回关联的任务ID,可通过任务ID查询创建集群的附属任务信息; 删除集群或者删除集群失败时返回关联的任务ID,此字段非空时,可通过任务ID查询删除集群的附属任务信息。 约束限制: 不涉及 取值范围: 不涉及 说明: 任务信息具有一定时效性,仅用于短期跟踪任务进度,请勿用于集群状态判断等额外场景。
负载均衡类型Service异常问题排查 集群内部无法使用ELB地址访问负载 集群外部访问Ingress异常 CCE集群中域名解析失败 为什么访问部署的应用时浏览器返回404错误码? 为什么容器无法连接互联网? VPC的子网无法删除,怎么办? 如何修复出现故障的容器网卡? 节点无法连接互联网(公网),如何排查定位?
检查到您集群中Ingress配置与ELB配置不一致,请确认是否在ELB侧修改过Ingress自动创建的监听器、转发策略、转发规则、后端云服务器组、后端云服务器和证书配置。 升级后会覆盖您在ELB自行修改的内容,请整改后再进行集群升级。 解决方案 根据诊断分析中的日志排查哪些资源需要整改,常见场景是在I
Error: cannot connect to Tiller Helm模板从“.Kube/config”中读取配置证书和kubernetes进行通讯,出现上述错误信息说明kubectl配置有误,请重新对接kubectl,具体请参见使用kubectl连接集群。 对接云存储后,存储未创建成功。
2及以上版本)。 Pod 启动失败 FailedStart 重要 检查Pod是否启动成功。 Pod 拉取镜像失败 FailedPullImage 重要 检查Pod是否拉取镜像成功。 Pod 启动重试失败 BackOffStart 重要 检查Pod是否重启失败。 Pod 调度失败 FailedScheduling
(SAN),kube-apiserver不再默认将X509证书的CommonName字段作为hostname处理,最终导致认证失败。 升级前检查您自建webhook server的证书是否配置了SAN字段。 若无自建webhook server则不涉及。 若未配置,建议您配置使用SAN字段指定证书支持的IP及域名。 v1
ip_local_port_range范围有冲突的情况下,可能会导致偶发的TCP无法连接的情况,导致健康检查失败、业务异常等问题。升级前,请确保集群没有NodePort端口与任意节点net.ipv4.ip_local_port_range范围存在冲突。更多信息,请参见Kubernetes社区PR。 CCE对Kubernetes
新连接。 开启 响应体中携带Server信息 server-tokens 关闭NGINX默认在响应头中加入的Server信息,这个信息通常会包含NGINX版本。禁用这个选项有助于隐藏服务器的信息,从而增强安全性,避免潜在的攻击者利用版本信息来进行攻击。 关闭 支持HTTP协议自动重定向为HTTPS
ip_local_port_range范围有冲突的情况下,可能会导致偶发的TCP无法连接的情况,导致健康检查失败、业务异常等问题。升级前,请确保集群没有NodePort端口与任意节点net.ipv4.ip_local_port_range范围存在冲突。更多信息,请参见Kubernetes社区PR。 CCE对Kubernetes
创建集群时返回关联的任务ID,可通过任务ID查询创建集群的附属任务信息; 删除集群或者删除集群失败时返回关联的任务ID,此字段非空时,可通过任务ID查询删除集群的附属任务信息。 约束限制: 不涉及 取值范围: 不涉及 说明: 任务信息具有一定时效性,仅用于短期跟踪任务进度,请勿用于集群状态判断等额外场景。
72 检查集群是否满足滚动升级条件 检查到您的集群暂时不满足滚动升级条件。 73 轮转证书文件数量检查 检查您节点上的证书数量过多(>1000),由于升级过程中会批量处理证书文件,证书文件过多可能导致节点升级过慢,节点上Pod被驱逐等。 74 集群网络组件的NetworkPolicy开关检查
watcher正在从中读取记录的当前段 样本丢弃率 次/秒 在通过远程写入发送之前,从WAL读取后丢弃的样本速率。 样本失败率 次/秒 发送到远程存储时失败的样本失败速率,不可恢复错误。 样本重试率 次/秒 在发送到远程存储时失败但由于发送错误可恢复而重试的样本速率 入队失败重试率 次/秒
检查项内容 检查节点中是否存在升级所必须的命令。 解决方案 该问题一般由于节点上缺少集群升级流程中使用到的关键命令,可能会导致集群升级失败。 报错信息如下: __error_code#ErrorCommandNotExist#chage command is not exists#__
[AK]”形式填写。 访问密码:遵循SWR的长期有效的认证凭证规则,需要用AK和SK来生成,详细说明请参考获取长期有效登录指令。 验证远程证书:建议取消勾选。 配置同步规则。 新建规则 填写如下参数。 名称:自定义。 复制模式:选择“Push-based”,表示把镜像由本地Harbor推送到远端仓库。
GPU节点使用nvidia驱动启动容器排查思路 集群中的节点是否有资源调度失败的事件? 问题现象: 节点运行正常且有GPU资源,但报如下失败信息: 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路: 确认节点标签是否已经打上nvidia资源。
查询集群日志配置信息 功能介绍 获取集群组件上报的LTS的配置信息 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/cluster/{cluster_id}/log-configs 表1 路径参数 参数 是否必选 参数类型
根据GPU/NPU卡信息定位使用该卡的Pod 在CCE中使用GPU/NPU卡时,无法直接获取到使用该卡的Pod。您可以根据GPU/NPU卡的信息,通过kubectl命令行操作筛选Pod,以便在GPU/NPU卡故障时能够及时将Pod驱逐。 前提条件 已创建CCE集群,且配置了kub