检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
supports console access, not programmatic access." 该错误表示IAM用户没有编程访问权限。 解决方案 请联系主账号管理员,登录统一身份认证服务。 找到需要修改的IAM用户,单击用户名称。 修改“访问方式”,同时勾选“编程访问”和“管理控制台访问”。
GPU插件关键参数检查异常处理 检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer
节点ID文件检查异常处理 检查项内容 检查节点的ID文件内容是否符合格式。 解决方案 在CCE控制台上的“节点管理”页面,单击异常节点名称进入ECS界面。 复制节点ID,保存到本地。 图1 复制节点ID 登录异常节点,备份文件 。 cp /var/lib/cloud/data/instance-id
group "apps" in the namespace "default" 问题根因 用户没有操作该Kubernetes资源的权限。 解决方法 给该用户授权Kubernetes权限,具体方法如下。 登录CCE控制台,在左侧导航栏中选择“权限管理”。 在右边下拉列表中选择要添加权限的集群。
残留packageversion检查异常处理 检查项内容 检查当前集群中是否存在残留的packageversion。 解决方案 检查提示您的集群中存在残留的CRD资源10.12.1.109,该问题一般由于CCE早期版本节点删除后,对应的CRD资源未被清除导致。 您可以尝试手动执行以下步骤:
机器不检查 /etc/default/docker docker配置文件 containerd运行时或Centos-Group机器不检查 解决方案 建议您进行重置节点操作,参考重置节点。如果您不想重置节点,请联系技术支持人员恢复配置文件后进行升级。 父主题: 升级前检查异常问题排查
使用的字符。 仅用于查询,不支持请求时传入,填写无效。 creationTimestamp String 创建时间,创建成功后自动生成,填写无效 updateTimestamp String 更新时间,创建成功后自动生成,填写无效 ownerReference ownerReference
ing状态。 问题根因 Kubernetes为了防止误删除PV和PVC导致数据丢失,存在数据保护机制,无法使用delete命令直接删除。 解决方案 执行以下命令,先解除保护机制,再删除PV或PVC。 如果已经使用kubectl delete命令删除PV或PVC,会一直处在Term
Ingress引入了一致性哈希来解决这一问题。 一致性哈希是一种特殊的哈希算法,通过构建环状的hash空间来替代普通的线性hash空间,在增删节点时仅需要将路由的目标按顺时针原则向下迁移,而其他路由无需改变,可以尽可能地减少重新路由,有效解决动态增删节点带来的负载均衡问题。 通
节点命令行检查异常处理 检查项内容 检查节点中是否存在升级所必须的命令。 解决方案 该问题一般由于节点上缺少集群升级流程中使用到的关键命令,可能会导致集群升级失败。 报错信息如下: __error_code#ErrorCommandNotExist#chage command is
检查您集群网络组件的NetworkPolicy开关配置,如果您在集群Master节点上对NetworkPolicy开关进行过手动修改,那么升级过程中该配置会被刷新成默认值。 解决方案 根据诊断分析中的日志排查网络组件canal-controller的NetworkPolicy开关是否确实需要关闭。例如,集群通过云专
0 0 ... 解决方案 如何确认是否共享磁盘 根据检查信息,登录相应节点。 执行lsblk命令,查看/mnt/paas挂载了vgpaas-share分区,若存在则是共享磁盘场景,若不存在,则是非共享磁盘场景。 图1 查询是否为共享磁盘 节点挂载检查异常如何解决 取消手动修改的挂载点。
Ingress控制器社区issue:https://github.com/kubernetes/ingress-nginx/issues/1825 解决方法 您在创建Ingress时,可以通过“nginx.ingress.kubernetes.io/permanent-redirect-c
服务器不支持请求的功能,无法完成请求。 502 Bad Gateway 充当网关或代理的服务器,从远端服务器接收到了一个无效的请求。 503 ServiceUnavailable 被请求的服务无效。 建议直接修改该请求,不要重试该请求。 504 ServerTimeout 请求在给定的时间内无法完
无法重新拉起,也无法创建新负载。 更多信息请参见Kubernetes控制节点上的CPU管理策略。 影响范围 开启了CPU管理策略的集群。 解决方案 登录CCE节点(弹性云服务器)并删除cpu_manager_state文件。 删除命令示例如下: rm -rf /mnt/paas/
该告警通常发生在低版本集群升级到v1.27及以上集群。CCE不建议您在1.27以上版本集群中继续使用docker,并计划在未来移除对docker的支持。 解决方案 若您的节点池的运行时非containerd,您可通过更新节点池功能将节点池的运行时修改为containerd。 如果您仍想在1.27
server (ServiceUnavailable)时,表示未能连接到集群,需要检查kubectl到集群Master节点的网络是否能够连通。 解决方法 如果是在集群外部执行kubectl,请检查集群是否绑定公网IP,如已绑定,请重新下载kubeconfig文件配置,然后重新执行kubectl命令。
io/not-ready:NoExecute 当Pod对这些污点存在容忍策略时,Pod不会进行重新调度,因此需要检查Pod对污点的容忍策略。 解决方案 通过查询Pod或者工作负载的yaml,查看容忍策略。一般情况下,工作负载的容忍度设置由以下字段组成: tolerations: -
使用的字符。 仅用于查询,不支持请求时传入,填写无效。 creationTimestamp String 创建时间,创建成功后自动生成,填写无效 updateTimestamp String 更新时间,创建成功后自动生成,填写无效 ownerReference ownerReference
节点Sudo检查异常处理 检查项内容 检查当前节点sudo命令,sudo相关文件是否正常。 解决方案 问题场景一:sudo命令执行失败 集群原地升级过程中依赖sudo命令正常可用,请登录节点执行如下命令,排查sudo命令可用性。 sudo echo hello 如果sudo命令不