检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
登录CCE控制台,单击集群名称进入集群。 在导航栏中选择“节点管理”,并切换至“节点”页签,单击“创建节点”。节点配置详情请参见创建节点。 图1 创建节点 解决方案 若集群升级后您的集群无法创建节点,请联系技术支持人员。 父主题: 升级后验证
制。 表1 受限的everest插件版本 插件名称 涉及版本 everest v1.0.2-v1.0.7 v1.1.1-v1.1.5 解决方案 检测到当前everest版本存在兼容性限制,无法随集群升级,请联系技术支持人员。 父主题: 升级前检查异常问题排查
Master节点子网配额检查异常处理 检查项内容 检查本次升级集群子网剩余可用IP数量是否支持滚动升级。 解决方案 该问题一般因为您选择的集群子网的IP数量不够,无法支持滚动升级; 请您迁移对应子网中的节点之后重试检查,若您无法确认迁移影响,请您提交工单联系运维人员支撑。 父主题:
aseagent/baseagent.log安装日志,发现如下报错: 查看节点LVM设置,发现/dev/vdb没有创建LVM逻辑卷。 解决方案 手工创建逻辑卷: pvcreate /dev/vdb vgcreate vgpaas /dev/vdb 然后在界面重置节点后节点状态正常。
节点paas用户登录权限检查异常处理 检查项内容 检查paas用户是否有登录权限。 解决方案 执行以下命令查看paas用户是否有登录权限: sudo grep "paas" /etc/passwd 如果paas用户权限中带有"nologin"或者"false",说明paas用户没
检查历史升级记录是否满足升级条件 检查项内容 检查集群的历史升级记录,要求您的集群原始版本满足升级到目标集群版本的条件。 解决方案 该问题一般由于您的集群从比较老的版本升级而来,升级风险较大,建议您优先考虑集群迁移 若您仍然想要升级该集群,请您提交工单,联系技术支持人员进行评估。
检查到您的节点上镜像数量过多(>1000个),可能导致docker启动过慢,影响docker标准输出,影响nginx等功能的正常使用。 解决方案 请手动删除残留的镜像,防止后续升级异常; 删除镜像之后请您重新进行升级前检查 父主题: 升级前检查异常问题排查
信息,并单击“提交”,开始创建节点。 待GPU节点创建完成后,可前往“节点列表”查看节点状态。 导入OBS存储卷 进入存储管理页面,导入OBS存储数据预置中创建的OBS存储卷。 父主题: 在CCE集群中部署使用Caffe
Master节点SSH连通性检查异常处理 检查项内容 该检查通过尝试建立SSH连接,检查CCE是否能通过SSH方式连接至您的Master节点。 解决方案 SSH连通性检查可能有较低概率因为网络波动检查失败,请您优先重试升级前检查; 若重试检查仍无法通过检查,请您提交工单,联系技术支持人员排查。
检查项内容 检查当前集群Service是否通过annotation配置了ELB监听器的访问控制。 若有配置访问控制则检查相关配置项是否正确。 解决方案 如果配置项存在错误,请参考为负载均衡类型的Service配置黑名单/白名单访问策略进行重新配置。 父主题: 升级前检查异常问题排查
节点journald检查异常处理 检查项内容 检查节点上的journald状态是否正常。 解决方案 请登录该节点,执行systemctl is-active systemd-journald命令查询journald服务运行状态。若回显状态异常,请执行systemctl restart
Master节点规格检查异常处理 检查项内容 检查本次升级集群的Master节点规格与实际的Master节点规格是否一致。 解决方案 该问题一般因为您进行过Master节点改造,此次升级可能会将您的Master节点重置为标准版本; 如您无法确认影响,请您提交工单联系运维人员支撑。
容性问题。当Ubuntu内核版本在5.15.0-113-generic上时,GPU插件必须使用535.161.08及以上的驱动版本。 解决方案 您在升级后新创或者重置Ubuntu节点时,可能遇到该问题,请编辑GPU插件中的驱动版本至535.161.08及以上,然后重启该节点。 父主题:
检查集群管理平面网段是否与主干配置一致 检查项内容 检查集群管理平面网段是否与主干配置一致。 解决方案 该问题由于您的局点做过管理面网段配置修改,导致主干配置中的管理平面网段不一致; 请您提交工单,联系技术支持人员修改配置之后重启检查。 父主题: 升级前检查异常问题排查
ntainerd启动过慢,影响docker/containerd标准输出。 如果您集群中使用了nginx,可能会出现转发变慢等问题。 解决方案 请登录节点手动删除用不到的镜像,防止后续升级异常。 父主题: 升级前检查异常问题排查
操作步骤 CoreDNS的配置都存储在名为coredns的ConfigMap下,您可以在kube-system命名空间下找到该配置项。使用如下命令可以查看到默认配置的内容。 kubectl get configmap coredns -n kube-system -oyaml kind:
supports console access, not programmatic access." 该错误表示IAM用户没有编程访问权限。 解决方案 请联系主账号管理员,登录统一身份认证服务。 找到需要修改的IAM用户,单击用户名称。 修改“访问方式”,同时勾选“编程访问”和“管理控制台访问”。
节点Kubelet检查异常处理 检查项内容 检查节点kubelet服务是否运行正常。 解决方案 问题场景一:kubelet状态异常 kubelet异常时,节点显示不可用,请参考集群可用,但节点状态为“不可用”修复节点后,重试检查任务。 问题场景二:cce-pause版本异常 检测
<backend-svc-name> -n <namespace> 如果无法查询到对应的Service,则无法通过该检查项。 解决方案 检查项一解决方案 为Nginx类型的Ingress添加注解,方式如下: kubectl annotate ingress <ingress-name>
查看节点操作系统及openssh版本: 如果集群node节点OS是EulerOS、Huawei Cloud EulerOS 1.1和CentOS,openssh版本不受该漏洞影响。 如果集群node节点OS是Huawei Cloud EulerOS 2.0,可以用如下命令查看安装包版本: rpm -qa