检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点交换区检查异常处理 检查项内容 检查集群CCE节点的上是否开启了交换区。 解决方案 CCE节点默认关闭swap交换区,请您确认手动开启交换区的原因,并确定关闭影响; 若确定无影响后请执行swapoff -a命令关闭交换区之后重新检查。 父主题: 升级前检查异常问题排查
增强型CPU管理策略检查异常处理 检查项内容 检查当前集群版本和要升级的目标版本是否支持增强型CPU管理策略。 解决方案 问题场景:当前集群版本使用增强型CPU管理策略功能,要升级的目标集群版本不支持增强型CPU管理策略功能。 升级到支持增强型CPU管理策略的集群版本,支持增强型CPU管理策略的集群版本如下表所示:
节点创建 CCE集群新增节点时的问题与排查方法? CCE集群纳管节点时的常见问题及排查方法? 纳管节点时失败,报错“安装节点失败”如何解决? CCE支持等保三级认证吗? 父主题: 节点
级节点发生重启,则节点有极大概率为NotReady状态。 主要原因为升级失败的节点有大概率重启kubelet而触发节点注册流程,v1.15 kubelet默认注册标签(failure-domain.beta.kubernetes.io/is-baremetal和kubernetes
排查项九:JAVA探针的版本选择latest导致 排查项十:用户自身业务BUG 在ARM架构的节点上创建工作负载时未使用正确的镜像版本,使用正确的镜像版本即可解决该问题。 图1 重新启动容器失败排查思路 排查项一:(退出码:0)容器中无持续运行的进程 登录异常工作负载所在的节点。 查看容器状态。 docker
4-r0及以上版本的集群支持。 单向认证:仅进行服务器端认证。如需认证客户端身份,请选择双向认证。 双向认证:双向认证需要负载均衡实例与访问用户互相提供身份认证,从而允许通过认证的用户访问负载均衡实例,后端服务器无需额外配置双向认证。 CA证书:SSL解析方式选择“双向认证”时需要添加CA证书,用于认证客
的兼容性问题。当Ubuntu内核版本在5.15.0-113-generic上时,GPU插件必须使用535.161.08及以上的驱动版本。 解决方案 您在升级后新创或者重置Ubuntu节点时,可能遇到该问题,请编辑GPU插件中的驱动版本至535.161.08及以上,然后重启该节点。
原生技术的优势,让用户更快速、方便地部署、使用和管理当前最流行的机器学习软件。 目前Kubeflow 1.0版本已经发布,包含开发、构建、训练、部署四个环节,可全面支持企业用户的机器学习、深度学习完整使用过程。 如下图所示: 通过Kubeflow 1.0,用户可以使用Jupyte
Master节点子网配额检查异常处理 检查项内容 检查本次升级集群子网剩余可用IP数量是否支持滚动升级。 解决方案 该问题一般因为您选择的集群子网的IP数量不够,无法支持滚动升级; 请您迁移对应子网中的节点之后重试检查,若您无法确认迁移影响,请您提交工单联系运维人员支撑。 父主题:
检查项内容 检查当前集群内使用containerd的节点在升级containerd组件时,节点上运行的业务容器是否可能发生重启,造成业务影响。 解决方案 检测到您的节点上的containerd服务存在重启风险;请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重启带来的影响;
升级后Master节点上的时区会变为集群时区。 如果您集群中存在Cronjob,则可能会导致Cronjob在升级后触发一次非预期的执行。 解决方案 请在升级前关闭Cronjob后再次执行升级前检查,升级完成后开启Cronjob。 父主题: 升级前检查异常问题排查
svc <backend-svc-name> -n <namespace> 如果无法查询到对应的Service,则无法通过该检查项。 解决方案 检查项一解决方案 为Nginx类型的Ingress添加注解,方式如下: kubectl annotate ingress <ingress-name>
节点无法连接互联网(公网),如何排查定位? 当节点无法连接互联网时,请参照如下方法排查。 排查项一:节点是否绑定弹性IP 登录ECS控制台,查看节点对应的弹性云服务器是否已绑定弹性IP。 若弹性IP一栏有IP地址,表示已绑定弹性IP。若没有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性IP
镜像仓库 如何制作Docker镜像?如何解决拉取镜像慢的问题? 如何上传我的镜像到CCE中使用?
节点CPU数量检查异常处理 检查项内容 检查您的集群Master节点的CPU核心数量,要求Master节点的核心数量大于2核。 解决方案 当前您的Master节点cpu数量为2,可能会导致集群升级失败; 请联系技术支持人员,将该集群Master节点扩容至4核及以上。 父主题: 升级前检查异常问题排查
在ELB服务侧被修改。 解决方案 该问题的出现,一般是由于用户在CCE中创建HTTPS类型Ingress后,直接在ELB证书管理功能中修改了Ingress引用的证书,导致CCE集群中存储的证书内容与ELB侧不一致,进而导致升级后ELB侧证书被覆盖。 请登录ELB服务控制台,在“弹性负载均衡
操作系统紧急漏洞按照操作系统修复策略和流程对外发布,一般在一个月内提供修复方案,用户自行修复。 其他漏洞: 按照版本正常升级流程解决。 修复声明 为了防止客户遭遇不当风险,除漏洞背景信息、漏洞详情、漏洞原理分析、影响范围/版本/场景、解决方案以及参考信息等内容外,CCE不提供有关漏洞细节的其他信息。
下面以配置2个集群为例演示如何修改kubeconfig文件访问多个集群。 为简洁文档篇幅,如下示例选取公网访问的方式,删除内网访问方式。如果您需要在内网访问多集群,只需要保留内网访问的集群clusters字段,保证能够从内网访问到集群即可,其方法与下面内容并无本质区别。 分别下载2个
在集群升级过程中,云原生监控插件从3.9.0之前的版本升级至3.9.0之后的版本升级时,存在兼容性问题,需检查该插件是否开启了grafana的开关。 解决方案 由于云原生监控插件在3.9.0之后的版本,不再聚合grafana的能力,因此升级前需要重新安装开源版本grafana插件。 重新安装grafana不会影响已有的数据。
检查集群管理平面网段是否与主干配置一致 检查项内容 检查集群管理平面网段是否与主干配置一致。 解决方案 该问题由于您的局点做过管理面网段配置修改,导致主干配置中的管理平面网段不一致; 请您提交工单,联系技术支持人员修改配置之后重启检查。 父主题: 升级前检查异常问题排查