检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE集群升级时,升级集群插件失败如何排查解决? 概述 本文主要介绍在CCE在升级集群时,如何查找插件升级失败的原因,并解决问题。 操作步骤 插件升级失败后,请优先进行重试。若重试不成功,则根据后续步骤排查问题。 在升级界面显示失败后,请退出集群升级页面,前往“插件中心”界面查看
集群节点如何不暴露到公网? 问题描述: 集群节点如何不暴露到公网? 问题解决: 如果不需要访问集群节点的22端口,可在安全组规则中禁用22端口的访问。 如非必须,集群节点不建议绑定EIP。 如有远程登录集群节点的需求,推荐使用华为云堡垒机服务作为中转连接集群节点。 父主题: 安全加固
CCE节点NTP时间不同步如何解决? 问题现象 节点上的ntpd在长时间无法连接ntpserver等特殊场景下,可能导致偏移量过大,无法自动恢复。 问题检测 CCE节点故障检测插件(npd)中已包含节点时间同步检查项,您可以在集群中安装该插件进行检测。详情请参见CCE节点故障检测。
删除子网后如何删除安全组规则? 操作场景 在CCE Turbo集群中,v1.23.17-r0、v1.25.12-r0、v1.27.9-r0、v1.28.7-r0、v1.29.3-r0及以上版本的集群支持删除容器子网。 删除子网后,CCE默认生成的节点级的安全组不会自动清理待删除子网的安全组规则,需要手动清理。
的可用IP数和集群规模的影响,详情请参见网段规划建议。 网段规划建议 在集群网络构成中介绍集群中网络地址可分为集群网络、容器网络、服务网络三块,在规划网络地址时需要从如下方面考虑: 三个网段不能重叠,否则会导致冲突。且集群所在VPC下所有子网(包括扩展网段子网)不能和容器网段、服务网段冲突。
如何避免非GPU/NPU负载调度到GPU/NPU节点? 问题现象 当集群中存在GPU/NPU节点和普通节点混合使用的场景时,普通工作负载也可以调度到GPU/NPU节点上,可能出现GPU/NPU资源未充分利用的情况。 问题原因 由于GPU/NPU节点同样提供CPU、内存资源,在一般
Ingress和Nginx Ingress对比 在CCE服务中,集群支持通过Nginx Ingress和ELB Ingress为应用提供7层网络访问。 Nginx Ingress:CCE基于社区的Nginx Ingress Controller进行了优化,并定期同步社区特性和Bug修复。Nginx
插件安装失败,提示The release name is already exist如何解决? 问题现象 当安装插件失败,返回 The release name is already exist 错误。 问题原因 当安装插件返回The release name is already
“VPC网络”集群 取决于节点最大实例数和节点可分配容器IP数中的最小值 建议节点最大实例数不要超过节点可分配容器IP数,否则当节点容器IP数不足时,新建Pod将无法在该节点上正常运行。 “云原生2.0网络”集群(CCE Turbo集群) 取决于节点最大实例数和CCE Turbo集群节点网卡数量中的最小值
如何修复出现故障的容器网卡? 容器的网卡出现故障,会导致容器不断重启,且该容器无法对外提供服务。可通过如下步骤修复出现故障的容器网卡: 操作步骤 执行如下命令,删除故障容器的Pod。 kubectl delete pod {podName} -n {podNamespace} 其中:
监控GPU资源指标 通过Prometheus和Grafana,可以实现对GPU资源指标的观测。本文以实际示例介绍如何通过Prometheus查看集群的GPU显存的使用。 本文将通过一个示例应用演示如何监控GPU资源指标,具体步骤如下: 访问Prometheus (可选)为Prom
如何变更CCE集群中的节点规格? 约束与限制 节点池中的节点在ECS侧变更规格后,可能导致节点池弹性伸缩问题,详情请参见CCE节点池内的节点变更规格后会有哪些影响?。 CCE Turbo集群中的部分规格节点仅支持在CCE中创建,无法在ECS控制台变更规格,此种情况下调用ECS A
Pod接口ExtendPathMode: PodUID如何与社区client-go兼容? 使用场景 社区Pod结构体中没有ExtendPathMode,用户使用client-go调用创建pod或deployment的API接口时,创建的pod中没有ExtendPathMode。为
通过kubectl连接集群时,其配置文件config如何下载? 登录CCE控制台,单击需要连接的集群名称,进入“集群信息”页面。 在“连接信息”版块中查看kubectl的连接方式。 在弹出的窗口中可以下载kubectl配置文件kubeconfig.json。 图1 下载kubeconfig
Label:组织Pod的利器 为什么需要Label 当资源变得非常多的时候,如何分类管理就非常重要了,Kubernetes提供了一种机制来为资源分类,那就是Label(标签)。Label非常简单,但是却很强大,Kubernetes中几乎所有资源都可以用Label来组织。 Labe
如何重置CCE集群中节点的密码? 问题背景 在CCE中创建节点时,您选择了使用密钥对或者密码作为登录方式,当密钥对或密码丢失时,您可以登录ECS控制台对节点进行密码重置操作,重置密码后即可使用密码登录CCE服务中的节点。 操作步骤 登录ECS控制台。 在左侧弹性云服务器列表中,选
Service事件:Have no node to bind,如何排查? 登录CCE控制台,进入集群,在左侧导航栏选择“服务发现”。 在service列表里确认此服务是否有关联的工作负载,或关联的工作负载的相关实例是否正常。 父主题: 网络异常问题排查
Service的详细介绍请参见服务概述。 Ingress Service是基于四层TCP和UDP协议转发的,而Ingress可以基于七层的HTTP和HTTPS协议转发,可以通过域名和路径做到更细粒度的划分,如下图所示。 图2 Ingress-Service Ingress的详细介绍请参见路由概述。
kube-prometheus-stack插件实例调度失败如何解决? 问题现象 安装kube-prometheus-stack插件时, 插件状态一直处于“部分就绪”,查看插件的prometheus实例事件中提示“0/x nodes are available: x node(s)
如何收集CCE集群中节点的日志? 节点日志路径 CCE节点日志文件如下表所示。 表1 节点日志列表 日志名称 路径 kubelet日志 v1.21及以上版本集群:/var/log/cce/kubernetes/kubelet.log v1.19及以下版本集群:/var/paas/