检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
spec.service)]}{.metadata.name}{"\n"}{end}' 若返回值非空,说明存在聚合API Server。 漏洞修复方案 除了升级之外,当前没有直接可用的缓解措施。集群管理员应注意控制权限,防止非受信人员通过APIService接口部署和控制聚合API Server。
端场景下甚至会引起集群内业务大面积解析失败。本文介绍Kubernetes集群中CoreDNS配置优化的最佳实践,帮助您避免此类问题。 解决方案 CoreDNS配置优化包含客户端优化及服务端优化。 在客户端,您可以通过优化域名解析请求来降低解析延迟,通过使用合适的容器镜像、节点DNS缓存NodeLocal
GPU虚拟化 GPU虚拟化能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。 GPU虚拟化 NPU调度 CCE为集群中
监控中心开通失败,插件状态异常。 解决方案:请前往“插件管理”页面查看已安装插件列表,单击云原生监控插件名称,展开实例列表,检查状态为异常的Pod的事件,根据界面报错信息排查异常原因。 图4 插件状态异常 成功进入监控中心页面,但页面数据为空。 解决方案: 请前往“插件中心”页面查看已
LoadBalancer类型Service的方式对外提供访问。应用更新或升级时,Deployment会创建新的Pod并逐步替换旧的Pod,这个过程中可能会导致服务中断。 解决方案 避免服务中断可以从Deployment和Service两类资源入手: Deployment可以采用滚动升级的升级方式,为对各个实例逐个进
字段和模板包名称不一致。 如果您需要自定义模板包的名称和版本,需要同步修改Chart.yaml文件中的name和version字段。 解决方案 查看模板Chart.yaml文件中的name和version字段。 例如,nginx-ingress的模板包中Chart.yaml文件如
前往插件中心,查看是否已安装云原生日志采集插件以及插件版本。 图1 查看已安装插件版本 若插件版本在1.3.4-1.5.1范围内,则涉及该漏洞。 漏洞消减方案 CCE已在云原生日志采集插件1.5.2版本中修复该漏洞,在修复前建议通过关闭指标上报接口消减该漏洞影响: 节点上执行以下命令: kubectl
域名解析插件(coredns)健康程度 业务节点负载情况 业务节点状态 Pod配置健康程度 Pod负载情况 Pod运行状态 更多内容请参见诊断项及修复方案。 父主题: 健康中心
检查完毕后,在导航栏中选择“工作负载”并切换至“守护进程集”,选择post-upgrade-check工作负载并单击“更多>删除”,删除该测试用工作负载。 解决方案 若Pod无法新建,或状态异常,请联系技术支持人员,并说明异常发生的范围为新建节点还是存量节点。 父主题: 升级后验证
度到GPU/NPU节点运行,于是可能会出现GPU/NPU节点的CPU、内存资源被普通工作负载占用的情况,导致GPU/NPU资源闲置。 解决方案 在使用GPU/NPU节点时,可以为其添加污点,并通过工作负载容忍度设置,避免非GPU/NPU工作负载调度到GPU/NPU节点上。 GPU
ss应用的镜像版本是否小于1.2.1 2. 使用CCE提供的nginx-ingress插件,判断插件版本号是否小于等于2.1.0 漏洞修复方案 1. 升级ingress-nginx版本至1.2.1; 2. 如果您正在运行 v1.2.0 (gcr.io/k8s-staging-in
"<CRD_NAME>" in version "<CRD_FULL_NAME>" ensure CRDs are installed first 解决方案: 这是因为kustomization创建CRD和CR速度较快,可能会出现CRD尚未创建就创建CR的情况。如果您遇到此错误,建议您重新创建资源。
是跳过删底层卷的流程,直接开始删除PV,这样PVC和PV被成功删除,但是底层卷残留。关于此问题的逻辑代码请参见controller。 解决方案 对于已残留的底层存储,请通过手动删除的方式进行清理。 对于未删除的动态创建PVC,请直接删除PVC,其绑定的PV和底层存储会被自动删除,无需手动删除。
在node节点上使用root用户执行containerd --version查看containerd版本。 新Console上的“节点管理”处也可以查看运行时版本。 漏洞修复方案 容器 entrypoint 使用 capsh工具去除自身的 Inheritable Capabilities。 相关链接 社区公告:https://github
节点CCE Agent版本检查异常处理 检查项内容 检测当前节点的CCE包管理组件cce-agent是否为最新版本。 解决方案 问题场景一: 错误信息为“you cce-agent no update, please restart it”。 该问题为cce-agent无需更新,
节点池缩容时,如果缩容已变更规格的节点,将导致实际缩容的CPU/内存数(4U8G)大于预期缩容的CPU/内存数(2U4G),使得被缩容的CPU/内存资源过多。 解决方案 不建议您变更节点池中节点的规格,您可以使用更新节点池功能为节点池添加其他规格的节点,然后等待业务调度至新节点后,将原节点缩容。 登录CC
allowedUnsafeSysctls v1.19以上 docker /etc/docker/daemon.json dm.basesize v1.19以上 解决方案 如您对这些文件的某些参数进行修改,有可能导致升级之后出现异常情况。如果您不能确认自行修改的参数是否会影响到升级,请联系技术人员确认。 父主题:
node节点中vg被删除或者损坏无法识别,为了避免重置的时候误格式化用户的数据盘,需要先手动恢复vg,这样重置的时候就不会去格式化其余的数据盘。 解决方案 登录节点。 重新创建PV和VG,但是创建时报错: root@host1:~# pvcreate /dev/vdb Device /dev/vdb
io/not-ready:NoExecute 当Pod对这些污点存在容忍策略时,Pod不会进行重新调度,因此需要检查Pod对污点的容忍策略。 解决方案 通过查询Pod或者工作负载的yaml,查看容忍策略。一般情况下,工作负载的容忍度设置由以下字段组成: tolerations: - key:
检查当前CoreDNS关键配置Corefile是否同Helm Release记录存在差异,差异的部分可能在插件升级时被覆盖,影响集群内部域名解析。 解决方案 您可在明确差异配置后,单独升级CoreDNS插件。 配置Kubectl命令,具体请参见通过kubectl连接集群。 获取当前生效的Corefile。