检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点NetworkManager检查异常处理 检查项内容 检查节点上的NetworkManager状态是否正常。 解决方案 请登录该节点,执行systemctl is-active NetworkManager命令查询NetworkManager服务运行状态。若回显状态异常,请执行systemctl
Pod同时挂载同一文件存储,后设置的挂载参数不会覆盖已有参数值。针对上述场景希望设置不同的挂载参数,可以同时设置nosharecache挂载参数。 文件存储挂载参数 CCE的存储插件everest在挂载文件存储时默认设置了如表1所示的参数。 表1 文件存储挂载参数 参数 参数值 描述
节点关键命令检查异常处理 检查项内容 检查节点升级依赖的一些关键命令是否能正常执行。 解决方案 问题场景一:包管理器命令执行失败 检查到包管理器命令rpm或dpkg命令执行失败,请登录节点排查下列命令的可用性。 rpm -qa 如果上述命令不可用,可通过以下命令恢复: rpm --rebuilddb
升级管控检查异常处理 检查项内容 检查集群是否处于升级管控中。 解决方案 CCE基于以下几点原因,可能会暂时限制该集群的升级功能: 基于用户提供的信息,该集群被识别为核心重点保障的生产集群。 正在或即将进行其他运维任务,例如Master节点3AZ改造等。 集群中存在容器引擎为Do
19 v1.21 v1.23 更新至社区v1.2.0版本 修复CVE-2021-25746漏洞,新增规则禁用一些存在越权风险的Anntotations值 修复CVE-2021-25745漏洞,新增规则禁用一些存在越权风险的访问路径 1.2.0 表8 NGINX Ingress控制器插件2
CS控制台自定义挂载了2块裸盘用于创建本地存储池,则实际上仅能挂载16块数据盘。该场景下,如果该节点上调度18个挂载1块云硬盘的工作负载实例,就会出现2个工作负载实例由于节点上无法再挂载云硬盘,出现以上错误。 解决方案 当CCE 容器存储 (Everest)插件版本为2.3.11
扩容云硬盘存储卷 当工作负载挂载的云硬盘存储卷空间不足时,您可以通过云硬盘存储卷扩容的方式解决。本文介绍如何通过控制台进行云硬盘存储卷扩容。 前提条件 您已经创建好一个集群,并且在该集群中安装CCE容器存储(Everest)。 按需计费的云硬盘存储卷 登录CCE控制台,单击集群名称进入集群。
19版本。 最新版本的集群修复了已知的漏洞或者拥有更完善的安全防护机制,新建集群时推荐选择使用最新版本的集群。在集群版本停止提供服务前,请及时升级到新版本。 及时跟踪处理官网发布的漏洞 CCE服务会不定期发布涉及的漏洞,用户需及时关注和处理,参见漏洞公告。 关闭default的ser
节点运行时检查异常处理 检查项内容 该告警通常发生在低版本集群升级到v1.27及以上集群。CCE不建议您在1.27以上版本集群中继续使用docker,并计划在未来移除对docker的支持。 解决方案 若您的节点的运行时非containerd,您可通过节点重置功能重置节点的运行时为containerd。
误卸载存储池的磁盘后如何恢复 存储池是Everest创建的一种Custom Resource,资源为nodelocalvolumes,该资源在正常情况下不建议手动操作。Everest每分钟会扫描空闲磁盘,并检查已添加进存储池的磁盘是否正常。 Everest使用LVM进行存储池管理
6387安全漏洞。 5.10.0-60.18.0.50.r1083_58.hce2.x86_64 2024年4月 更新系统内核,修复安全漏洞。 5.10.0-60.18.0.50.r1002_48.hce2.x86_64 2023年12月 更新系统内核,修复安全漏洞。 5.10.0-60
节点配置文件检查异常处理 检查项内容 检查节点上关键组件的配置文件是否存在。 当前检查文件列表如下: 文件名 文件内容 备注 /opt/cloud/cce/kubernetes/kubelet/kubelet kubelet命令行启动参数 - /opt/cloud/cce/kub
节点干扰ContainerdSock检查异常处理 检查项内容 检查节点上是否存在干扰的Containerd.Sock文件。该文件影响Euler操作系统下的容器运行时启动。 解决方案 问题场景:节点使用的docker为定制的Euler-docker而非社区的docker 登录相关节点。
Autopilot集群 10:36 CCE Autopilot:全面”自动驾驶”时代的引领者 CCE FinOps解决方案 介绍华为云云原生FinOps解决方案 10:36 华为云云原生FinOps解决方案,释放云原生最大价值 CCE云原生观测中心 介绍CCE云原生观测中心 10:36 新一代云原生可观测平台
节点Sudo检查异常处理 检查项内容 检查当前节点sudo命令,sudo相关文件是否正常。 解决方案 问题场景一:sudo命令执行失败 集群原地升级过程中依赖sudo命令正常可用,请登录节点执行如下命令,排查sudo命令可用性。 sudo echo hello 如果sudo命令不
当前检查项包括以下内容: 检查节点关键数据盘使用量是否满足升级要求 检查/tmp目录是否存在500MB可用空间 解决方案 节点升级过程中需要使用磁盘存储升级组件包,使用/tmp目录存储临时文件。 问题场景一:Master节点磁盘使用量不满足升级要求 请联系技术支持人员排查处理。 问题场景二:用户节点磁盘使用量不满足升级要求
example.yaml 配置Kubeflow所需存储资源。 katib-mysql mysql-pv-claim minio-pv-claim authservice-pvc 由于Kubeflow在创建时需要配置一些存储资源,官方示例中的存储配置无法在CCE中生效,导致上述PVC无法创
用户节点组件健康检查异常处理 检查项内容 检查用户节点的容器运行时组件和网络组件等是否健康。 解决方案 问题场景一:CNI Agent is not active 如果您的集群版本在1.17.17以下,或者1.17.17以上且是隧道网络,请登录该节点,执行systemctl status
查看Prometheus实例日志 解决方案 方案一:推荐使用关闭本地数据存储模式对接AOM实例。使用AOM托管指标数据,无需管理存储。 方案二:在左侧导航栏中选择“存储”,并切换至monitoring命名空间,选中pvc-prometheus-server-0的磁盘,扩容对应的存储资源。扩容完成后
节点时钟同步服务器检查异常处理 检查项内容 检查节点时钟同步服务器ntpd或chronyd是否运行正常。 解决方案 问题场景一:ntpd运行异常 请登录该节点,执行systemctl status ntpd命令查询ntpd服务运行状态。若回显状态异常,请执行systemctl restart