检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群节点使用networkpolicy概率性出现panic问题 问题场景 集群版本:v1.15.6-r1版本 集群类型:CCE集群 网络模式:容器隧道网络模式 节点操作系统:CentOS 7.6 上述集群的用户配置使用networkpolicy后,由于节点上canal-agent网络组件与CentOS
EulerOS 2.9内核缺陷导致虚拟机卡住 故障现象 EulerOS 2.9节点上,由于内核存在调度相关的社区问题,有低概率会触发死锁,表现为虚拟机卡住。 影响范围 x86内核版本:4.18.0-147.5.1.6.h1152.eulerosv2r9.x86_64 arm内核版本:4
--insecure \ -d '{"metadata":{"cluster_id": "${cluster_id}", "namespace": "${pvc_namespace}"}}' \ -H 'Accept:application/json' -H 'Conten
通过预判算法,在所有节点池中选择能满足Pending状态的Pod正常调度的规格。 考虑因素包括节点资源是否满足Pod的Request值,以及nodeSelector、nodeAffinity和taints等是否满足Pod正常调度的条件。 另外,部分节点池规格由于资源不足等扩容失败
修改节点池系统盘/数据盘大小、数据盘空间分配则仅对新增节点生效,即使重置存量节点也无法同步配置。 修改资源标签、K8s标签和污点数据会根据“存量节点标签及污点”开关状态决定是否自动同步已有节点,无需重置节点。 单个节点同步 登录CCE控制台。 单击集群名称进入集群,在左侧选择“节点管理”,在右侧选择“节点”页签。
通用文件存储(SFS 3.0)在OS中的挂载点修改属组及权限报错 现象描述 将通用文件存储(SFS 3.0)挂载到OS中某个目录后,该目录成为通用文件存储(SFS 3.0)的挂载点,使用chown和chmod命令尝试修改挂载点的属组或权限,会遇到以下报错: chown: changing
"。 spec.claimRef.name 与下一步创建的pvc的name一致。 spec.claimRef.namespace 与下一步创建的pvc的namespace一致。 PVC yaml文件配置示例如下: apiVersion: v1 kind: PersistentVolumeClaim
您还可以在“策略”页面中查看已创建的弹性伸缩策略: 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中单击“策略”,切换至“节点伸缩策略”页签。 您可以查看弹性伸缩策略的配置。单击要策略后方的“更多 > 伸缩历史”,您可以查看该策略的伸缩记录。 删除节点弹性策略 在CCE控制台,单击集群名称进入集群。
纳管节点时失败,报错“安装节点失败”如何解决? 问题描述 节点纳管失败报错安装节点失败。 问题原因 登录节点,查看/var/paas/sys/log/baseagent/baseagent.log安装日志,发现如下报错: 查看节点LVM设置,发现/dev/vdb没有创建LVM逻辑卷。
内存Limit水位 百分比 集群整体内存Limits占集群内存容量的百分比。 Pod数 个 集群中处在不同运行状态下的Pod个数(状态包含:Failed、Pending、Running、Succeeded、Unknown等)。 容器数 个 集群中处在不同运行状态下的容器个数(状态包含:Containers
Kubelet每秒执行的操作失败的次数 操作时延 秒 Kubelet的不同操作的操作时延 Pod启动速率 次/秒 Kubelet每秒执行了pod start的次数 Pod启动时延(99分位) 秒 Kubelet执行pod start操作中99%的操作的时延分布情况 存储操作速率 次/秒 Kubelet每秒执行的存储相关操作的次数
单击“确认配置”。 步骤二:重启节点池下的节点 重启节点前建议排空节点中的Pod,详情请参见节点排水。请注意预留GPU资源以满足节点排空过程中的Pod调度需求,防止资源不足导致Pod调度失败影响业务运行。 登录CCE控制台,单击集群名称进入集群控制台。 单击“节点管理”,找到更新驱动的节点池,单击“节点列表”。
天显示。 使用成本洞察期间,要保证云原生监控插件运行正常,否则影响成本洞察中命名空间、工作负载、节点池等相关视图的呈现。 操作入口 登录CCE控制台,单击左侧导航栏中的“云原生成本治理”。 图1 云原生成本治理 查看部门分析模块。 图2 查看部门分析 单击部门成本明细中的某一部门名称,进入对应单部门视角。
通过annotation指定其归属的PodGroup,如下: apiVersion: apps/v1 kind: Deployment metadata: name: podgroup-test labels: app: podgroup-test spec:
挂载文件存储的节点,Pod创建删除卡死 故障现象 在挂载文件存储(SFS或SFS Turbo)的节点上,删除Pod卡在“结束中”,创建Pod卡在“创建中”。 可能原因 后端文件存储被删除,导致无法访问挂载点。 节点与文件存储间网络异常,导致无法访问挂载点。 解决方案 登录挂载文件
98h 查看Deployment的副本数是否大于1。 Deployment中使用EVS存储卷时,副本数只能为1。若用户在后台指定Deployment的实例数为2以上,此时CCE并不会限制Deployment的创建。但若这些实例Pod被调度到不同的节点,则会有部分Pod因为其要使用
Master节点子网配额检查异常处理 检查项内容 检查本次升级集群子网剩余可用IP数量是否支持滚动升级。 解决方案 该问题一般因为您选择的集群子网的IP数量不够,无法支持滚动升级; 请您迁移对应子网中的节点之后重试检查,若您无法确认迁移影响,请您提交工单联系运维人员支撑。 父主题:
检查项内容 检查本次升级的目标版本是否支持Secret落盘加密特性,若不支持则不允许开启Secret落盘加密特性的集群升级至该版本。 解决方案 CCE从v1.27版本开始支持Secret落盘加密特性,开放该特性的版本号如下: v1.27集群:v1.27.10-r0及以上 v1.28集群:v1
定时任务停止一段时间后,为何无法重新启动? 定时任务在运行过程中,如果被暂停,再次被开启时,控制器会检查上一次调度的时间点到现在所错过了调度次数。如果错过的调度次数超过100次, 那么它就不会启动这个任务并记录这个错误,详情请参考CronJob限制。 Cannot determine
适用于节点为按需计费类型,若您的节点为该类型,可从cce-console上查看节点创建时间,2021年2月24日及之后创建的CentOS 7.6节点无该问题。 2、准确排查方法(通用) 您可以执行下述步骤排查节点是否受此问题影响: 以root用户登录CCE集群节点。 执行下述命令排查是否为隐患节点: