检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
排水任务检查异常处理 检查项内容 检查到集群中存在未完成的排水任务,此时升级可能会导致升级完成后触发排水动作,将运行中的Pod进行驱逐。 解决方案 配置Kubectl命令,具体请参见通过kubectl连接集群。 查看是否存在排水任务,以下为正常回显: kubectl get drainage
节点系统参数检查异常处理 检查项内容 检查您节点上默认系统参数是否被修改。 解决方案 如您的bms节点上bond0网络的mtu值非默认值1500,将出现该检查异常。 非默认参数可能导致业务丢包,请改回默认值。 父主题: 升级前检查异常问题排查
问题根因 事件信息表示账号被停用或没有权限,请检查账号状态是否正常。 如账号正常请查看该用户的命名空间权限,您需要拥有该命名空间的开发权限、运维权限或管理员权限之一,或者包含PVC/PV读写操作的自定义权限。详情请参见配置命名空间权限(控制台)。 父主题: 存储管理
进程 ID(PID)是节点上的一种基础资源,容易在尚未超出其它资源约束的时候触及进程ID数量上限,进而导致节点不稳定。 您可以根据实际业务需求调整进程ID数量上限。 默认kernel.pid_max说明 CCE在2022年1月底将1.17及以上集群的节点公共操作系统EulerOS
1.13版本集群停止维护公告 发布时间:2022/03/11 根据CCE发布的Kubernetes版本策略中的版本策略,从2022年3月11日起,CCE将对1.13版本集群停止维护。 建议您将集群升级到最新版本,升级操作请参见集群升级。 父主题: 集群版本公告
定时任务停止一段时间后,为何无法重新启动? 定时任务在运行过程中,如果被暂停,再次被开启时,控制器会检查上一次调度的时间点到现在所错过了调度次数。如果错过的调度次数超过100次, 那么它就不会启动这个任务并记录这个错误,详情请参考CronJob限制。 Cannot determine
io/ingress-bandwidth Pod的入口带宽 具体使用请参见为Pod配置QoS。 - kubernetes.io/egress-bandwidth Pod的出口带宽 具体使用请参见为Pod配置QoS。 - Pod标签 在控制台创建工作负载时,会默认为Pod添加如下标签,其中app的值为工作负载名称。
您可以将鼠标悬停在图表上,以便查看每分钟的监控数据。 CPU:单位时间内集群CPU使用情况的统计。 内存:单位时间内集群内存使用情况的统计。 PVC存储状态:PVC和PV的绑定情况。 Pod数量状态趋势:实时监控集群Pod的状态。 Pod总重启次数趋势:近5分钟的集群的Pod重启次数总和。 节点状态趋势:实时监控集群节点的状态。
114,该域名无法解析租户区域名。 根因分析 CCE会将用户的子网DNS信息配置到node节点上,coredns插件中也是使用该配置信息,因此会导致用户在节点容器内解析域名会偶发失败的状况。 解决方案 建议您通过修改coredns插件的存根域更新用户集群子网DNS配置,修改方法请参见为CoreDNS配置存根域。
docker审计日志量过大影响磁盘IO如何解决? 问题描述 部分集群版本的存量节点docker审计日志量较大,由于操作系统内核缺陷,会低概率出现IO卡住。该问题可通过优化审计日志规则,降低问题出现的概率。 影响范围 受影响的集群版本: v1.15.11-r1 v.1.17.9-r0 只需
不可以,数据盘是必须要的。 新建节点会给节点绑定一个供kubelet及容器引擎使用的专用数据盘,详情请参见数据盘空间分配说明。CCE数据盘默认使用LVM(Logical Volume Manager)进行磁盘管理,开启后您可以通过空间分配调整数据盘中不同资源的空间占比,具体请参见LVM简介。
into the current release 表示集群内已经创建了对应的ClusterRole资源,但是该资源不是由插件管理的。 解决方案 手动使用kubectl删除非插件管理的冲突的资源后,重试插件的安装。 安装超时 问题现象 安装/升级插件时,提示安装失败,错误信息显示 timed
运行态势的资源超卖策略等。 Volcano将分布式云平台中的资源统一管理,将不同类型的应用调度到合适的位置,有效的解决了多集群带来的资源碎片问题和因应用迭代带来的节点规格不匹配问题,帮助用户从繁杂的资源规划和版本迭代带来的变化中解脱出来。 资源分级管控 应用被调度到合适的运行环境后,如何来保障其所需要的资源呢?
/proc/xgpu/{GPU卡序号}/meminfo,注意替换命令中的{GPU卡序号}为步骤2获取的GPU卡序号,观测GPU虚拟化的可用显存。 比较步骤2和步骤3的可用显存。 由于GPU厂商的驱动程序,本身就会占用一定量的物理显存,量级在300MB左右,这属于正常现象。例如Tesla T4配套510
设置指定节点调度(nodeSelector) 在Kubernetes中,选择某个节点调度最简单的方式是在工作负载中配置nodeSelector字段,您可以通过nodeSelector字段设置希望调度的目标节点标签。Kubernetes只会将Pod调度到拥有指定标签的节点上。 前提条件 您需要为目标节点添加自定义标签,工
19版本中存在一个安全漏洞,攻击者可以利用该漏洞绕过保护措施并在主机上设置任意内核参数。这将导致任何有权在使用CRI-O的Kubernetes集群上部署Pod的用户都可以滥用kernel.core_pattern内核参数,在集群中的任何节点上以root身份实现容器逃逸和执行任意代码。 该问题已被收录为CVE-2022-0811。
内存的申请值增加1000Mi;CPU的限制值建议比申请值多1500m,内存的限制值建议比申请值多1000Mi。 申请值推荐计算公式: CPU申请值:计算“目标节点数 * 目标Pod规模”的值,并在表4中根据“集群节点数 * Pod规模”的计算值进行插值查找,向上取最接近规格的申请值及限制值。
节点关键命令检查异常处理 检查项内容 检查节点升级依赖的一些关键命令是否能正常执行。 解决方案 问题场景一:包管理器命令执行失败 检查到包管理器命令rpm或dpkg命令执行失败,请登录节点排查下列命令的可用性。 rpm -qa 如果上述命令不可用,可通过以下命令恢复: rpm --rebuilddb
改造流程 整体应用容器化改造时,需要执行完整的改造流程。 容器化改造流程包括:分析应用、准备应用运行环境、编写开机脚本、编写Dockerfile、制作并上传镜像、创建容器工作负载。 改造流程每一部分的详情可参考改造流程。 图1 容器化改造流程 父主题: 实施步骤
1.15版本集群停止维护公告 发布时间:2022/06/22 根据CCE发布的Kubernetes版本策略中的版本策略,计划从2022年9月30日起,CCE将对1.15版本集群停止维护。 建议您将集群升级到最新版本,升级操作请参见集群升级。 父主题: 集群版本公告