检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点kube-proxy故障 CCE 节点异常立即触发告警 登录集群查看告警节点状态,确认异常后,优先将此节点设置为不可调度,并将业务pod调度到其他节点 节点操作系统内核故障 CCE 节点异常立即触发告警 登录集群查看告警节点状态,确认异常后,优先将此节点设置为不可调度,并将业务pod调度到其他节点 节点的连接跟踪表已满
检查集群是否满足滚动升级条件 检查项内容 检查到您的集群暂时不满足滚动升级条件。 解决方案 该检查失败一般由于资源租户的资源配额不足引起,无法支持滚动升级; 请联系运维人员扩充资源之后重新检查。 父主题: 升级前检查异常问题排查
操作系统镜像发布记录 操作系统版本支持机制 操作系统镜像版本说明 父主题: 产品发布记录
节点系统参数检查异常处理 检查项内容 检查您节点上默认系统参数是否被修改。 解决方案 如您的bms节点上bond0网络的mtu值非默认值1500,将出现该检查异常。 非默认参数可能导致业务丢包,请改回默认值。 父主题: 升级前检查异常问题排查
挂载路径一般设置为: /opt/xxxx(但不能为/opt/cloud) /mnt/xxxx(但不能为/mnt/paas) /tmp/xxx /var/xxx (但不能为/var/lib、/var/script、/var/paas等关键目录) /xxxx(但不能和系统目录冲突,
当安装插件返回The release name is already exist错误时,表示kuberneters集群中有残留该插件release记录,一般由于集群etcd做过备份恢复或者该插件之前安装删除异常导致。 解决方案 通过kubectl对接集群,手动清理该插件release对应的se
最大文件句柄数即打开文件数的最大限制,Linux系统中包含两个文件句柄限制:一个是系统级的,即所有用户的进程同时打开文件数的上限;一种是用户级的,即单个用户进程打开文件数的上限。但是在容器中,还有另一个文件句柄限制,即容器内部单进程最大文件句柄数。 修改节点系统参数的命令仅在使用公共镜像时有效,
检查当前集群中是否存在残留的packageversion。 解决方案 检查提示您的集群中存在残留的CRD资源10.12.1.109,该问题一般由于CCE早期版本节点删除后,对应的CRD资源未被清除导致。 您可以尝试手动执行以下步骤: 备份残留的CRD资源。10.12.1.109
和统一管理,应用和数据可在云上云下无缝迁移,满足复杂业务系统对弹性伸缩、灵活性、安全性与合规性的不同要求,并可统一运维多个云端资源,从而实现资源的灵活使用以及业务容灾等目的。 优势 云上容灾 通过云容器引擎,可以将业务系统同时部署在多个云的容器服务上,统一流量分发,单云故障后能够
Master节点子网配额检查异常处理 检查项内容 检查本次升级集群子网剩余可用IP数量是否支持滚动升级。 解决方案 该问题一般因为您选择的集群子网的IP数量不够,无法支持滚动升级; 请您迁移对应子网中的节点之后重试检查,若您无法确认迁移影响,请您提交工单联系运维人员支撑。 父主题:
conf配置文件来更改内核参数。 修改节点系统参数的命令仅在使用公共镜像时有效,使用私有镜像时本文中提供的命令仅供参考。 节点重启后需执行sysctl -p用于刷新参数值。 表1 节点内核参数列表 参数名称 参数位置 说明 建议值 file-max /etc/sysctl.conf 系统整体最大文件句柄数,可视业务情况调整。
Standard/CCE Turbo 若不配置,默认创建最新版本的集群。 若指定集群基线版本但是不指定具体r版本,则系统默认选择对应集群版本的最新r版本。建议不指定具体r版本由系统选择最新版本。 Turbo集群支持1.19及以上版本商用。 配置建议: 推荐使用最新的商用版本。 集群平台版本号
检查历史升级记录是否满足升级条件 检查项内容 检查集群的历史升级记录,要求您的集群原始版本满足升级到目标集群版本的条件。 解决方案 该问题一般由于您的集群从比较老的版本升级而来,升级风险较大,建议您优先考虑集群迁移 若您仍然想要升级该集群,请您提交工单,联系技术支持人员进行评估。
问题根因 业务容器内存使用超过容器的内存限制量时,触发cgroup OOM,被系统内核终止。容器cgroup OOM在CentOS 7会偶现触发ext4文件系统卡死,ext4/jbd2会因为死锁而永远挂起。在文件系统上执行I/O的所有任务都将受到影响。 解决方法 临时解决方案:该问题触发后可以通过重启节点临时恢复。
节点命令行检查异常处理 检查项内容 检查节点中是否存在升级所必须的命令。 解决方案 该问题一般由于节点上缺少集群升级流程中使用到的关键命令,可能会导致集群升级失败。 报错信息如下: __error_code#ErrorCommandNotExist#chage command is
谨慎操作。 登录CCE控制台,进入集群。 在左侧导航栏中选择“命名空间”,选中待删除的命名空间,单击“更多 > 删除”。 根据系统提示进行删除操作。系统内置的命名空间不支持删除。 父主题: 命名空间
U型号,选择兼容配套软件包并安装。 本文将介绍如何选择GPU节点的驱动版本及配套的CUDA Toolkit。 如何选择GPU节点驱动版本 一般情况下,使用GPU资源时您将会使用以下软件包,并且软件包版本需要保持配套: 驱动GPU工作的硬件驱动程序,如Tesla系列驱动。 上层应用程序所需要的库,如CUDA
Master节点规格检查异常处理 检查项内容 检查本次升级集群的Master节点规格与实际的Master节点规格是否一致。 解决方案 该问题一般因为您进行过Master节点改造,此次升级可能会将您的Master节点重置为标准版本; 如您无法确认影响,请您提交工单联系运维人员支撑。 父主题:
如何设置容器内的DNS策略? CCE支持通过dnsPolicy标记每个Pod配置不同的DNS策略: None:表示空的DNS设置,这种方式一般用于想要自定义DNS配置的场景,而且,往往需要和dnsConfig配合一起使用达到自定义DNS的目的。 Default:从运行所在的节点继
单元,每个节点包含自己的处理器和本地内存,这些节点在物理上彼此独立,但通过高速互连总线连接在一起,形成一个整体系统。NUMA节点能够通过提供更快的本地内存访问来提高系统性能,但通常一个Node节点是多个NUMA节点的集合,在多个NUMA节点之间进行内存访问时会产生延迟,开发者可以