检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点关键命令检查异常处理 检查项内容 检查节点升级依赖的一些关键命令是否能正常执行。 解决方案 问题场景一:包管理器命令执行失败 检查到包管理器命令rpm或dpkg命令执行失败,请登录节点排查下列命令的可用性。 rpm -qa 如果上述命令不可用,可通过以下命令恢复: rpm --rebuilddb
正常的TCP三次握手后,会进行数据传输,但是在健康检查时会发送RST中断建立的TCP连接。该实现方式可能会导致后端服务器中的应用认为TCP连接异常退出,并打印错误信息,如“Connection reset by peer”。 这种错误是合理范围内的,无法避免的,不必关心它。 父主题: 网络异常问题排查
1.15版本集群停止维护公告 发布时间:2022/06/22 根据CCE发布的Kubernetes版本策略中的版本策略,计划从2022年9月30日起,CCE将对1.15版本集群停止维护。 建议您将集群升级到最新版本,升级操作请参见集群升级。 父主题: 集群版本公告
kubelet和kube-proxy授权问题漏洞公告(CVE-2020-8558) 修复Kubernetes HTTP/2漏洞公告 修复Linux内核SACK漏洞公告 修复Docker操作系统命令注入漏洞公告(CVE-2019-5736) 全面修复Kubernetes权限许可和访问控制
接已有CI/CD,完成传统应用的容器化改造和部署。 优势 高效流程管理 更优的流程交互设计,脚本编写量较传统CI/CD流水线减少80%以上,让CI/CD管理更高效。 灵活的集成方式 提供丰富的接口便于与企业已有CI/CD系统进行集成,灵活适配企业的个性化诉求。 高性能 全容器化架构设计,任务调度更灵活,执行效率更高。
集群原地升级过程中会修改/etc/sudoers文件和/etc/sudoers.d/sudoerspaas文件,以获取sudo权限,更新节点上属主和属组为root的组件(例如docker、kubelet等)与相关配置文件。请登录节点执行如下命令,排查文件的可修改性。 lsattr -l /etc/sudoers
改造流程 整体应用容器化改造时,需要执行完整的改造流程。 容器化改造流程包括:分析应用、准备应用运行环境、编写开机脚本、编写Dockerfile、制作并上传镜像、创建容器工作负载。 改造流程每一部分的详情可参考改造流程。 图1 容器化改造流程 父主题: 实施步骤
节点镜像层数量异常检查 检查项内容 检查到您的节点上镜像层数量过多(>5000层),可能导致docker/containerd启动过慢,影响docker/containerd标准输出。 如果您集群中使用了nginx,可能会出现转发变慢等问题。 解决方案 请登录节点手动删除用不到的镜像,防止后续升级异常。
pu,设置对应的容器规格。 启动命令添加python /home/caffeEx00_GPU.py。 挂载刚刚导入的OBS存储盘: 单击“创建”。等待job执行完成,进入OBS存储盘的outputimg下,可以看到推理使用的图片。 登录在集群中添加GPU节点添加的节点,执行docker
当IAM服务发生区域性故障时,存在低概率触发鉴权异常,从而影响集群内工作负载存储卷挂载、负载均衡对接等功能。最新的集群版本针对该类故障场景进行了优化和加固,为确保您的业务稳定运行,建议您尽快将账号下的集群升级至目标版本。 触发条件 同时满足以下条件: 集群版本范围: 已EOS版本:v1.19及以下所有版本
登录数据加密服务 DEW控制台。 在自定义密钥列表中,找到集群使用的KMS密钥。 “计划删除”状态的密钥:单击操作列中的“取消删除”。如果密钥取消删除后,仍处于“禁用”状态,则还需取消禁用。 “禁用”状态的密钥:单击操作列中的“启用”。 密钥重新为“启用”状态后,集群将在大约在5-10分钟内自动恢复。
根据PDB规则保障关键业务的可用性。 节点的系统盘和数据盘将会被清空,重置前请事先备份重要数据。 节点重置会清除用户单独添加的K8S标签和K8S污点,可能导致与节点有绑定关系的资源(本地存储,指定调度节点的负载等)无法正常使用。请谨慎操作,避免对运行中的业务造成影响。 升级操作完成后,节点将会自动开机。
Secret落盘加密特性兼容性检查异常处理 检查项内容 检查本次升级的目标版本是否支持Secret落盘加密特性,若不支持则不允许开启Secret落盘加密特性的集群升级至该版本。 解决方案 CCE从v1.27版本开始支持Secret落盘加密特性,开放该特性的版本号如下: v1.27集群:v1.27.10-r0及以上
动与实例运行的节点所在可用区保持一致。例如实例运行的节点可用区为可用区1,则该云硬盘的可用区也为可用区1。 当集群中卸载kube-prometheus-stack插件时,prometheus实例绑定的存储卷不会被一起删除,保留了已有的监控数据。当再次安装插件时,集群的节点可能已经
处理 检查项内容 检查cce-controller-hpa插件的目标版本是否存在兼容性限制。 解决方案 检测到目标cce-controller-hpa插件版本存在兼容性限制,需要集群安装能提供metrics api的插件,例如metrics-server; 请您在集群中安装相应metrics插件之后重试检查
class: nginx)的Nginx Ingress路由。 检查项二:检查Nginx Ingress Controller后端指定的DefaultBackend Service是否存在。 问题自检 检查项一自检 针对Nginx类型的Ingress资源,查看对应Ingress的YAML,如I
匹配任何单个非“/”的字符。 {选项1, 选项2, ...}:同时匹配多个选项。 触发动作 当前仅支持更新容器的镜像,需指定更新的应用,以及该应用下的容器。 触发器状态 选择“启用”。 触发器类型 选择“云容器引擎CCE”。 选择应用 选择要更新镜像的应用及其容器。 示例1:触发条件为“全部触发”
检查节点是否需要迁移。 解决方案 该问题由于节点拉包组件异常或节点由比较老的版本升级而来,导致节点上缺少关键的系统组件导致。 解决方案一 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面,单击对应节点的“更多 > 重置节点”,详情请参见重置节点。节点重置完毕后,重试检查任务。
作用范围 namespace 集群中存在的命名空间 无 支持初始化时配置,不支持后续修改 - 命名空间为资源的隔离维度,一旦指定后不允许修改 配置建议: 建议按照业务、部门等归属合理划分命名空间,避免将大量资源堆叠在default命名空间下 父主题: 存储卷声明
检查项内容 检查当前集群Service是否通过annotation配置了ELB监听器的访问控制。 若有配置访问控制则检查相关配置项是否正确。 解决方案 如果配置项存在错误,请参考为负载均衡类型的Service配置黑名单/白名单访问策略进行重新配置。 父主题: 升级前检查异常问题排查