检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
排查项七:内部组件是否正常 登录不可用节点对应的弹性云服务器。 执行以下命令判断paas组件是否正常。 systemctl status kubelet 执行成功,可查看到各组件的状态为Active,如下图: 若服务的组件状态不是Active,执行如下命令: 重启命令根据出错组件指定,如cana
Unix 设备,若同时启用了 cups-browsed 服务,可能面临被远程攻击的风险,从而危及用户设备的安全。 判断方法 您可以在节点上执行以下命令查看是否安装CUPS相关服务: systemctl status cups-browsed 显示如下: 结果返回 “Unit cups-browsed
集群可用但节点状态为“不可用”如何解决? 如何收集CCE集群中节点的日志? thinpool磁盘空间耗尽导致容器或节点异常时,如何解决? 纳管节点时失败,报错“安装节点失败”如何解决? 工作负载 工作负载状态异常定位方法 工作负载异常:实例调度失败 工作负载异常:实例拉取镜像失败 工作负载异常:启动容器失败
kube-apiserver 中发现了一个安全问题,该问题允许聚合 API Server将客户端流量重定向到任意 URL,这可能导致客户端执行意外操作以及将客户端的 API 服务器凭据转发给第三方。 表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间 SSRF CVE-2022-3172
检查集群CCE节点的上是否开启了交换区。 解决方案 CCE节点默认关闭swap交换区,请您确认手动开启交换区的原因,并确定关闭影响; 若确定无影响后请执行swapoff -a命令关闭交换区之后重新检查。 父主题: 升级前检查异常问题排查
是一次性运行的任务,确保指定数量的Pod成功完成执行。适用于需要在集群中执行一次性任务的场景,如数据备份、批量处理等。 定时任务:即Kubernetes中的“CronJob”,定时任务是按照指定时间周期运行的任务。适用于需要定期执行的任务,如定时数据同步、定时生成报告等。 图4 工作负载与Pod的关系
通过curl命令测试时报错信息如下: SSL certificate problem: certificate has expired 请及时替换新证书。 客户端使用了不配套的HTTPS证书链验证ELB Ingress侧配置的HTTPS证书 通过curl命令测试时报错信息如下: SSL
处以IngressTLS类型为例,详情请参见创建密钥。kubernetes.io/tls类型的密钥示例及说明请参见TLS Secret。 执行如下命令,创建名为“ingress-test-secret.yaml”的YAML文件,此处文件名可自定义。 vi ingress-test-secret
10个实例。反之,按此规则执行缩容。 图1 触发条件 表3 周期触发类型规则 参数 参数说明 触发时间 可选择每天、每周、每月或每年的具体时间点。 执行动作 与上述“触发时间”相对应,达到触发时间值后所要执行的动作。如下图中所示,即每天17:00时将执行增加1个实例的动作。 伸缩
是否能在控制台展示? 通过kubectl连接集群时,其配置文件config如何下载? kubectl top node命令为何报错 kubectl使用报错:Error from server (Forbidden)
根据版本标识快速跟踪和多集群部署功能,实现多个集群之间同一应用部署问题。 图1 Argo CD工作流程 本文介绍在ArgoCD中对接CCE执行持续部署的过程,并通过一个具体的示例演示该过程。 准备工作 创建一个CCE集群,且需要给节点绑定一个EIP,用于安装Argo CD服务时下载镜像。
x86_64的场景下(主要为1.17.9版本集群),反复创建应用时出现cgroup kmem泄露,导致节点内存有空余,但是无法创建新的Pod,并提示报错Cannot allocate memory。 问题根因 在反复创建应用时会创建的临时memory cgroup,但在应用删除时,内核已经删除了
v3删除了crd-install hook, 并用chart中的crds目录替换。需要注意的是,crds目录中的资源只有在release安装时会部署,升级时不会更新,删除时不会卸载crds目录中的资源。若crd已存在,则重复安装不会报错。 适配方案:根据Helm官方文档 https://helm
下异常: 在容器内创建文件或目录失败、容器内文件系统只读、节点被标记disk-pressure污点及节点不可用状态等。 用户可手动在节点上执行docker info查看当前thinpool空间使用及剩余量信息,从而定位该问题。如下图: 问题原理 docker devicemapp
验证插件 插件安装完成后,在GPU节点及调度了GPU资源的容器中执行nvidia-smi命令,验证GPU设备及驱动的可用性。 GPU节点: # 插件版本为2.0.0以下时,执行以下命令: cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi #
当您访问控制台时,出现报错“无任何命名空间的资源权限,请联系管理员添加权限”。 问题原因 您使用的账号未被授予当前操作所需的集群RBAC权限。 解决方案 使用华为云账号或者具有管理员权限的账号登录IAM管理控制台,在左侧导航栏中选择“用户”。 在IAM用户页签查找出现报错的用户名,单击用户名右侧的“授权”。
的范围,脚本返回0,否则返回-1。如下图: 图3 执行命令检查 必须把要执行的程序放在容器的镜像里面,否则会因找不到程序而执行失败。 如果执行的命令是一个shell脚本,由于集群在执行容器里的程序时,不在终端环境下,因此不能直接指定脚本为执行命令,需要加上脚本解析器。比如脚本是/dat
容器处于异常、负载下实例没有正常运行时显示此状态。 处理中 负载没有进入运行状态但也没有报错时显示此状态。 可用 当多实例无状态工作负载运行过程中部分实例异常,可用实例不为0,工作负载会处于可用状态。 执行完成 任务执行完成,仅普通任务存在该状态。 已停止 触发停止操作后,工作负载会处于停止状态,实例数变为0。v1
xecReload),进而在宿主机中执行任意操作。 CCE集群未使用runc的systemd cgroup特性,因此不受此漏洞影响。 判断方法 您可以在节点上执行命令查看容器引擎使用的cgroup。 容器引擎为containerd的节点,执行以下命令: crictl info |grep
前往“插件中心”处查看并处理处于异常状态的插件。 图1 查看插件状态 问题场景二:集群升级的目标版本已经不支持该插件 升级前检查出现以下报错: addon [***] does not support cluster target version, check and try again