检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
致拒绝服务、信息泄露或远程代码执行。 CCE集群中安装了云原生日志采集插件,且版本为1.3.4-1.5.1时则涉及该漏洞。 判断方法 前往插件中心,查看是否已安装云原生日志采集插件以及插件版本。 图1 查看已安装插件版本 若插件版本在1.3.4-1.5.1范围内,则涉及该漏洞。 漏洞消减方案
进行加速计算。工具包包括一个容器运行时库和实用程序,用于自动配置容器以利用NVIDIA GPU。 漏洞详情 表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间 容器逃逸 CVE-2024-0132 严重 2024-09-26 漏洞影响 在NVIDIA Container Toolkit v1.16
排查项四:安全组是否被修改 排查项五:检查安全组规则中是否包含Master和Node互通的安全组策略 排查项六:检查磁盘是否异常 排查项七:内部组件是否正常 排查项八:DNS地址配置错误 排查项九:检查节点中的vdb盘是否被删除 排查项十:排查Docker服务是否正常 排查项十一:包周期节点退订
节点ID文件检查异常处理 检查项内容 检查节点的ID文件内容是否符合格式。 解决方案 在CCE控制台上的“节点管理”页面,单击异常节点名称进入ECS界面。 复制节点ID,保存到本地。 图1 复制节点ID 登录异常节点,备份文件 。 cp /var/lib/cloud/data/instance-id /tmp/instance-id
加到ELB后端。 冷却时间 请输入冷却时间值,单位为分钟。 策略成功触发后,在此冷却时间内,不会再次触发缩容/扩容,目的是等待伸缩动作完成后在系统稳定且集群正常的情况下进行下一次策略匹配。 说明: CCE容器弹性引擎插件为1.3.10及以上版本时,冷却时间仅对指标类策略生效,周期类策略不受冷却时间影响。
4-r2 v1.30.0-r0 - v1.30.1-r2 判断方法 登录CCE控制台,单击集群名称进入集群总览页面,查看集群版本。 如果集群版本不在上述范围内则不受漏洞影响。 如果集群版本在受影响范围内,您可以通过以下命令,检查集群中是否存在该漏洞被利用的情况。 该命令会列举所有挂载使用
分布式的场景,要求每个Pod都有自己单独的状态时,比如分布式数据库,每个Pod要求有单独的存储,这时Deployment无法满足业务需求。 分布式有状态应用的特点主要是应用中每个部分的角色不同(即分工不同),比如数据库有主备、Pod之间有依赖,在Kubernetes中部署有状态应用对Pod有如下要求:
已购买一个ECS或RDS for MySQL,并且ECS或RDS for MySQL与集群位于同一个区域、不同VPC内,具体操作步骤请参见自定义购买ECS和购买RDS for MySQL实例。 从Pod访问不同的云服务 以在Pod中访问不同VPC网络的ECS和RDS for MySQL为例,介绍Pod如何实现跨VPC通信。
节点限制检查异常处理 检查项内容 当前检查项包括以下内容: 检查节点是否可用 检查节点操作系统是否支持升级 检查节点是否含有非预期的节点池标签 检查K8s节点名称是否与云服务器保持一致 解决方案 检查到节点状态异常,请优先恢复 若检查发现节点不可用,请登录CCE控制台,单击集群名
Probe) 一个新Pod创建后,Service就能立即选择到它,并会把请求转发给Pod,那问题就来了,通常一个Pod启动是需要时间的,如果Pod还没准备好(可能需要时间来加载配置或数据,或者可能需要执行一个预热程序之类),这时把请求转给Pod的话,Pod也无法处理,造成请求失败。 Kub
K8s节点污点检查异常处理 检查项内容 检查节点上是否存在集群升级需要使用到的污点。 表1 检查污点列表 污点名称 污点影响 node.kubernetes.io/upgrade NoSchedule 解决方案 问题场景一:该节点为集群升级过程中跳过的节点。 配置Kubectl命
无特殊需求建议保持默认配置,容忍时间配置过小可能导致容器在网络抖动等一些短时故障场景下频繁迁移影响业务,容忍时间配置过大可能导致容器在节点故障时长时间无法迁移导致业务受损 容忍时间配置过小可能导致容器在网络抖动等一些短时故障场景下频繁迁移影响业务,容忍时间配置过大可能导致容器在节点故障时长时间无法迁移导致业务受损
安装模板包后的运行结果。一个模板包通常可以在一个集群中安装多次,每次安装都会创建一个新的实例。以MySQL模板包为例,如果您想在集群中运行两个数据库,可以安装该模板包两次,每一个数据库都会拥有自己的release 和release name。 更多关于Helm命令的使用方法请参见使用Helm。
性伸缩功能将异常阻塞。最新插件版本不涉及此风险。 节点池单节点缩容冷却时间 节点池开启弹性伸缩后,新扩容的节点创建完成后,在配置的单节点缩容冷却时间内将不会被评估为待缩容节点。 参数名 取值范围 默认值 是否允许修改 作用范围 .spec.autoscaling.scaleDownCooldownTime
重要 检查集群状态是否可用。 集群状态故障 Cluster status is Error 重要 检查集群是否出现故障。 集群状态长时间不更新 Cluster status is not updated for a long time 重要 检查集群状态是否长时间不更新。 集群升级超时后更新控制节点状态失败
kustomize build example -o example.yaml 配置Kubeflow所需存储资源。 katib-mysql mysql-pv-claim minio-pv-claim authservice-pvc 由于Kubeflow在创建时需要配置一些存储资源
GPU节点使用nvidia驱动启动容器排查思路 集群中的节点是否有资源调度失败的事件? 问题现象: 节点运行正常且有GPU资源,但报如下失败信息: 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路: 确认节点标签是否已经打上nvidia资源。 查看nvidia驱动运行是否正常。
节点干扰ContainerdSock检查异常处理 检查项内容 检查节点上是否存在干扰的Containerd.Sock文件。该文件影响Euler操作系统下的容器运行时启动。 解决方案 问题场景:节点使用的docker为定制的Euler-docker而非社区的docker 登录相关节点。
Job管理的Pod根据用户的设置把任务成功完成就自动退出(Pod自动删除)。 CronJob:是基于时间的Job,就类似于Linux系统的crontab文件中的一行,在指定的时间周期运行指定的Job。 任务负载的这种用完即停止的特性特别适合一次性任务,比如持续集成。 创建Job
配置进行检查,检查您是否后台修改过配置文件。 /opt/cloud/cce/kubernetes/kubelet/kubelet /opt/cloud/cce/kubernetes/kubelet/kubelet_config.yaml /opt/cloud/cce/kubern