检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
云原生告警是可观测性体系里面比较重要的一环。在云原生告警中,除了传统的CPU、内存等资源使用量的告警以外,还有容器重启等事件告警、应用访问失败等自定义的监控指标告警。 CCE的云原生告警能力是由AOM服务提供的,支持指标和事件的告警。同时,CCE集群详情中增加了告警中心能力,能支持快速配置资源等常用告警和告警查看。
议工作负载只选择一个实例。 如果使用HPA策略对挂载了专属存储的负载进行扩容,新Pod会因为无法挂载磁盘导致无法成功启动。 动态创建专属存储卷时支持添加资源标签,且专属存储创建完成后无法在CCE侧更新资源标签,需要前往专属存储控制台更新。如果使用已有的专属存储创建存储卷,也需要在专属存储控制台添加或更新资源标签。
签,在右侧单击“编辑”按钮,进入“升级工作负载”页面。 在容器配置的“生命周期”中,编辑启动命令。 图5 编辑启动命令 采集labels时,在原有的kube-state-metrics的启动参数最后添加: --metric-labels-allowlist=pods=[*],nodes=[node
升级前检查项 集群升级前,系统将自动进行全面的升级前检查,当集群不满足升级前检查条件时将无法继续升级。为了能够更好地避免升级风险,本文提供全量的升级前检查问题及解决方案,帮助您对可能存在的升级故障进行预处理。 表1 检查项列表 序号 检查项名称 检查项说明 1 节点限制检查异常处理
特殊场景描述 场景现象 场景说明 CCE集群无节点,卸载插件。 插件卸载失败。 bursting插件卸载时会在集群中启动Job用于清理资源,卸载插件时请保证集群中至少有一个可以调度的节点。 用户直接删除集群,未卸载插件。 用户在CCI侧的命名空间中有资源残留,如果命名空间有计费资源,会造成额外计费。
特殊场景描述 场景现象 场景说明 CCE集群无节点,卸载插件。 插件卸载失败。 bursting插件卸载时会在集群中启动Job用于清理资源,卸载插件时请保证集群中至少有一个可以调度的节点。 用户直接删除集群,未卸载插件。 用户在CCI侧的命名空间中有资源残留,如果命名空间有计费资源,会造成额外计费。
maxSurge:与Deployment中spec.replicas相比,可以有多少个Pod存在,默认值是25%,比如spec.replicas为 4,那升级过程中就不能超过5个Pod存在,即按1个的步伐升级,实际升级过程中会换算成数字,且换算会向上取整。这个值也可以直接设置成数字。 maxUnavaila
同步节点池 在节点池配置更新后,节点池中的已有节点无法自动同步部分配置,您可以手动同步节点配置。 批量同步过程中请勿删除或重置节点,否则可能导致节点池配置同步失败。 该操作涉及重置节点,节点上已运行的工作负载业务可能会由于单实例部署、可调度资源不足等原因产生中断,请您合理评估升级
”,开启存活探针和就绪探针。示例中均为TCP端口检查,请根据应用实际情况进行设置。检测周期、延时时间、超时时间等数据需要合理设置,部分应用启动时间较长,如果设置的时间过短,会导致Pod反复重启。 本示例中配置就绪探针延迟探测时间为20s,用于控制工作负载批量滚动的时间间隔。 图1
CCE节点运行依赖创建时的初始标准内核版本,CCE基于该内核版本做了全面的兼容性测试,非标准的内核版本可能在节点升级中因兼容性问题导致节点升级失败,详情请参见高危操作及解决方案。 当前CCE不建议该类节点进行升级,建议您在升级前重置节点至标准内核版本。 问题场景二:特殊版本镜像存在缺陷
tefulSet)的每个实例独占式使用。因为云硬盘属于非共享存储,不能同时被多个节点挂载,若两个Pod配置了使用同一个云硬盘,当这两个Pod被调度到不同的节点时,必然有一个Pod会因为无法挂载云硬盘导致无法成功启动。 父主题: 云硬盘存储卷
”等,会导致容器异常。建议挂载在空目录下,若目录不为空,请确保目录下无影响容器启动的文件,否则文件会被替换,导致容器启动异常,工作负载创建失败。 须知: 挂载高危目录的情况下 ,建议使用低权限账号启动,否则可能会造成宿主机高危文件被破坏。 子路径 请输入挂载路径的子路径。 使用子
在NodePort与内核net.ipv4.ip_local_port_range范围有冲突的情况下,可能会导致偶发的TCP无法连接的情况,导致健康检查失败、业务异常等问题。升级前,请确保集群没有NodePort端口与任意节点net.ipv4.ip_local_port_rang
资源自动续费周期以您选择的续费时长为准。例如,您选择了3个月,即在每次到期前自动续费3个月。 在资源到期前均可开通自动续费,到期前7日凌晨3:00首次尝试自动续费,如果扣款失败,每天凌晨3:00尝试一次,直至资源到期或者续费成功。 开通自动续费后,还可以手动续费该资源。手动续费后,自动续费仍然有效,在新的到期时间前的第7天开始扣款。
Init容器是一种特殊容器,可以在Pod中的其他应用容器启动之前运行。每个Pod中可以包含多个容器,同时Pod中也可以有一个或多个先于应用容器启动的Init容器,当所有的Init 容器运行完成时,Pod中的应用容器才会启动并运行。详细说明请参见Init 容器。 生命周期(可选):
在NodePort与内核net.ipv4.ip_local_port_range范围有冲突的情况下,可能会导致偶发的TCP无法连接的情况,导致健康检查失败、业务异常等问题。升级前,请确保集群没有NodePort端口与任意节点net.ipv4.ip_local_port_rang
hl=zh-cn。 创建一个普通job,镜像输入第三方镜像tensorflow/tensorflow:1.15.5-gpu,设置对应的容器规格。 启动命令添加 pip install matplotlib;python /home/basicClass.py 。 挂载刚刚创建的OBS存储盘:
配资源已小于当前需被调度的Pod的Request,则该Pod就不会被调度到此节点。 如果不配置Request值,调度器就无法感知节点上资源的使用情况,进而无法将每个Pod调度到合适的节点上,可能会导致某个节点上调度了大量的Pod,资源使用过高导致节点故障,进而影响到实际业务。建议
集群虚拟IP,即Cluster IP,是在工作负载设置此访问类型后,就会自动分配一个可用的Cluster IP。 容器端口:指容器中工作负载启动监听的端口。端口根据每个业务的不同而不同,一般在容器镜像中已指定。 服务端口:指该容器工作负载发布为服务后,所设定的服务端口号,请填写1-
volumeClaimTemplates}{"\n"}{end}' 如存在回显,表示使用“动态挂载”,则需继续执行3~7。 如不存在回显,表示未使用“动态挂载”,则无需执行以下步骤,请参考静态挂载存储的迁移。 修改Pod所使用的PVC对应PV的persistentVolumeRecl