检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
遍。 常见的业务确认方式有: 业务界面可用 监控平台无异常告警与事件 关键应用进程无错误日志 API拨测正常等 解决方案 若集群升级后您的在线业务有异常,请联系技术支持人员。 父主题: 升级后验证
现健康检查协议等。 图4 GRPC检查 公共参数说明 表1 公共参数说明 参数 参数说明 检测周期(periodSeconds) 探针检测周期,单位为秒。 例如,设置为30,表示每30秒检测一次。 延迟时间(initialDelaySeconds) 延迟检查时间,单位为秒,此设置与业务程序正常启动时间相关。
cce-hpa-controller插件限制检查异常处理 检查项内容 检查cce-controller-hpa插件的目标版本是否存在兼容性限制。 解决方案 检测到目标cce-controller-hpa插件版本存在兼容性限制,需要集群安装能提供metrics api的插件,例如metrics-server;
由于审计日志的时间范围有限,该检查项仅作为辅助手段,集群中可能已使用即将废弃的API,但未在过去一天的审计日志中体现,请您充分排查。 解决方案 检查说明 根据检查结果,检测到您的集群通过kubectl或其他应用调用了升级目标集群版本已废弃的API,您可在升级前进行整改,否则升级到目标版本后,该API将会被ku
YAML文件差异后提交升级。 编辑YAML 可通过在线YAML编辑窗对无状态工作负载、有状态工作负载、定时任务和容器组的YAML文件进行修改和下载。普通任务的YAML文件仅支持查看、复制和下载。本文以无状态工作负载为例说明如何在线编辑YAML。 登录CCE控制台,进入一个已有的集群,在左侧导航栏中选择“工作负载”。
更新负载均衡失败 检查更新负载均衡是否成功 事件类 云原生日志采集插件 不涉及 Pod内存不足OOM 检查Pod是否OOM 事件类 节点故障检测插件 云原生日志采集插件 PodOOMKilling 集群状态规则集 集群状态不可用 检查集群状态是否可用 事件类 云原生日志采集插件 不涉及
集群监控 当您想观测整个集群的资源使用情况和健康度时,可以在“集群”页面查看,该页面提供了单个集群的监控情况,包含资源健康概况、资源消耗Top统计和数据面监控多维度的信息概况。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“集群”。
nlyMany)的各种工作负载(Deployment/StatefulSet)和普通任务(Job)使用,主要面向大数据分析、静态网站托管、在线视频点播、基因测序、智能视频监控、备份归档、企业云盘(网盘)等场景。 对象存储规格 对象存储提供了多种存储类别,从而满足客户业务对存储性能、成本的不同诉求。
选择版本 选择模板的版本。 配置文件 用户可以导入values.yaml文件,导入后可替换模板包中的values.yaml文件;也可直接在配置框中在线编辑模板参数。 说明: 此处导入的values.yaml文件需符合yaml规范,即KEY:VALUE格式。对于文件中的字段不做任何限制。 导入的value
未配置的参数将采用社区推荐的默认值。 禁止扩/缩容:选择是否禁止扩容或缩容。 稳定窗口:需要伸缩时,会在一段时间(设定的稳定窗口值)内持续检测,如在该时间段内始终需要进行伸缩(不满足设定的指标期望值)才进行伸缩,避免短时间的指标抖动造成异常。 步长策略:扩/缩容的步长,可设置一定
样保证在冷却时间内,跳过扩缩容。1.14版本之后引入延迟队列,保存一段时间内每一次检测的决策建议,然后根据当前所有有效的决策建议来进行决策,从而保证期望的副本数尽量小的发生变更,保证稳定性。 忍受度:可以看成一个缓冲区,当实例变化范围在忍受范围之内的话,保持原有的实例数不变。 首先定义ratio
Agent):是Jenkins负责执行实际构建任务的Pod或机器,执行的是具体的工作任务。可以同时设置多个Agent节点,分担工作负载,提高任务的并行度和效率。 插件(Plugin):是扩展Jenkins功能的核心方式。Jenkins可以根据需求安装不同的插件来支持版本控制、构建工具和部署等
高性能计算:主要是高带宽的需求,用于共享文件存储,比如基因测序、图片渲染等。 高性能网站、日志存储、DevOps、企业办公等。 大数据分析、静态网站托管、在线视频点播、基因测序、智能视频监控、备份归档、企业云盘(网盘)等。 容量 TB级别 SFS 1.0:PB级别 通用文件系统(原SFS 3.0):EB级别
Autopilot集群版本EOS之后,CCE将不再支持对该版本的集群创建,同时不提供相应的技术支持,包含新特性更新、漏洞/问题修复、补丁升级以及工单指导、在线排查等客户支持,不再适用于CCE服务SLA保障。 CCE Autopilot集群版本号说明 CCE Autopilot集群基于社区Kube
事件名称 事件级别 更多说明 Pod Pod内存不足OOM PodOOMKilling 重要 检查Pod是否因OOM退出。 该事件依赖节点故障检测插件(1.18.41及以上版本)和云原生日志采集插件(1.3.2及以上版本)。 Pod 启动失败 FailedStart 重要 检查Pod是否启动成功。
未配置的参数将采用社区推荐的默认值。 禁止扩/缩容:选择是否禁止扩容或缩容。 稳定窗口:需要伸缩时,会在一段时间(设定的稳定窗口值)内持续检测,如在该时间段内始终需要进行伸缩(不满足设定的指标期望值)才进行伸缩,避免短时间的指标抖动造成异常。 步长策略:扩/缩容的步长,可设置一定
修改调度指令。您可以使用suspend字段挂起Job,在Job挂起阶段,Pod模板中的调度部分(例如节点选择器、节点亲和性、反亲和性、容忍度)允许修改。详情请参见可变调度指令。 Downward API HugePages已进入稳定阶段 在Kubernetes 1.20版本中,Downward
修改调度指令。您可以使用suspend字段挂起Job,在Job挂起阶段,Pod模板中的调度部分(例如节点选择器、节点亲和性、反亲和性、容忍度)允许修改。详情请参见可变调度指令。 Downward API HugePages已进入稳定阶段 在Kubernetes 1.20版本中,Downward
在Kubernetes 1.28版本,节点非体面关闭特性达到GA阶段。当一个节点被关闭但没有被Kubelet的Node Shutdown Manager检测到时,StatefulSet的Pod将会停留在终止状态,并且不能移动到新运行的节点上。当用户确认该节点已经处于不可恢复的情况下,可以手动为
在Kubernetes 1.28版本,节点非体面关闭特性达到GA阶段。当一个节点被关闭但没有被Kubelet的Node Shutdown Manager检测到时,StatefulSet的Pod将会停留在终止状态,并且不能移动到新运行的节点上。当用户确认该节点已经处于不可恢复的情况下,可以手动为