检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
设置容器健康检查 操作场景 健康检查是指容器运行过程中,根据用户需要,定时检查容器健康状况。若不配置健康检查,如果容器内应用程序异常,Pod将无法感知,也不会自动重启去恢复。最终导致虽然Pod状态显示正常,但Pod中的应用程序异常的情况。 Kubernetes提供了三种健康检查的探针:
登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“健康中心”。 您可以在不开通监控中心的情况下,进行基础的集群健康诊断。如果想体验更丰富的诊断能力,请参考开通监控中心开通。 配置定时巡检规则 在“健康诊断”页面右上角打开“定时巡检”开关,并配置定时巡检启动的时间。集群将在指定时间自动
健康中心概述 集群健康诊断用于诊断集群的健康状态,该功能集合了容器运维专家的经验,为您提供了集群级别的健康诊断最佳实践。可对集群健康状况进行全面检查,帮助您及时发现集群故障与潜在风险,并给出应对的修复建议供您参考。 健康诊断覆盖范围 健康诊断覆盖范围如下图所示: 图1 健康诊断覆盖范围
在CCE中实现应用高可用部署 基本原则 在CCE中,容器部署要实现高可用,可参考如下几点: 集群选择3个控制节点的高可用模式。 创建节点选择在不同的可用区,在多个可用区(AZ)多个节点的情况下,根据自身业务需求合理的配置自定义调度策略,可达到资源分配的最大化。 创建多个节点池,不
请确保该端口在Pod所在节点已被监听,否则会影响健康检查结果。 健康检查初始等待时间 开始健康检查的初始等待时间(秒) 参数名 取值范围 默认值 是否允许修改 作用范围 delay 1-50 5 允许 CCE Standard/CCE Turbo 健康检查的超时时间 健康检查的超时时间(秒)
健康中心 健康中心概述 使用健康中心 诊断项及修复方案 父主题: 可观测性
在CCE集群中通过Helm模板部署应用程序 Helm是一个Kubernetes应用程序包管理器,它可以简化部署、升级和管理Kubernetes应用程序的过程。Helm使用Charts(一种定义Kubernetes资源的打包格式)来封装Kubernetes部署的所有元素,包括应用程
健康检查使用UDP协议的安全组规则说明 操作场景 当负载均衡协议为UDP时,健康检查也采用的UDP协议,您需要打开其后端服务器的ICMP协议安全组规则。关于使用UDP协议健康检查的详细说明,请参见使用UDP协议有什么注意事项?。 操作步骤 登录CCE控制台,单击服务列表中的“网络
Volcano调度器 插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic
max_retries 否 String 健康检查的最大重试次数 默认值:3,取值范围1-10 protocol 否 String 健康检查的协议 默认值:取关联服务的协议 取值范围:“TCP”、“UDP”或者“HTTP” path 否 String 健康检查的URL,协议是“HTTP”时需要配置
源不满足应用要求时,该节点将不会被调度到。本诊断项已为您检测出了Request水位高出阈值的节点资源,可根据检测结果合理规划您的应用。 节点当前时间CPU的Request水位是否超过80% 是 节点资源水位诊断 节点24小时内CPU使用率最大值是否超过80% 是 节点的cpu过高
在CCE中安装部署Jenkins方案概述 Jenkins是什么 Jenkins是一个开源的、提供友好操作界面的持续集成(CI)工具,起源于Hudson,主要用于持续、自动的构建/测试软件项目、监控外部任务的运行。 Jenkins用Java语言编写,可在Tomcat等流行的serv
用户节点组件健康检查异常处理 检查项内容 检查用户节点的容器运行时组件和网络组件等是否健康。 解决方案 问题场景一:CNI Agent is not active 如果您的集群版本在1.17.17以下,或者1.17.17以上且是隧道网络,请登录该节点,执行systemctl status
健康检查探针(Liveness、Readiness)偶现检查失败? 健康检查探针偶现检测失败,是由于容器内的业务故障所导致,您需要优先定位自身业务问题。 常见情况有: 业务处理时间长,导致返回超时。 tomcat建链和等待耗费时间太长(连接数、线程数等),导致返回超时。 容器所在
生成kubeconfig文件: 1.21以前版本的集群中,Pod中获取Token的形式是通过挂载ServiceAccount的Secret来获取Token,这种方式获得的Token是永久的。该方式在1.21及以上的版本中不再推荐使用,并且根据社区版本迭代策略,在1.25及以上版本的集群中,ServiceAc
负载均衡器:必须使用独享型ELB,您可以选择已有的ELB或自动创建新的ELB。 健康检查:开启健康检查(不开启则默认为健康检查成功)。 图1 负载均衡配置 前往ELB控制台,查看对应的后端服务器组,健康检查状态正常。 在CCE控制台中查看工作负载状态处于“运行中”。 父主题: 负载均衡(LoadBalancer)
正常的TCP三次握手后,会进行数据传输,但是在健康检查时会发送RST中断建立的TCP连接。该实现方式可能会导致后端服务器中的应用认为TCP连接异常退出,并打印错误信息,如“Connection reset by peer”。 这种错误是合理范围内的,无法避免的,不必关心它。 父主题: 网络异常问题排查
同时设置多条自定义亲和策略时,需要保证集群中存在同时满足所有亲和策略的节点,否则插件实例将无法运行。 容忍策略 容忍策略与节点的污点能力配合使用,允许(不强制)插件的 Deployment 实例调度到带有与之匹配的污点的节点上,也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment
控制节点组件健康检查异常处理 检查项内容 检查集群中的Kubernetes组件、容器运行时组件、网络组件等组件,要求在升级前以上组件运行正常。 解决方案 请您优先重试升级前检查; 若重试检查仍失败时,请您提交工单,联系技术支持人员进行处理。 父主题: 升级前检查异常问题排查
通用文件存储(SFS 3.0)在OS中的挂载点修改属组及权限报错 现象描述 将通用文件存储(SFS 3.0)挂载到OS中某个目录后,该目录成为通用文件存储(SFS 3.0)的挂载点,使用chown和chmod命令尝试修改挂载点的属组或权限,会遇到以下报错: chown: changing