检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查路径(仅HTTP/GRPC健康检查协议支持):指定健康检查的URL地址。检查路径只能以/开头,长度范围为1-80。 端口 健康检查默认使用业务端口(Service的NodePort或容器端口)作为健康检查的端口;您也可以重新指定端口用于健康检查,重新指定端口会为服务增加一个
可观测性 可观测性体系概述 健康中心 监控中心 日志中心 告警中心 日志审计 可观测性FAQ 可观测性最佳实践
Kubernetes版本(CCE增强版) 版本说明 v1.13.10-r0 主要特性: CCE集群支持添加ARM节点 负载均衡支持设置名称 4层负载均衡支持健康检查,7层负载均衡支持健康检查/分配策略/会话保持 CCE集群支持创建裸金属节点(容器隧道网络) 支持AI加速型节点(搭载海思Ascend 310 AI
节点特殊资源:部分Pod可能请求特殊的资源类型,例如GPU等资源,调度器只能将其调度到GPU类型的节点上。 节点健康状态:节点的健康状况和状态可能影响调度决策,不健康的节点可能不会调度新的Pod。 为什么Pod实际负载在节点上分布不均匀 kube-scheduler调度器在分配P
容器设置 在什么场景下设置工作负载生命周期中的“停止前处理”? 在什么场景下,容器会被重建? 在同一个命名空间内访问指定容器的FQDN是什么? 健康检查探针(Liveness、Readiness)偶现检查失败? 如何设置容器umask值? CCE启动实例失败时的重试机制是怎样的? 父主题:
(可选)负载均衡配置:可设置健康检查协议为GRPC。单击转发策略中的“更改配置”,启用健康检查,并选择GRPC协议。 域名:无需填写 路径匹配规则:前缀匹配 路径:/ 目标服务名称:nginx 目标服务访问端口:80 图1 配置GRPC协议的后端服务 图2 设置健康检查协议为GRPC 配置完成后,单击“确定”。
负载均衡器配置:共享型elb自动创建配置 负载均衡器配置:独享型elb自动创建配置 负载均衡器配置:监听器配置 负载均衡器配置:后端云服务器组 健康检查配置
安全运行时与普通运行时 设置时区同步 设置镜像拉取策略 使用第三方镜像 使用SWR企业版镜像仓库镜像 设置容器规格 设置容器生命周期 设置容器健康检查 设置环境变量 设置性能管理配置 设置工作负载升级策略 设置容忍策略 设置标签与注解 父主题: 工作负载
生命周期(可选):在容器的生命周期的特定阶段配置需要执行的操作,例如启动命令、启动后处理和停止前处理,详情请参见设置容器生命周期。 健康检查(可选):根据需求选择是否设置存活探针、就绪探针及启动探针,详情请参见设置容器健康检查。 环境变量(可选):支持通过键值对的形式为容器运行环境设置变量,可用于把外部信息传递给Po
替换,对业务无感。 前提条件 配置 支持版本 集群版本 v1.23.8-r0、v1.25.3-r0及以上 操作系统 Huawei Cloud EulerOS 2.0操作系统 GPU类型 支持T4、V100类型的GPU 驱动版本 GPU虚拟化功能仅支持470.57.02、510.47
4-r0及以上版本的集群支持该参数。 表6 负载弹性伸缩控制器配置参数说明 名称 参数 说明 取值 可用区亚健康阈值 unhealthy-zone-threshold 当可用区故障节点规模达到指定比例时被认定为不健康,针对不健康的区域,故障节点业务的迁移频率会降级,避免规模故障场景下大规模迁移操作产生更坏的影响。
2:默认模式,表示当前卡还没被用于GPU虚拟化设备分配。 xgpu_device_health GPU卡 GPU虚拟化设备的健康情况。 0:表示GPU虚拟化设备为健康状态。 1:表示GPU虚拟化设备为非健康状态。 相关链接 GPU插件及驱动相关问题的排查思路 工作负载异常:GPU相关 GPU调度 版本记录
修改节点的操作系统镜像,并且您的软件和原操作系统耦合度较低,建议使用重置节点的功能进行系统切换。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点池”页签。 选择需要更新的存量节点池,单击“更新 ”,将CentOS操作系统切换为支持切换的操作系统支持切换的操作系统,建议选择操作系统为Huawei
which is unexpected. 此类异常Pod仅为异常记录,并不实际占用系统资源。 排查步骤 导致文件系统异常的原因有很多,例如物理控制节点的异常开关机。此类异常Pod并不影响正常业务,当系统文件未能恢复,出现大量异常Pod时,可采取以下步骤进行规避排查: 执行以下命令,
只支持310、310P卡的部分规格 check_frequency_failed_threshold 否 Int 插件判断NPU设备状态不健康的阈值次数 默认值:100 check_frequency_fall_times 否 Int 判断芯片主频降级是否隔离的门限 默认值:3
慢启动仅对新增后端服务器Pod生效,后端服务器组Pod首次添加后端服务器慢启动不生效。 后端服务器的慢启动结束之后,不会再次进入慢启动模式。 在健康检查开启时,后端服务器Pod在线后慢启动生效。 在健康检查关闭时,慢启动立即生效。 在配置慢启动后,该Ingress下的所有转发策略都会生效。 设置慢启动持续时间 请
VPC的子网无法删除,怎么办? 如何修复出现故障的容器网卡? 节点无法连接互联网(公网),如何排查定位? 如何解决VPC网段与容器网络冲突的问题? ELB四层健康检查导致java报错:Connection reset by peer Service事件:Have no node to bind,如何排查?
此更新之前,当节点关闭时,其Pod没有遵循预期的终止生命周期,这导致了工作负载问题。现在kubelet可以通过systemd检测即将关闭的系统,并通知正在运行的Pod,使它们优雅地终止。 具有多个容器的Pod现在可以使用kubectl.kubernetes.io/默认容器注释为kubectl命令预选容器。
此更新之前,当节点关闭时,其Pod没有遵循预期的终止生命周期,这导致了工作负载问题。现在kubelet可以通过systemd检测即将关闭的系统,并通知正在运行的Pod,使它们优雅地终止。 具有多个容器的Pod现在可以使用kubectl.kubernetes.io/默认容器注释为kubectl命令预选容器。
期。 节点上的安全组是否对ELB暴露了相关的协议或端口。 四层ELB的健康检查是否开启(未开启的话,请开启)。 七层ELB的访问方式中使用的证书是否过期。 常见问题: 发布四层ELB时,如果客户在界面未开启健康检查,ELB可能会将流量转发到异常的节点。 UDP协议的访问,需要放通节点的ICMP协议。