检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
API来获取数据的,因此看到的是节点上已使用的资源总和除以可分配的所有资源。 社区issue链接:https://github.com/kubernetes/kubernetes/issues/86499。 场景示例 例如,某节点的参数可通过kubectl describe node命令查询,示例如下: .
0-集群节点容量 (手动扩容,受限规格容量与配额等约束) 0 允许 CCE Standard/CCE Turbo 节点池期望节点个数。 CCE通过后台持续扩缩节点,使当前节点数与期望节点数匹配。 资源售罄、配额不足、竞价过低等场景将可能导致实际节点数未达到预期。短时异常恢复后CCE将会持续重试直至满足预期。
节点弹性伸缩 节点伸缩原理 节点池弹性伸缩优先级说明 创建节点弹性策略 管理节点弹性策略 父主题: 弹性伸缩
业务检查 检查项内容 集群升级完毕,由用户验证当前集群正在运行的业务是否正常。 检查步骤 业务不同,验证的方式也有所不同,建议您在升级前确认适合您业务的验证方式,并在升级前后均执行一遍。 常见的业务确认方式有: 业务界面可用 监控平台无异常告警与事件 关键应用进程无错误日志 API拨测正常等
集群状态检查 检查项内容 集群升级后,需要检查集群状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群状态是否正常,您可以根据诊断结果前往集群列表页面进行确认。 解决方案 当集群状态异常时,请联系技术支持人员。 父主题: 升级后验证
业务优先级保障调度 优先级调度与抢占 父主题: Volcano调度
AI任务性能增强调度 公平调度(DRF) 组调度(Gang) 父主题: Volcano调度
仪表盘 使用仪表盘 集群视图 APIServer视图 Pod视图 主机视图 Node视图 节点池视图 GPU视图 XGPU视图 CoreDNS视图 PVC视图 Kubelet视图 Prometheus Server视图 Prometheus Agent视图 父主题: 监控中心
使用HPA+CA实现工作负载和节点联动弹性伸缩 CCE容器实例弹性伸缩到CCI服务 基于Prometheus指标的弹性伸缩实践 基于ELB监控指标的弹性伸缩实践 通过Nginx Ingress对多个应用进行弹性伸缩
集群规模:50节点 高可用:是 1 2.91元/小时 虚拟机节点 建议选择按需计费。 虚拟机节点类型:通用计算增强型 节点规格:4核 | 8GiB 操作系统:EulerOS 2.9 系统盘:50GiB | 通用型SSD 数据盘:100GiB | 通用型SSD 1 1.0015元/小时
跳过节点检查 检查项内容 集群升级后,需要检测集群内是否有跳过升级的节点,这些节点可能会影响正常使用。 检查步骤 系统会为您检查集群内是否存在跳过升级的节点,您可以根据诊断结果前往节点列表页进行确认。跳过的节点含有标签upgrade.cce.io/skipped=true。 解决方案
stat,得到total_cache(缓存内存量)、total_rss(当前应用进程实际使用内存量)、total_inactive_file(不活跃文件内存使用量)。 WSS = total_cache + total_rss - total_inactive_file 如果您的应用存在以
云原生观测 云原生观测体系概述 云原生观测委托权限说明 健康中心 监控中心 日志中心 告警中心 日志审计 云原生观测FAQ 云原生观测最佳实践
GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 CCE AI套件(NVIDIA GPU)插件使用DCGM-Exporter监控GPU指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理
在进行优先级调度时,仅根据主资源的Share值进行优先级调度。 例如,Job 1和Job 2分别为两个工作负载,其请求的资源量如图所示, 通过DRF计算之后,Job 1的主资源为Memory,对应的Share值为0.4,Job 2的主资源为CPU,对应的Share值为0.5,根据Share值对比,Job
作用: 表1 节点池场景及作用 场景 作用 集群存在较多异构节点(机型配置不同) 通过节点池可规范节点分组管理。 集群需要频繁扩缩容节点 通过节点池可降低操作成本。 集群内应用程序调度规则复杂 通过节点池标签可快速指定业务调度规则。 功能点及注意事项 功能点 功能说明 注意事项 创建节点池
时故障场景下频繁迁移影响业务,容忍时间配置过大可能导致容器在节点故障时长时间无法迁移导致业务受损 容器迁移对节点无法访问状态的容忍时间 当环境出现异常,节点无法访问(如节点网络异常)时,容器将在该容忍时间后自动驱逐,默认为300s。 参数名 取值范围 默认值 是否允许修改 作用范围
如果想要解决这个问题,可以在定时任务的CronJob中配置参数:startingDeadlineSeconds。该参数只能使用kubectl命令,或者通过API接口进行创建或修改。 YAML示例如下: apiVersion: batch/v1 kind: CronJob metadata:
节点池视图 从节点池视角呈现节点池资源的占用和分配情况,帮助您详细了解节点池的负载状态。 指标说明 节点池视图暴露的指标如下: 图1 节点池资源指标 表1 视图说明 图表名称 单位 说明 节点池CPU分配率 百分比 节点池里的所有节点的Pod CPU Request总量占所有节点CPU总量的比例
检查集群升级时,OpenKruise插件是否存在兼容性问题。 解决方案 Kubernetes社区在1.24版本移除了对dockershim的支持。CCE为兼顾用户使用docker运行时的习惯,在CCE的v1.25及以上的集群版本引入了cri-dockerd用于替换原来的dockershim,但是Op