检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
云原生混部解决方案围绕Volcano和Kubernetes生态,帮助用户提升资源利用率,实现降本增效。 功能 描述 参考文档 动态资源超卖 根据在线作业和离线作业类型,通过Volcano调度将集群中申请而未使用的资源(即申请量与使用量的差值)利用起来,实现资源超卖和混合部署,提升集群资源利用率。 动态资源超卖
0-集群节点容量 (手动扩容,受限规格容量与配额等约束) 0 允许 CCE Standard/CCE Turbo 节点池期望节点个数。 CCE通过后台持续扩缩节点,使当前节点数与期望节点数匹配。 资源售罄、配额不足、竞价过低等场景将可能导致实际节点数未达到预期。短时异常恢复后CCE将会持续重试直至满足预期。
API来获取数据的,因此看到的是节点上已使用的资源总和除以可分配的所有资源。 社区issue链接:https://github.com/kubernetes/kubernetes/issues/86499。 场景示例 例如,某节点的参数可通过kubectl describe node命令查询,示例如下: .
节点弹性伸缩 节点伸缩原理 节点池弹性伸缩优先级说明 创建节点弹性策略 管理节点弹性策略 父主题: 弹性伸缩
业务检查 检查项内容 集群升级完毕,由用户验证当前集群正在运行的业务是否正常。 检查步骤 业务不同,验证的方式也有所不同,建议您在升级前确认适合您业务的验证方式,并在升级前后均执行一遍。 常见的业务确认方式有: 业务界面可用 监控平台无异常告警与事件 关键应用进程无错误日志 API拨测正常等
集群状态检查 检查项内容 集群升级后,需要检查集群状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群状态是否正常,您可以根据诊断结果前往集群列表页面进行确认。 解决方案 当集群状态异常时,请联系技术支持人员。 父主题: 升级后验证
业务优先级保障调度 优先级调度与抢占 父主题: Volcano调度
AI任务性能增强调度 公平调度(DRF) 组调度(Gang) 父主题: Volcano调度
存储 存储概述 存储基础知识 云硬盘存储(EVS) 文件存储(SFS) 极速文件存储(SFS Turbo) 对象存储(OBS) 专属存储(DSS) 本地持久卷(Local PV) 临时存储卷(EmptyDir) 主机路径(HostPath) 存储类(StorageClass) 存储管理最佳实践
文件存储卷 文件存储卷概述 使用kubectl自动创建文件存储 使用kubectl对接已有文件存储 使用kubectl部署带文件存储卷的无状态工作负载 使用kubectl部署带文件存储卷的有状态工作负载 父主题: 存储管理-Flexvolume(已弃用)
仪表盘 使用仪表盘 集群视图 APIServer视图 Pod视图 主机视图 Node视图 节点池视图 GPU视图 XGPU视图 CoreDNS视图 PVC视图 Kubelet视图 Prometheus Server视图 Prometheus Agent视图 父主题: 监控中心
Pod可以在这个节点上一直运行。 NoSchedule 已运行在该节点的Pod不会被驱逐。 未运行的Pod不会被调度到该节点。 Pod可以在这个节点上一直运行。 通过控制台配置容忍策略 登录CCE控制台。 在创建工作负载时,在“高级配置”中找到“容忍策略”。 添加污点容忍策略。 表1 容忍策略设置参数说明
集群规模:50节点 高可用:是 1 2.91元/小时 虚拟机节点 建议选择按需计费。 虚拟机节点类型:通用计算增强型 节点规格:4核 | 8GiB 操作系统:EulerOS 2.9 系统盘:50GiB | 通用型SSD 数据盘:100GiB | 通用型SSD 1 1.0015元/小时
极速文件存储卷 极速文件存储卷概述 使用kubectl对接已有极速文件存储卷 使用kubectl部署带极速文件存储卷的无状态工作负载 使用kubectl部署带极速文件存储卷的有状态工作负载 父主题: 存储管理-Flexvolume(已弃用)
节点系统参数优化 可优化的节点系统参数列表 修改节点日志缓存内存占用量上限RuntimeMaxUse 修改最大文件句柄数 修改节点内核参数 修改节点进程 ID数量上限kernel.pid_max 父主题: 节点运维
跳过节点检查 检查项内容 集群升级后,需要检测集群内是否有跳过升级的节点,这些节点可能会影响正常使用。 检查步骤 系统会为您检查集群内是否存在跳过升级的节点,您可以根据诊断结果前往节点列表页进行确认。跳过的节点含有标签upgrade.cce.io/skipped=true。 解决方案
GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 CCE AI套件(NVIDIA GPU)插件使用dcgm-exporter监控GPU指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理
云原生观测 云原生观测体系概述 云原生观测委托权限说明 健康中心 监控中心 日志中心 告警中心 日志审计 云原生观测FAQ 云原生观测最佳实践
节点池视图 从节点池视角呈现节点池资源的占用和分配情况,帮助您详细了解节点池的负载状态。 指标说明 节点池视图暴露的指标如下: 图1 节点池资源指标 表1 视图说明 图表名称 单位 说明 节点池CPU分配率 百分比 节点池里的所有节点的Pod CPU Request总量占所有节点CPU总量的比例
PrecheckSpec object 参数解释: spec是集合类的元素类型,您对需要升级前检查的配置信息的主体部分都在spec中给出。CCE通过spec的描述来执行检查。 约束限制: 不涉及 表3 PrecheckSpec 参数 是否必选 参数类型 描述 clusterID 是 String