检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
空闲节点:资源利用率低于30%的节点。 CPU和内存资源碎片率整理策略(HighNodeUtilization) 从分配率低的节点上驱逐Pod。这个策略必须与Volcano调度器的binpack策略或者kube-scheduler调度器的MostAllocated策略一起使用。阈值可以分为CPU和内存两种资源角度进行配置。
缩至PB规模,具备高可用性和持久性,为海量数据、高带宽型应用提供有力支持。适用于多种应用场景,包括HPC、媒体处理、文件共享、内容管理和Web服务等。 SFS Turbo为用户提供一个完全托管的共享文件存储,能够弹性伸缩至320TB规模,具备高可用性和持久性,为海量的小文件、低延
显的。 虚拟GPU资源调度 支持GPU虚拟化资源调度。 参数名 取值范围 默认值 是否允许修改 作用范围 xGPU true/false true 允许 CCE Standard/CCE Turbo 支持GPU单卡算力、显存分割与隔离的调度能力 配置建议: 使用GPU的场景默认开启,不使用GPU资源可以选择关闭
要进行隧道封装和NAT转换,所以适用于对带宽、时延要求极高的业务场景,比如:线上直播、电商抢购等。 大规模组网:云原生网络2.0当前最大可支持2000个ECS节点,10万个Pod。 容器IP地址管理 云原生网络2.0下的BMS节点和ECS节点分别使用的是弹性网卡和辅助弹性网卡:
Ingress控制器插件升级检查异常处理 云原生监控插件升级检查异常处理 Containerd Pod重启风险检查异常处理 GPU插件关键参数检查异常处理 GPU/NPU Pod重建风险检查异常处理 ELB监听器访问控制配置项检查异常处理 Master节点规格检查异常处理 Master节点子网配额检查异常处理
要有哪些? 如何配置Pod使用GPU节点的加速能力? 容器使用SCSI类型云硬盘偶现IO卡住如何解决? docker审计日志量过大影响磁盘IO如何解决? thinpool磁盘空间耗尽导致容器或节点异常时,如何解决? CCE节点上监听的端口列表 GPU节点使用nvidia驱动启动容器排查思路
练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。详情请参见组调度(Gang)。 异构资源调度(Volcano调度器支持) 支持GPU资源调度 使用该能力时,集群中需要同时安装CCE AI套件(NVIDIA GPU)。启用该能力后,可使用GPU资源运行AI训练作业,
本例是tomcat类型的web应用,需要7.0版本的tomcat环境,tomcat需要1.8版本的jdk。并且应用对接MongoDB,均需要提前获取。 此处请根据您应用的实际情况,下载应用所需的依赖环境。 下载对应版本的Tomcat、JDK和MongoDB。 下载JDK 1.8版本。 下载地址:https://www
调度 调度概述 CPU调度 GPU调度 NPU调度 Volcano调度 云原生混部
云原生异构计算插件 CCE AI套件(NVIDIA GPU) CCE AI套件(Ascend NPU) 父主题: 插件
50 检查集群管理平面网段是否与主干配置一致 检查集群管理平面网段是否与主干配置一致。 51 GPU插件检查异常处理 检查到本次升级涉及GPU插件,可能影响新建GPU节点时GPU驱动的安装。 52 节点系统参数检查异常处理 检查您节点上默认系统参数是否被修改。 53 残留packageversion检查异常处理
27.14 v1.27 修复多规格情况下无法缩容和非预期PreferNoSchedule污点问题 1.27.1 1.27.11 v1.27 - 1.27.1 1.27.7 v1.27 适配CCE v1.27集群 优化异构设备(GPU/NPU)识别方法 1.27.1 表7 v1.25集群配套插件版本记录
自有证书:您可以将自定义证书添加到集群中,用自定义证书进行认证。 您需要分别上传自己的CA根证书、客户端证书和客户端证书私钥。 注意: 请上传小于1MB的文件,CA根证书和客户端证书上传格式支持.crt或.cer格式,客户端证书私钥仅支持上传未加密的证书私钥。 客户端证书有效期需要5年以上。
补丁版本发布记录 索引 v1.30版本 v1.29版本 v1.28版本 v1.27版本 v1.25版本 v1.23版本 v1.21版本 v1.19版本 v1.30版本 表1 v1.30补丁版本发布说明 CCE集群补丁版本号 Kubernetes社区版本 特性更新 优化增强 安全漏洞修复
"name": "cce-gpu-topology-predicate" }, { "name": "cce-gpu-topology-priority"
补丁版本发布记录 索引 v1.30版本 v1.29版本 v1.28版本 v1.27版本 v1.25版本 v1.23版本 v1.21版本 v1.19版本 v1.30版本 表1 v1.30补丁版本发布说明 CCE集群补丁版本号 Kubernetes社区版本 特性更新 优化增强 安全漏洞修复
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
仪表盘 使用仪表盘 集群视图 APIServer视图 Pod视图 主机视图 Node视图 节点池视图 GPU视图 XGPU视图 CoreDNS视图 PVC视图 Kubelet视图 Prometheus Server视图 Prometheus Agent视图 父主题: 监控中心
的可用IP数和集群规模的影响,详情请参见网段规划建议。 网段规划建议 在集群网络构成中介绍集群中网络地址可分为集群网络、容器网络、服务网络三块,在规划网络地址时需要从如下方面考虑: 三个网段不能重叠,否则会导致冲突。且集群所在VPC下所有子网(包括扩展网段子网)不能和容器网段、服务网段冲突。
Kubernetes Metrics Server CCE容器弹性引擎 CCE突发弹性引擎(对接CCI) CCE AI套件(NVIDIA GPU) CCE AI套件(Ascend NPU) Volcano调度器 CCE密钥管理(对接 DEW) CCE容器网络扩展指标 节点本地域名解析加速