检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
缩至PB规模,具备高可用性和持久性,为海量数据、高带宽型应用提供有力支持。适用于多种应用场景,包括HPC、媒体处理、文件共享、内容管理和Web服务等。 SFS Turbo为用户提供一个完全托管的共享文件存储,能够弹性伸缩至320TB规模,具备高可用性和持久性,为海量的小文件、低延
要进行隧道封装和NAT转换,所以适用于对带宽、时延要求极高的业务场景,比如:线上直播、电商抢购等。 大规模组网:云原生网络2.0当前最大可支持2000个ECS节点,10万个Pod。 容器IP地址管理 云原生网络2.0下的BMS节点和ECS节点分别使用的是弹性网卡和辅助弹性网卡:
Ingress控制器插件升级检查异常处理 云原生监控插件升级检查异常处理 Containerd Pod重启风险检查异常处理 GPU插件关键参数检查异常处理 GPU/NPU Pod重建风险检查异常处理 ELB监听器访问控制配置项检查异常处理 Master节点规格检查异常处理 Master节点子网配额检查异常处理
要有哪些? 如何配置Pod使用GPU节点的加速能力? 容器使用SCSI类型云硬盘偶现IO卡住如何解决? docker审计日志量过大影响磁盘IO如何解决? thinpool磁盘空间耗尽导致容器或节点异常时,如何解决? CCE节点上监听的端口列表 GPU节点使用nvidia驱动启动容器排查思路
练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。详情请参见组调度(Gang)。 异构资源调度(Volcano调度器支持) 支持GPU资源调度 使用该能力时,集群中需要同时安装CCE AI套件(NVIDIA GPU)。启用该能力后,可使用GPU资源运行AI训练作业,
调度 调度概述 CPU调度 GPU调度 NPU调度 Volcano调度 云原生混部
云原生异构计算插件 CCE AI套件(NVIDIA GPU) CCE AI套件(Ascend NPU) 父主题: 插件
本例是tomcat类型的web应用,需要7.0版本的tomcat环境,tomcat需要1.8版本的jdk。并且应用对接MongoDB,均需要提前获取。 此处请根据您应用的实际情况,下载应用所需的依赖环境。 下载对应版本的Tomcat、JDK和MongoDB。 下载JDK 1.8版本。 下载地址:https://www
49 检查集群管理平面网段是否与主干配置一致 检查集群管理平面网段是否与主干配置一致。 50 GPU插件检查异常处理 检查到本次升级涉及GPU插件,可能影响新建GPU节点时GPU驱动的安装。 51 节点系统参数检查异常处理 检查您节点上默认系统参数是否被修改。 52 残留packageversion检查异常处理
27.14 v1.27 修复多规格情况下无法缩容和非预期PreferNoSchedule污点问题 1.27.1 1.27.11 v1.27 - 1.27.1 1.27.7 v1.27 适配CCE v1.27集群 优化异构设备(GPU/NPU)识别方法 1.27.1 表7 v1.25集群配套插件版本记录
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
"name": "cce-gpu-topology-predicate" }, { "name": "cce-gpu-topology-priority"
补丁版本发布记录 索引 v1.30版本 v1.29版本 v1.28版本 v1.27版本 v1.25版本 v1.23版本 v1.21版本 v1.19版本 v1.30版本 表1 v1.30补丁版本发布说明 CCE集群补丁版本号 Kubernetes社区版本 特性更新 优化增强 安全漏洞修复
补丁版本发布记录 索引 v1.30版本 v1.29版本 v1.28版本 v1.27版本 v1.25版本 v1.23版本 v1.21版本 v1.19版本 v1.30版本 表1 v1.30补丁版本发布说明 CCE集群补丁版本号 Kubernetes社区版本 特性更新 优化增强 安全漏洞修复
自有证书:您可以将自定义证书添加到集群中,用自定义证书进行认证。 您需要分别上传自己的CA根证书、客户端证书和客户端证书私钥。 注意: 请上传小于1MB的文件,CA根证书和客户端证书上传格式支持.crt或.cer格式,客户端证书私钥仅支持上传未加密的证书私钥。 客户端证书有效期需要5年以上。
仪表盘 使用仪表盘 集群视图 APIServer视图 Pod视图 主机视图 Node视图 节点池视图 GPU视图 XGPU视图 CoreDNS视图 PVC视图 Kubelet视图 Prometheus Server视图 Prometheus Agent视图 父主题: 监控中心
Kubernetes Metrics Server CCE容器弹性引擎 CCE突发弹性引擎(对接CCI) CCE AI套件(NVIDIA GPU) CCE AI套件(Ascend NPU) Volcano调度器 CCE密钥管理(对接 DEW) CCE容器网络扩展指标 节点本地域名解析加速
的可用IP数和集群规模的影响,详情请参见网段规划建议。 网段规划建议 在集群网络构成中介绍集群中网络地址可分为集群网络、容器网络、服务网络三块,在规划网络地址时需要从如下方面考虑: 三个网段不能重叠,否则会导致冲突。且集群所在VPC下所有子网(包括扩展网段子网)不能和容器网段、服务网段冲突。
成本洞察基于真实账单和集群资源用量统计数据,通过自研的成本画像算法进行成本拆分,提供以部门、集群、命名空间、应用等维度的成本画像。成本洞察能够帮助成本管理人员分析集群成本开销、资源使用状况,识别资源浪费,为下一步的成本优化提供输入。 成本洞察从Region视角和集群资源视角展示用户的容器成本使用情况。其中:
工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态 工作负载异常:已停止 工作负载异常:GPU节点部署服务报错 工作负载异常:添加存储失败 工作负载异常:实例无法写入数据 工作负载异常:Init容器启动失败 工作负载异常:OOM问题