检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对象存储卷 对象存储卷概述 使用kubectl自动创建对象存储 使用kubectl对接已有对象存储 使用kubectl部署带对象存储卷的无状态工作负载 使用kubectl部署带对象存储卷的有状态工作负载 父主题: 存储管理-Flexvolume(已弃用)
使用CCE需要关注哪些配额限制? 云容器引擎CCE配额只限制了集群个数,但是用户使用CCE时也会使用其他云服务,包括:弹性云服务器、云硬盘、虚拟私有云、弹性负载均衡、容器镜像服务等。 什么是配额? 为防止资源滥用,平台限定了各服务资源的配额,对用户的资源数量和容量做了限制。如您最多可以创建多少台弹性云服务器、多少块云硬盘。
集群视图 基于集群的指标和PromQL语句,提供了集群节点、CPU、内存、网络、磁盘等关键资源相关图表,帮助您了解整体集群的资源运行状态。接下来主要从指标说明、指标清单两个部分来进行图表的说明,其中图表中对于数值过大的字节(bytes)会换算为MB、KB、GB等。 指标说明 集群
ory_bytes Gauge 进程驻留内存大小(以字节为单位) process_cpu_seconds_total Counter 进程用户和系统 CPU 总时间(以秒为单位) go_goroutines Gauge 协程数量 父主题: 仪表盘
NPU调度 CCE支持在容器中使用NPU资源。 前提条件 创建NPU类型节点,具体请参见创建节点。 安装huawei-npu插件,具体请参见CCE AI套件(Ascend NPU)。 使用NPU 创建工作负载申请NPU资源,可按如下方法配置,指定显卡的数量。 kind: Deployment
DNS DNS概述 工作负载DNS配置说明 使用CoreDNS实现自定义域名解析 使用节点本地域名解析加速(NodeLocal DNSCache)提升DNS性能 父主题: 网络
进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。 GPU虚拟化 NPU调度 CCE为集群中的NPU异构资源提供调度能力,实现快速高效地处理推理和图像识别等工作。
其他插件 Kubernetes Dashboard OpenKruise Gatekeeper CCE集群备份恢复(停止维护) Kubernetes Web终端(停止维护) 父主题: 插件
云硬盘存储卷 云硬盘存储卷概述 使用kubectl自动创建云硬盘 使用kubectl对接已有云硬盘 使用kubectl部署带云硬盘存储卷的工作负载 父主题: 存储管理-Flexvolume(已弃用)
Helm模板检查异常处理 检查项内容 检查当前HelmRelease记录中是否含有目标集群版本不支持的K8s废弃API,可能导致升级后helm模板不可用。 解决方案 将HelmRelease记录中K8s废弃API转换为源版本和目标版本均兼容的API。 该检查项解决方案已在升级流程
CRD检查异常处理 检查项内容 当前检查项包括以下内容: 检查集群关键CRD "packageversions.version.cce.io"是否被删除。 检查集群关键CRD "network-attachment-definitions.k8s.cni.cncf.io"是否被删除。
Device=%s, UUID=%s, SN=%s has more than 60 retired pages caused by both multiple single bit ecc error and double bit ecc error, DBE error number: %d
XGPU视图 XGPU是虚拟化的GPU设备,从XGPU视图可以在节点、GPU卡、容器等多个角度监控XGPU虚拟化设备的显存、算力分配率,帮助您掌控GPU运行状况。 指标说明 图1 XGPU资源指标 表1 XGPU视图图表说明 图表名称 单位 说明 集群-XGPU设备显存使用率 百分比
节点升级过程中需要使用磁盘存储升级组件包,使用/tmp目录存储临时文件。 问题场景一:Master节点磁盘使用量不满足升级要求 请联系技术支持人员排查处理。 问题场景二:用户节点磁盘使用量不满足升级要求 请执行以下检查命令,检查当前各关键磁盘的空间使用情况,删除整理确保各可用空间满足要求后,重试检查。 dock
节点Kubelet检查异常处理 检查项内容 检查节点kubelet服务是否运行正常。 解决方案 问题场景一:kubelet状态异常 kubelet异常时,节点显示不可用,请参考集群可用,但节点状态为“不可用”修复节点后,重试检查任务。 问题场景二:cce-pause版本异常 检测
内存平均使用率 远程写Bps 字节/秒 每秒远程写入的字节数 远程写平均耗时 秒 远程写入平均耗时 远程写Pending字节数 字节 远程写入挂起的数据字节数 远程写Packet每秒丢弃次数 次 远程写入每秒丢弃的数据包数 远程写每秒错误请求次数 次 远程写每秒错误请求次数 远程写错误请求百分比
中心和边缘的计算资源,用户可以便捷地根据应用的诉求将其部署在对应的区域。 CCE Turbo集群使用分布式云资源功能需要提前注册并部署智能边缘小站服务。 图1 CCE Turbo分布式管理 核心概念 为了区分云上资源和分布在不同边缘区域的资源,也为了方便用户使用和管理处于不同区域的资源,引入了分区概念,定义如下:
命名空间 创建命名空间 管理命名空间 设置资源配额及限制
管理集群 修改CCE集群配置 开启集群过载控制 变更集群规格 更改集群节点的默认安全组 删除集群 禁止删除集群 休眠/唤醒按需计费集群 续费包年/包月集群 按需计费集群转包周期 父主题: 集群
节点池 节点池概述 新版节点池切换说明 节点池多规格计费说明 创建节点池 扩缩容节点池 管理节点池 节点池管理最佳实践