检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。 GPU虚拟化 NPU调度 CCE为集群中的NPU异构资源提供调度能力,实现快速高效地处理推理和图像识别等工作。
模板(Helm Chart) 模板概述 通过模板部署应用 Helm v2与Helm v3的差异及适配方案 通过Helm v2客户端部署应用 通过Helm v3客户端部署应用 Helm v2 Release转换成Helm v3 Release
19及以上版本的集群,详情请参见购买Standard/Turbo集群。 已安装Volcano插件,详情请参见Volcano调度器。 优先级调度与抢占介绍 用户在集群中运行的业务丰富多样,包括核心业务、非核心业务,在线业务、离线业务等,根据业务的重要程度和SLA要求,可以对不同业务类型设置相应的高
Dashboard安全漏洞CVE-2018-18264:使用Kubernetes Dashboard v1.10及以前的版本有跳过用户身份认证,及使用Dashboard登录账号读取集群密钥信息的风险 。 华为云CCE提供的Dashboard插件已将对应镜像升级到v1.10.1版本,不受Kubernetes
XGPU视图 XGPU是虚拟化的GPU设备,从XGPU视图可以在节点、GPU卡、容器等多个角度监控XGPU虚拟化设备的显存、算力分配率,帮助您掌控GPU运行状况。 指标说明 图1 XGPU资源指标 表1 XGPU视图图表说明 图表名称 单位 说明 集群-XGPU设备显存使用率 百分比
方式通知到华为云账号的创建者。 到期后影响 当您的包年/包月资源到期未续费,资源将会进入宽限期,状态变为“已过期”。宽限期内您仍然可以正常访问及使用该资源。 如果超过宽限期后,您仍未续费包年/包月资源,资源将会进入保留期,资源状态变为“已冻结”,您将无法对处于保留期的包年/包月资源执行任何操作。
命名空间 创建命名空间 管理命名空间 设置资源配额及限制
管理集群 修改CCE集群配置 开启集群过载控制 变更集群规格 更改集群节点的默认安全组 删除集群 禁止删除集群 休眠/唤醒按需计费集群 续费包年/包月集群 按需计费集群转包周期 父主题: 集群
节点池 节点池概述 新版节点池切换说明 节点池多规格计费说明 创建节点池 扩缩容节点池 管理节点池 节点池管理最佳实践
CoreDNS视图 提供了负载域名解析的CoreDNS监控视图,包含请求、响应情况,以及缓存状况。 指标说明 CoreDNS视图暴露的指标如下: 图1 CoreDNS视图指标 表1 CoreDNS指标说明 指标名称 单位 说明 请求速率 个/秒 CoreDNS每秒请求个数 请求速率(记录类型)
Helm模板检查异常处理 检查项内容 检查当前HelmRelease记录中是否含有目标集群版本不支持的K8s废弃API,可能导致升级后helm模板不可用。 解决方案 将HelmRelease记录中K8s废弃API转换为源版本和目标版本均兼容的API。 该检查项解决方案已在升级流程
CRD检查异常处理 检查项内容 当前检查项包括以下内容: 检查集群关键CRD "packageversions.version.cce.io"是否被删除。 检查集群关键CRD "network-attachment-definitions.k8s.cni.cncf.io"是否被删除。
内存平均使用率 远程写Bps 字节/秒 每秒远程写入的字节数 远程写平均耗时 秒 远程写入平均耗时 远程写Pending字节数 字节 远程写入挂起的数据字节数 远程写Packet每秒丢弃次数 次 远程写入每秒丢弃的数据包数 远程写每秒错误请求次数 次 远程写每秒错误请求次数 远程写错误请求百分比
中心和边缘的计算资源,用户可以便捷地根据应用的诉求将其部署在对应的区域。 CCE Turbo集群使用分布式云资源功能需要提前注册并部署智能边缘小站服务。 图1 CCE Turbo分布式管理 核心概念 为了区分云上资源和分布在不同边缘区域的资源,也为了方便用户使用和管理处于不同区域的资源,引入了分区概念,定义如下:
节点升级过程中需要使用磁盘存储升级组件包,使用/tmp目录存储临时文件。 问题场景一:Master节点磁盘使用量不满足升级要求 请联系技术支持人员排查处理。 问题场景二:用户节点磁盘使用量不满足升级要求 请执行以下检查命令,检查当前各关键磁盘的空间使用情况,删除整理确保各可用空间满足要求后,重试检查。 dock
节点Kubelet检查异常处理 检查项内容 检查节点kubelet服务是否运行正常。 解决方案 问题场景一:kubelet状态异常 kubelet异常时,节点显示不可用,请参考集群可用,但节点状态为“不可用”修复节点后,重试检查任务。 问题场景二:cce-pause版本异常 检测
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
eAccount)Token的安全性,改变了Pod挂载Token的方式,Kubernetes 1.21及以上版本的集群中会默认开启。 参考链接 关于Kubernetes 1.23与其他版本的性能对比和功能演进的更多信息,请参考: Kubernetes v1.23 Release Notes
节点OS检查异常处理 检查项内容 检查节点操作系统内核版本是否为CCE支持的版本。 解决方案 问题场景一:节点镜像非CCE标准镜像 CCE节点运行依赖创建时的初始标准内核版本,CCE基于该内核版本做了全面的兼容性测试,非标准的内核版本可能在节点升级中因兼容性问题导致节点升级失败,详情请参见高危操作及解决方案。
PVC,其实际LVM逻辑卷占用为404MiB (占用101个LE),最终在页面中看到的使用量为LVM实际使用量。 访问模式 本地持久卷类型的存储卷仅支持ReadWriteOnce,表示存储卷可以被一个节点以读写方式挂载,详情请参见存储卷访问模式。 存储池 查看已导入的存储池,如需将新的数据卷导入存储池,请参见在存储池中导入持久卷。