检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
设置节点亲和调度(nodeAffinity) Kubernetes在调度工作负载时支持将节点作为亲和对象,将工作负载调度至具有指定标签和标签值的节点上。例如,某些节点支持使用GPU算力,则可以使用节点亲和调度,确保高性能计算的Pod最终运行在GPU节点上。 配置节点亲和调度策略 您可以通过不同的方式配置节点亲和性调度策略
创建CCE节点时可以不添加数据盘吗? 不可以,数据盘是必须要的。 新建节点会给节点绑定一个供kubelet及容器引擎使用的专用数据盘,详情请参见数据盘空间分配说明。CCE数据盘默认使用LVM(Logical Volume Manager)进行磁盘管理,开启后您可以通过空间分配调整数据盘中不同资源的空间占比
CCE集群中域名解析失败 问题现象 CCE集群中域名解析失败。 排查思路 以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。 如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。 图1 域名解析失败排查思路 当遇到域名解析失败的问题时
临时存储卷概述 临时卷介绍 当有些应用程序需要额外的存储,但并不关心数据在重启后是否仍然可用。 例如,缓存服务经常受限于内存大小,而且可以将不常用的数据转移到比内存慢的存储中,对总体性能的影响并不大。另有些应用程序需要以文件形式注入的只读数据,比如配置数据或密钥。 Kubernetes
在同一个命名空间内访问指定容器的FQDN是什么? 问题背景 客户询问在创建负载时指定部署的容器名称、pod名称、namespace名称,在同一个命名空间内访问该容器的FQDN是什么? 全限定域名:FQDN,即Fully Qualified Domain Name,同时带有主机名和域名的名称
通过告警中心一键配置告警 告警中心基于AOM告警功能,提供集群内置告警一键开启能力,在集群发生故障时能够及时发现并预警,协助您维护业务稳定性。智能告警中心可有效节省您在AOM侧手动配置告警规则的工作量,并且内置的告警规则基于华为云容器团队大规模集群运维经验,能够满足您的日常运维所需
GPU监控指标说明 CCE AI套件(NVIDIA GPU)插件提供GPU监控指标,并集成了DCGM-Exporter组件(要求插件版本2.7.32+),引入更丰富的GPU可观测性场景。本文介绍CCE AI套件(NVIDIA GPU)插件指标的详细信息。 计费说明 GPU指标作为自定义指标
为Nginx Ingress配置重定向规则 配置永久重定向规则 如果您想将访问请求永久重定向至某个目标网址(状态码为301),您可以通过nginx.ingress.kubernetes.io/permanent-redirect注解进行配置。例如将所有内容永久重定向到www.example.com
兼容Kubernetes默认GPU调度模式 开启GPU虚拟化后,工作负载调度GPU时建议使用显存隔离模式(即设置volcano.sh/gpu-mem.128Mi资源)和算显隔离模式(即同时设置volcano.sh/gpu-mem.128Mi和volcano.sh/gpu-core.percentage
CCE AI套件(NVIDIA GPU) 插件介绍 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 是 object 插件基础配置参数
集群跨版本业务迁移 适用场景 本章介绍在CCE中如何将老版本集群的业务迁移到新版本集群。 适用于需要大幅度跨版本集群升级(如1.19.* 升级到1.28.*版本)的需求,可以接受新建新版本集群而进行业务迁移的升级方式。 前提条件 表1 迁移前Checklist 类别 描述 集群相关
SDK概述 本文介绍了CCE服务提供的SDK语言版本,列举了最新版本SDK的获取地址。 在线生成SDK代码 API Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 您可以在API Explorer中具体API页面的“代码示例”页签查看对应编程语言类型的
存储类(StorageClass) 存储类介绍 在Kubernetes中,StorageClass是一种资源对象,描述了集群中的存储类型“分类”,用于定义存储卷的配置模板。每个StorageClass对象都定义了一种存储方式,包括动态卷供应的配置参数,如卷的类型、访问模式、卷的生命周期策略等
自定义StorageClass 应用现状 CCE中使用存储时,最常见的方法是创建PVC时通过指定StorageClassName定义要创建存储的类型,如下所示,使用PVC申请一个SAS(高I/O)类型云硬盘/块存储。 apiVersion: v1 kind: PersistentVolumeClaim
工作负载异常:实例驱逐异常(Evicted) 驱逐原理 当节点出现异常时,为了保证工作负载的可用性,Kubernetes会通过驱逐机制(Eviction)将该节点上的Pod调离异常节点。 目前Kubernetes中存在两种Eviction机制,分别由kube-controller-manager
管理命名空间 使用命名空间 创建工作负载时,您可以选择对应的命名空间,实现资源或租户的隔离。 查询工作负载时,选择对应的命名空间,查看对应命名空间下的所有工作负载。 命名空间使用实践 按照不同环境划分命名空间 一般情况下,工作负载发布会经历开发环境、联调环境、测试环境,最后到生产环境的过程
type 密钥类型 密钥的子类型 参数名 取值范围 默认值 是否允许修改 作用范围 type Opaque:一般密钥类型。 kubernetes.io/dockerconfigjson:存放拉取私有仓库镜像所需的认证信息。 kubernetes.io/tls:Kubernetes的
手动更新GPU节点驱动版本 一般情况下,您可以通过CCE AI套件(NVIDIA GPU)插件配置节点的驱动文件路径,节点重启后会自动安装驱动。您也可以手动更新驱动的方式进行更新。 手动更新GPU节点的驱动版本为临时方案,适用于需要对某个节点进行差异化配置的场景,但节点重启后将自动重置为
ELB IPv4私网地址检查异常处理 检查项内容 检查集群内负载均衡类型的Service所关联的ELB实例是否包含IPv4私网IP。 解决方案 解决方案一:删除关联无IPv4私网地址ELB的负载均衡型Service。 解决方案二:为无IPv4私网IP地址的ELB绑定一个私网IP。步骤如下
CCE集群安全配置建议 从安全的角度,建议您对集群做如下配置。 使用最新版本的CCE集群 Kubernetes社区一般4个月左右发布一个大版本,CCE的版本发布频率跟随社区版本发布节奏,在社区发布Kubernetes版本后3个月左右同步发布新的CCE版本,例如Kubernetes