检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用健康中心 云容器引擎CCE服务提供一键集群诊断能力,包括集群诊断、节点诊断、工作负载诊断、核心插件诊断和外部依赖诊断,可以辅助您定位集群中出现的问题。本文介绍如何在集群中使用集群诊断功能。 前提条件 已获取资源权限 集群版本高于v1.17。 集群处于“运行中”状态。 功能入口
开通监控中心 开通监控中心将在集群中安装云原生监控插件,该插件提供监控中心的指标采集功能。开通后,监控中心将采集集群中的指标并上报至AOM实例。本章节介绍如何为集群开通监控中心功能。 开通监控中心后,集群中的指标将上报至AOM实例,AOM针对基础指标免费,自定义指标由AOM服务收费
集群升级前检查 功能介绍 集群升级前检查 调用方法 请参见如何调用API。 URI POST /api/v3/projects/{project_id}/clusters/{cluster_id}/operation/precheck 表1 路径参数 参数 是否必选 参数类型 描述
开启云原生混部 前提条件 已创建一个CCE Standard集群或CCE Turbo集群,且版本满足以下要求: v1.23集群:v1.23.9-r0及以上 v1.25集群:v1.25.4-r0及以上 集群中已安装1.10.0及以上版本的Volcano插件。 约束与限制 开启云原生混部后
设置节点亲和调度(nodeAffinity) Kubernetes在调度工作负载时支持将节点作为亲和对象,将工作负载调度至具有指定标签和标签值的节点上。例如,某些节点支持使用GPU算力,则可以使用节点亲和调度,确保高性能计算的Pod最终运行在GPU节点上。 配置节点亲和调度策略 您可以通过不同的方式配置节点亲和性调度策略
通过告警中心一键配置告警 告警中心基于AOM告警功能,提供集群内置告警一键开启能力,在集群发生故障时能够及时发现并预警,协助您维护业务稳定性。智能告警中心可有效节省您在AOM侧手动配置告警规则的工作量,并且内置的告警规则基于华为云容器团队大规模集群运维经验,能够满足您的日常运维所需
集群基本信息 Kubernetes是一个开源的容器编排引擎,可用于容器化应用的自动化部署、 扩缩和管理。 对应用开发者而言,可以把Kubernetes看成一个集群操作系统。Kubernetes提供服务发现、伸缩、负载均衡、自愈甚至选举等功能,让开发者从基础设施相关配置中解脱出来。
插件高可用部署 应用场景 CCE提供了多种插件扩展集群云原生能力,涵盖了容器调度与弹性、云原生可观测、容器网络、容器存储、容器安全等方向,插件通过Helm模板方式部署,将插件中的工作负载部署至集群的工作节点。 随着插件使用的普及化,业务对插件的稳定性、可靠性保证已成为基本诉求。目前
临时存储卷概述 临时卷介绍 当有些应用程序需要额外的存储,但并不关心数据在重启后是否仍然可用。 例如,缓存服务经常受限于内存大小,而且可以将不常用的数据转移到比内存慢的存储中,对总体性能的影响并不大。另有些应用程序需要以文件形式注入的只读数据,比如配置数据或密钥。 Kubernetes
CCE集群中域名解析失败 问题现象 CCE集群中域名解析失败。 排查思路 以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。 如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。 图1 域名解析失败排查思路 当遇到域名解析失败的问题时
通过静态存储卷使用已有极速文件存储 极速文件存储(SFS Turbo)是一种具备高可用性和持久性的共享文件系统,适合海量的小文件、低延迟高IOPS的应用。本文介绍如何使用已有的极速文件存储静态创建PV和PVC,并在工作负载中实现数据持久化与共享性。 前提条件 您已经创建好一个集群,
在同一个命名空间内访问指定容器的FQDN是什么? 问题背景 客户询问在创建负载时指定部署的容器名称、pod名称、namespace名称,在同一个命名空间内访问该容器的FQDN是什么? 全限定域名:FQDN,即Fully Qualified Domain Name,同时带有主机名和域名的名称
SDK概述 本文介绍了CCE服务提供的SDK语言版本,列举了最新版本SDK的获取地址。 在线生成SDK代码 API Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 您可以在API Explorer中具体API页面的“代码示例”页签查看对应编程语言类型的
云原生监控插件 插件简介 云原生监控插件(kube-prometheus-stack)通过使用Prometheus-operator和Prometheus,提供简单易用的端到端Kubernetes集群监控能力。 使用kube-prometheus-stack可将监控数据与监控中心对接
负载均衡器配置:共享型elb自动创建配置 负载均衡器名称 自动创建的负载均衡器名称。 参数名 取值范围 默认值 是否允许修改 作用范围 name 1-255个字符 无 允许 CCE Standard/CCE Turbo 自动创建的负载均衡器名称。 支持网络类型 自动创建的负载均衡器属性
为Nginx Ingress配置重定向规则 配置永久重定向规则 如果您想将访问请求永久重定向至某个目标网址(状态码为301),您可以通过nginx.ingress.kubernetes.io/permanent-redirect注解进行配置。例如将所有内容永久重定向到www.example.com
集群跨版本业务迁移 适用场景 本章介绍在CCE中如何将老版本集群的业务迁移到新版本集群。 适用于需要大幅度跨版本集群升级(如1.19.* 升级到1.28.*版本)的需求,可以接受新建新版本集群而进行业务迁移的升级方式。 前提条件 表1 迁移前Checklist 类别 描述 集群相关
CCE AI套件(NVIDIA GPU) 插件介绍 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 是 object 插件基础配置参数
存储类(StorageClass) 存储类介绍 在Kubernetes中,StorageClass是一种资源对象,描述了集群中的存储类型“分类”,用于定义存储卷的配置模板。每个StorageClass对象都定义了一种存储方式,包括动态卷供应的配置参数,如卷的类型、访问模式、卷的生命周期策略等
手动更新GPU节点驱动版本 一般情况下,您可以通过CCE AI套件(NVIDIA GPU)插件配置节点的驱动文件路径,节点重启后会自动安装驱动。您也可以手动更新驱动的方式进行更新。 手动更新GPU节点的驱动版本为临时方案,适用于需要对某个节点进行差异化配置的场景,但节点重启后将自动重置为