检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
指标后,用户可根据应用的GPU指标配置弹性伸缩策略,在业务波动时自适应调整应用的副本数量。 前提条件 目标集群已创建,且集群中包含GPU节点,并已运行GPU相关业务。 在集群中安装CCE AI套件(NVIDIA GPU),且插件的metrics API正常工作。您可以登录GPU节点,执行以下命令进行检查:
创建或升级实例失败,提示rendered manifests contain a resource that already exists 问题现象 创建或升级实例失败,提示“Create release by helm failed:rendered manifests contain
NoSchedule 已运行在该节点的Pod不会被驱逐。 未运行的Pod不会被调度到该节点。 Pod可以在这个节点上一直运行。 通过控制台配置容忍策略 登录CCE控制台。 在创建工作负载时,在“高级设置”中找到“容忍策略”。 添加污点容忍策略。 表1 容忍策略设置参数说明 参数名 参数描述 污点键
集群下控制节点和用户节点使用的虚拟私有云。 参数名 取值范围 默认值 是否允许修改 作用范围 HostNetwork.vpc 用户租户下存在的VPC ID 无 支持初始化时配置,不支持后续修改 CCE Standard/CCE Turbo 获取方法如下: 方法1:登录虚拟私有云服务
实际升级过程中会换算成数字,且换算会向上取整。这个值也可以直接设置成数字。 仅Deployment、DaemonSet支持配置。 最大无效实例数(maxUnavailable) 与spec.replicas相比,可以有多少个Pod失效,也就是删除的比例,默认值是25%。 比如spec
10 1.19.8 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 兼容单系统盘 支持插件实例AZ反亲和配置 支持在竞价实例被释放前给节点加污点,驱逐节点上的pod 插件挂载节点时区 适配CCE v1.30集群 0.8.10 1.19.1 v1.21
rules中添加reason和fieldPath,允许用户指定验证失败的原因和字段路径。 在Kubernetes 1.28版本,ValidatingAdmissionPolicy的CEL表达式通过namespaceObject支持namespace访问。 在Kubernetes 1.28版本,将API
GPU)(2.7.5及以上版本)、Volcano调度器及CCE集群弹性引擎(1.28.78或1.29.41及以上版本)。 步骤一:节点池配置 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“节点管理”。 单击“创建节点池”,创建一个GPU虚拟化规格的节点池,操作详情请参见创建节点池。
如果您需要安装最新版本的GPU驱动,请将您的GPU插件升级到最新版本。 表1 GPU驱动支持列表 GPU型号 支持集群类型 机型规格 操作系统 Huawei Cloud EulerOS 2.0(支持GPU虚拟化) Ubuntu 22.04.4 Ubuntu 22.04.3 CentOS Linux release
迟2天显示。 使用成本洞察期间,需要保证云原生监控插件运行正常,否则影响成本洞察中命名空间、工作负载、节点池等相关视图的呈现。 操作入口 登录CCE控制台,单击集群名称进入集群。 单击左侧导航栏中的“云原生成本治理 > 成本洞察”。 在洞察界面,进行成本优化分析。 图1 单集群视角的成本洞察
上运行同一 Pod的多个实例,有助于将DaemonSet的停机时间降到最低。DaemonSet不允许maxSurge和hostPort同时使用,因为两个活跃的Pod无法共享同一节点的相同端口。更多信息,请参见DaemonSet工作负载滚动上线。 对使用用户命名空间运行Pod提供Alpha支持
CPU调度 CPU管理策略 增强型CPU管理策略 父主题: 调度
集群概述 集群基本信息 Kubernetes版本发布记录 补丁版本发布记录 父主题: 集群
NPU调度 CCE支持在容器中使用NPU资源。 前提条件 创建NPU类型节点,具体请参见创建节点。 安装huawei-npu插件,具体请参见CCE AI套件(Ascend NPU)。 使用NPU 创建工作负载申请NPU资源,可按如下方法配置,指定显卡的数量。 kind: Deployment
DNS DNS概述 工作负载DNS配置说明 使用CoreDNS实现自定义域名解析 使用NodeLocal DNSCache提升DNS性能 父主题: 网络
proc/self/fd/<num>,以实现在容器运行后访问节点文件系统。 工作负载的容器镜像来源不可信,攻击者拥有修改源镜像权限,将镜像中WORKDIR设置为/proc/self/fd/<num>,以实现在容器运行后访问节点文件系统。 漏洞影响 满足上述漏洞利用条件时,容器进程
若弹性云服务器状态为“可用”:请参考排查项七:内部组件是否正常登录弹性云服务器进行本地故障排查。 排查项三:弹性云服务器能否登录 登录ECS控制台。 确认界面显示的节点名称与虚机内的节点名称是否一致,并且密码或者密钥能否登录。 图1 确认界面显示的名称 图2 确认虚机内的节点名称和能否登录 如果节点名称不一致,并且
指标用来标识容器每秒使用CPU核心数。关于Prometheus指标的更多信息,请参见metric_type。 步骤一:安装云原生监控插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”。 在“插件中心”页面右侧找到云原生监控插件,单击“安装”。 建议您关注以
28.7-r0及以上版本 v1.29集群:v1.29.3-r0及以上版本 其他更高版本的集群 您需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 在CCE Standard集群中,当Service服务亲和类型配置成节点级别(即externalT
升级集群 升级集群的流程和方法 升级前须知 升级后验证 集群跨版本业务迁移 升级前检查异常问题排查 父主题: 集群