检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE密钥管理(对接 DEW)插件版本发布记录 表1 CCE密钥管理(对接 DEW)插件版本记录 插件版本 支持的集群版本 更新特性 1.1.33 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 适配CCE v1.30集群 1.1.3 v1.21
开通成本洞察 成本洞察基于真实账单和集群资源用量统计数据,通过自研的成本画像算法进行成本拆分,提供以部门、集群、命名空间、应用等维度的成本画像。成本洞察能够帮助成本管理人员分析集群成本开销、资源使用状况,识别资源浪费,为下一步的成本优化提供输入。 本文主要介绍如何开通成本洞察功能。
使用安全组策略为工作负载绑定安全组 云原生网络2.0网络模式下,Pod使用的是VPC的弹性网卡/辅助弹性网卡,可直接绑定安全组,绑定弹性公网IP。为方便用户在CCE内直接为Pod关联安全组,CCE新增了一个名为SecurityGroup的自定义资源对象。通过SecurityGroup
健康检查配置 健康检查 此配置项配置为健康检查配置。 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation: elb.health-check-options 无 无 允许 CCE Standard/CCE Turbo 健康检查的目标端口 spec.ports
集群诊断 云容器引擎CCE服务提供一键集群诊断能力,包括集群诊断、节点诊断、工作负载诊断、核心插件诊断和外部依赖诊断,可以辅助您定位集群中出现的问题。本文介绍如何在集群中使用集群诊断功能。 前提条件 已获取资源权限。 集群版本高于v1.17。 集群处于“运行中”状态。 功能入口 登录
XGPU视图 XGPU是虚拟化的GPU设备,从XGPU视图可以在节点、GPU卡、容器等多个角度监控XGPU虚拟化设备的显存、算力分配率,帮助您掌控GPU运行状况。 指标说明 图1 XGPU资源指标 表1 XGPU视图图表说明 图表名称 单位 说明 集群-XGPU设备显存使用率 百分比
自建IDC与CCE集群共享域名解析方案概述 应用现状 当前,越来越多的软件采用微服务架构,构建一个产品时会大量使用微服务,不同微服务之间访问时涉及到域名访问。 拥有自建IDC的企业,在使用CCE时通常需要在CCE集群与自建IDC之间通信,而且当IDC有内部域名时,需要CCE集群内的节点和容器既能够解析
使用SWR触发器自动更新工作负载版本 操作场景 容器镜像服务可搭配云容器引擎CCE一起使用,实现镜像版本更新时自动更新使用该镜像的应用。您只需要为镜像添加一个触发器,通过触发器,可以在每次生成新的镜像版本时,自动执行更新动作,如:自动更新使用该镜像的应用。 前提条件 更新应用镜像版本之前
在什么场景下,容器会被重建? 问题描述 在什么场景下,容器会被重建? 可能原因 容器重建是指容器被销毁并重新创建一个新实例。容器重建可能由多种原因触发,以下是一些常见的场景: 表1 容器重建的常见场景 常见场景 说明 容器崩溃或异常终止 当运行中的容器因软件错误、资源耗尽或其他意外情况崩溃时
扩展集群VPC网段 操作场景 在创建集群时会选择集群位于某个VPC内,如果VPC规划太小出现没有足够可用IP时,您可以采用VPC扩展网段满足业务扩容需求。本文介绍如何使用VPC扩展网段扩充集群网段。 约束与限制 仅支持v1.21及以上版本的CCE Standard集群和CCE Turbo
健康中心概述 集群健康诊断用于诊断集群的健康状态,该功能集合了容器运维专家的经验,为您提供了集群级别的健康诊断最佳实践。可对集群健康状况进行全面检查,帮助您及时发现集群故障与潜在风险,并给出应对的修复建议供您参考。 健康诊断覆盖范围 健康诊断覆盖范围如下图所示: 图1 健康诊断覆盖范围
如何避免非GPU/NPU负载调度到GPU/NPU节点? 问题现象 当集群中存在GPU/NPU节点和普通节点混合使用的场景时,普通工作负载也可以调度到GPU/NPU节点上,可能出现GPU/NPU资源未充分利用的情况。 问题原因 由于GPU/NPU节点同样提供CPU、内存资源,在一般情况下
插件高可用部署 应用场景 CCE提供了多种插件扩展集群云原生能力,涵盖了容器调度与弹性、云原生可观测、容器网络、容器存储、容器安全等方向,插件通过Helm模板方式部署,将插件中的工作负载部署至集群的工作节点。 随着插件使用的普及化,业务对插件的稳定性、可靠性保证已成为基本诉求。目前
GPU视图 GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。 指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量
管理工作负载 操作场景 工作负载创建后,您可以对其执行升级、编辑YAML、日志、监控、回退、删除等操作。 表1 工作负载/任务管理 操作 描述 监控 可以通过CCE控制台查看工作负载和容器组的CPU和内存占用情况,以确定需要的资源规格。 日志 可查看工作负载的日志信息。 升级 可以通过更换镜像或镜像版本实现无状态工作负载
本地持久卷概述 本地持久卷介绍 CCE支持使用LVM将节点上的数据卷组成存储池(VolumeGroup),然后划分LV给容器挂载使用。使用本地持久卷作为存储介质的PV的类型可称之为Local PV。 与HostPath卷相比,本地持久卷能够以持久和可移植的方式使用,而且本地持久卷的
登录节点 前提条件 使用SSH方式登录时,请确认节点安全组已放通SSH端口(默认为22)。详情请参见配置安全组规则。 通过公网使用SSH方式登录时要求该节点(弹性云服务器 ECS)已绑定弹性公网IP。 只有运行中的弹性云服务器才允许用户登录。 Linux操作系统用户名为root。
CCE突发弹性引擎(对接CCI)插件版本发布记录 表1 CCE突发弹性引擎(对接CCI)插件版本记录 插件版本 支持的集群版本 更新特性 1.5.16 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 仅进行Pod级别CPU和Memory资源规整
公平调度(DRF) DRF(Dominant Resource Fairness)是主资源公平调度策略,应用于大批量提交AI训练和大数据作业的场景,可增强集群业务的吞吐量,整体缩短业务执行时间,提高训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard
CCE控制台的权限依赖 CCE对其他云服务有诸多依赖关系,因此在您开启IAM授权后,在CCE Console控制台的各项功能需要配置相应的服务权限后才能正常查看或使用,详细说明如下: 依赖服务的权限配置均基于您已设置了IAM授权的CCE FullAccess或CCE ReadOnlyAccess