检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在CCE集群中使用密钥Secret的安全配置建议 当前CCE已为secret资源配置了静态加密,用户创建的secret在CCE的集群的etcd里会被加密存储。当前secret主要有环境变量和文件挂载两种使用方式。不论使用哪种方式,CCE传递给用户的仍然是用户配置时的数据。因此建议:
配置节点故障检测策略 节点故障检查功能依赖node-problem-detector(简称:npd),npd是一款集群节点监控插件,插件实例会运行在每个节点上。本文介绍如何开启节点故障检测能力。 前提条件 集群中已安装CCE节点故障检测插件。 开启节点故障检测 登录CCE控制台,单击集群名称进入集群
修改CCE集群配置 操作场景 CCE支持对集群配置参数进行管理,通过该功能您可以对核心组件进行深度配置。 操作步骤 登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到目标集群,查看集群的更多操作,并选择“配置管理”。 图1 配置管理 在侧边栏滑出的“配置管理”窗口中,根据业务需求修改
CCE AI套件(NVIDIA GPU)版本发布记录 表1 CCE AI套件(NVIDIA GPU)版本记录 插件版本 支持的集群版本 更新特性 2.7.19 v1.28 v1.29 v1.30 修复nvidia-container-toolkit CVE-2024-0132容器逃逸漏洞
兼容Kubernetes默认GPU调度模式 开启GPU虚拟化后,工作负载调度GPU时建议使用显存隔离模式(即设置volcano.sh/gpu-mem.128Mi资源)和算显隔离模式(即同时设置volcano.sh/gpu-mem.128Mi和volcano.sh/gpu-core.percentage
新版节点池切换说明 升级后的节点池,不仅完美融合了按需和包年/包月节点的灵活性,更在原有的全量能力基础上进一步增强配置管理,为您的资源管理带来更高效、更灵活的体验。 为什么要切换新版节点池? 灵活的资源配置:节点池提供更加灵活的节点类型,允许您根据即时需求创建按需节点,也可以选择成本效益更高的包年
计费样例 计费场景 某用户购买了一个按需计费的集群用于业务上云测试,集群中使用资源及配置如下: 表1 初始集群资源及配置 资源类型 计费开始时间 初始计费模式 初始规格配置 数量 集群 2023/03/18 15:30:00 按需计费 区域:上海一 集群规模:50节点 高可用:是
如何确认监听器配置生效的Ingress CCE支持将多个Ingress对接到同一个ELB的监听器,并创建不同的转发策略。由于监听器配置参数通过annotation方式承载,因此可能存在同一个监听器配置在多个Ingress上有不同配置参数的场景。本文为您介绍如何确认监听器配置生效Ingress
Kubernetes 1.27版本说明 云容器引擎(CCE)严格遵循社区一致性认证,现已支持创建Kubernetes 1.27集群。本文介绍Kubernetes 1.27版本相对于1.25版本所做的变更说明。 索引 主要特性 弃用和移除 CCE对Kubernetes 1.27版本的增强
Kubernetes 1.27版本说明 云容器引擎(CCE)严格遵循社区一致性认证,现已支持创建Kubernetes 1.27集群。本文介绍Kubernetes 1.27版本相对于1.25版本所做的变更说明。 索引 主要特性 弃用和移除 CCE对Kubernetes 1.27版本的增强
创建集群 功能介绍 该API用于创建一个空集群(即只有控制节点Master,没有工作节点Node)。请在调用本接口完成集群创建之后,通过创建节点添加节点。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 调用该接口创建集群时
监控GPU资源指标 通过Prometheus和Grafana,可以实现对GPU资源指标的观测。本文以实际示例介绍如何通过Prometheus查看集群的GPU显存的使用。 本文将通过一个示例应用演示如何监控GPU资源指标,具体步骤如下: 访问Prometheus (可选)为Prometheus
使用云原生监控插件监控自定义指标 CCE提供了云原生监控插件,支持使用Prometheus监控自定义指标。 本文将通过一个Nginx应用的示例演示如何使用Prometheus监控自定义指标,步骤如下: 安装并访问云原生监控插件 CCE提供了集成Prometheus功能的插件,支持一键安装
管理工作负载 操作场景 工作负载创建后,您可以对其执行升级、编辑YAML、日志、监控、回退、删除等操作。 表1 工作负载/任务管理 操作 描述 监控 可以通过CCE控制台查看工作负载和容器组的CPU和内存占用情况,以确定需要的资源规格。 日志 可查看工作负载的日志信息。 升级 可以通过更换镜像或镜像版本实现无状态工作负载
组调度(Gang) 组调度(Gang)满足了调度过程中“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,主要应用于AI、大数据等多任务协作场景。启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。 前提条件
搭建Jenkins和Gitlab环境 前提条件 创建一个新的VPC,本示例中名为vpc-X,所使用网段为192.168.0.0/16。 创建一台位于vpc-X(192.168.0.0/16网段)的ECS服务器,推荐规格为4vCPUs 16GiB,系统为Huawei Cloud EulerOS
跨云Harbor同步镜像至华为云SWR 场景描述 部分客户存在多云场景,并且使用某一家云上的自建Harbor作为镜像仓库。跨云Harbor同步镜像至SWR存在两种场景: Harbor可以通过公网访问SWR,配置方法参见公网访问场景。 通过专线打通Harbor到VPC间的网络,使用VPC
CCE最佳实践汇总 本文汇总了云容器引擎(CCE)服务的常见应用场景,并为每个场景提供详细的方案描述和操作指南,以帮助您在CCE集群中轻松搭建业务。 CCE最佳实践 开发者社区精选最佳实践 Solution as Code一键式部署类最佳实践 表1 CCE最佳实践 分类 相关文档
CPU管理策略 使用场景 默认情况下,kubelet使用CFS 配额来执行Pod的CPU约束。 当节点上运行了很多CPU密集的Pod时,工作负载可能会迁移到不同的CPU核, 这取决于调度时Pod是否被扼制,以及哪些CPU核是可用的。许多应用对这种迁移不敏感,因此无需任何干预即可正常工作
增强型CPU管理策略 在Kubernetes默认提供的CPU管理策略中有none和static两种: none: 默认不开启CPU管理策略,表示现有的调度行为。 static:开启静态绑核的CPU管理策略,允许为节点上具有某些资源特征的 Pod(Guaranteed pod)赋予增强的