检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备GPU虚拟化资源 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。本文介绍如何在GPU节点上实现GPU的调度和隔离能力。 前提条件 配置 支持版本 集群版本 v1.23.8-r0、v1.25
告警中心 告警中心概述 通过告警中心一键配置告警 通过CCE配置自定义告警 通过AOM配置自定义告警 CCE事件列表 父主题: 云原生观测
Prometheus插件平滑迁移实践 由于Prometheus(停止维护)仅支持v1.21及之前的集群版本,若您需要将集群升级至v1.21以上,您需要将停止维护的Prometheus插件迁移至云原生监控插件,以获取后续的技术支持。本文将指导您将已经停止维护的Prometheus插件迁移至云原生监控插件。
创建节点时使用OBS桶实现自定义脚本注入 应用现状 对于需要在节点上提前安装一些工具或者做用户自定义的安全加固等操作时,需要在创建节点的时候注入一些脚本。CCE创建节点提供了Kubernetes安装前和安装后两处注入脚本的功能。但是使用通常碰到如下限制: 注入脚本的字符有限。 各
CoreDNS域名解析 插件介绍 CoreDNS是一款通过链式插件的方式给Kubernetes提供DNS解析服务的DNS服务器,为Kubernetes社区推荐的DNS服务器解决方案。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object 插件基础配置参数,无需用户指定。
装箱调度(Binpack) 装箱调度(Binpack)是一种优化算法,以最小化资源使用量为目标,将资源合理地分配给每个任务,使所有资源都可以实现最大化的利用价值。在集群工作负载的调度过程中使用Binpack调度策略,调度器会优先将Pod调度到资源消耗较多的节点,减少各节点空闲资源碎片,提高集群资源利用率。
如果您在购买按需计费的节点后,想更换为包年/包月计费,可按如下步骤进行操作: 登录CCE控制台,单击集群名称进入集群。 在左侧选择节点管理,在节点的操作列选择“更多 > 转包年包月”。 图1 按需节点转包年/包月 单击“确定”,等待生成订单并完成支付即可。 父主题: 计费类
订,未到期的包年/包月集群可以退订。 公安冻结:已被公安冻结的集群允许续费,不允许释放或删除。被公安冻结的包年/包月集群不允许退订,在退订管理页面仍然显示,只是不能退订。 集群冻结、解冻对业务的影响 集群冻结时:资源将被限制访问和使用,会导致您的业务中断。 资源解冻时:资源将被解
公平调度(DRF) DRF(Dominant Resource Fairness)是主资源公平调度策略,应用于大批量提交AI训练和大数据作业的场景,可增强集群业务的吞吐量,整体缩短业务执行时间,提高训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。
实施步骤 搭建Jenkins和Gitlab环境 配置集群环境 配置Gitlab项目 持续集成及持续部署 父主题: 使用Jenkins和Gitlab实现多集群隔离的DevOps流程
容器垂直弹性引擎 CCE容器垂直弹性引擎是一款支持应用垂直弹性伸缩(VPA,Vertical Pod Autoscaling)的插件,可以根据容器资源历史使用情况自动调整Pod的CPU、Memory资源申请量。 开源社区地址:https://github.com/kubernet
模板格式不正确,无法删除模板实例? 问题现象 若上传的模板中包含不正确或者不兼容的资源,会导致安装模板失败,类似下图: 此时模板实例无法正常工作。如果您尝试在界面上删除,可能会出现deletion failed的报错,模板实例仍在列表中: 解决方法 您可以使用kubectl命令删除残留的模板实例。
获取集群升级前检查任务详情 功能介绍 获取集群升级前检查任务详情,任务ID由调用集群检查API后从响应体中uid字段获取。 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/clusters/{cluster_id}/o
域名DNS CCE集群内域名解析失败,如何定位处理? 为什么CCE集群的容器无法通过DNS解析? 为什么修改子网DNS配置后,无法解析租户区域名? 解析外部域名很慢或超时,如何优化配置? 如何设置容器内的DNS策略?
工作负载异常:Init容器启动失败 问题现象 Pod的状态为Init:N/M。 Pod的状态为Init:Error。 Pod的状态为Init:CrashLoopBackOff。 问题原因 Pod运行状态为Init:N/M,说明该Pod包含M个Init容器,其中N个已经启动完成,但仍有M-N个Init容器未启动成功。
GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 CCE AI套件(NVIDIA GPU)插件使用DCGM-Exporter监控GPU指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理
升级实例过程中实现业务不中断 应用场景 在Kubernetes集群中,应用通常采用Deployment + LoadBalancer类型Service的方式对外提供访问。应用更新或升级时,Deployment会创建新的Pod并逐步替换旧的Pod,这个过程中可能会导致服务中断。 解决方案
Volcano调度器 插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic
"https://www.example.com/v3/projects" } } 从控制台获取项目ID 从控制台获取项目ID的步骤如下: 登录管理控制台。 鼠标悬停在右上角的用户名,选择下拉列表中的“我的凭证”。 在“API凭证”页面的项目列表中查看项目ID。 图1 查看项目ID 父主题:
节点运维 节点预留资源策略说明 默认数据盘空间分配说明 节点可创建的最大Pod数量说明 CCE节点kubelet和runtime组件路径与社区原生配置差异说明 将节点容器引擎从Docker迁移到Containerd 节点系统参数优化 配置节点故障检测策略 创建节点时执行安装前/后脚本