检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
资源准备 在集群中添加GPU节点 登录CCE控制台,单击已创建的集群,进入集群控制台。 安装GPU插件。 在左侧导航栏中选择“插件管理”,在右侧找到gpu-beta(或gpu-device-plugin),单击“安装”。 在安装插件页面,设置插件关键参数。 Nvidia驱动:填写Nvidia
云原生混部概述 随着云原生技术迅速发展,海量应用正在走向云原生化。从2021年到2022年,Kubernetes集群中的云原生应用总数同比增长30%+,Kubernetes正在成为云时代的“操作系统”。但随着进一步调研发现,应用部署在Kubernetes集群后,大部分用户节点的CPU
资源和成本规划 本文提供的成本预估费用仅供参考,资源的实际费用与用户所在区域相关,请以华为云管理控制台显示为准。 完成本实践所需的资源如下: 表1 资源和成本规划 资源 资源说明 数量 费用(元) 云容器引擎CCE 建议选择按需计费。 集群类型:CCE集群 集群版本:v1.25 集群规模
节点关机 操作场景 集群中的节点关机后,该节点以及节点内的业务将停止运行,且该节点将被设置为不可调度状态。节点关机前,请先确认您的正常业务运行将不受影响,请谨慎操作。 大部分节点关机后不再收费,特殊实例(包含本地硬盘,如磁盘增强型,超高I/O型等)关机后仍然正常收费,具体请参见ECS
快速创建Kubernetes集群 背景信息 本章节将演示如何快速创建一个CCE集群,部分配置采用默认或最简配置,详细创建方法请参见创建CCE集群。 创建集群 登录CCE控制台。 如果您的账号还未创建过集群,请在引导页面中单击CCE集群下的“购买集群”,并选择CCE Standard
(停止维护)Kubernetes 1.13版本说明 云容器引擎(CCE)严格遵循社区一致性认证。本文介绍CCE发布Kubernetes 1.13版本所做的变更说明。 表1 v1.13版本集群说明 Kubernetes版本(CCE增强版) 版本说明 v1.13.10-r0 主要特性:
Kubernetes Kubernetes是什么 Kubernetes是一个很容易地部署和管理容器化的应用软件系统,使用Kubernetes能够方便对容器进行调度和编排。 对应用开发者而言,可以把Kubernetes看成一个集群操作系统。Kubernetes提供服务发现、伸缩、负载均衡
CCE节点故障检测 插件介绍 CCE节点故障检测插件(node-problem-detector,简称NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。node-problem-detector
基础配置 实例名称 参数名 取值范围 默认值 是否允许修改 作用范围 name 由小写字母、数字、中划线组成,24个字符以内,开头为小写字母开头,结尾为小写字母或数字 无 支持初始化时配置,不支持后续修改 - 模板实例名称 命名空间 参数名 取值范围 默认值 是否允许修改 作用范围
集群冻结/解冻/释放常见问题 集群为什么被冻结 资源冻结的类型包括欠费冻结、违规冻结、公安冻结。 单击了解资源冻结的类型、冻结后对续费、退订的影响。 集群如何解冻 欠费冻结:用户可通过续费或充值来解冻资源,恢复集群正常使用。欠费冻结的集群允许续费、释放或删除;已经到期的包年/包月集群不能发起退订
集群备份 功能介绍 集群备份 调用方法 请参见如何调用API。 URI POST /api/v3.1/projects/{project_id}/clusters/{cluster_id}/operation/snapshot 表1 路径参数 参数 是否必选 参数类型 描述 project_id
资源与成本规划 本文提供的成本预估费用仅供参考,资源的实际费用与用户所在区域相关,请以华为云管理控制台显示为准。 完成本实践所需的资源如下: 表1 资源和成本规划 资源 资源说明 数量 费用(元) 弹性云服务器ECS 建议选择按需计费。 虚拟机类型:通用计算增强型 节点规格:4核
纳管节点 功能介绍 该API用于在指定集群下纳管节点。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 接口约束 纳管节点支持ECS(弹性云服务器)节点、BMS(裸金属服务器)节点以及DeH(专属主机)节点。 待纳管节点必须状态为
监控GPU资源指标 通过Prometheus和Grafana,可以实现对GPU资源指标的观测。本文以实际示例介绍如何通过Prometheus查看集群的GPU显存的使用。 本文将通过一个示例应用演示如何监控GPU资源指标,具体步骤如下: 访问Prometheus (可选)为Prometheus
(停止维护)Kubernetes 1.13版本说明 云容器引擎(CCE)严格遵循社区一致性认证。本文介绍CCE发布Kubernetes 1.13版本所做的变更说明。 表1 v1.13版本集群说明 Kubernetes版本(CCE增强版) 版本说明 v1.13.10-r0 主要特性:
自定义部署Nginx Ingress Controller 应用现状 Nginx Ingress Controller是一款业界流行的开源Ingress控制器,有着广泛的应用。在大规模集群场景下,用户有在集群中部署多套Nginx Ingress Controller的诉求,不同流量使用不同的控制器
基于GPU监控指标的工作负载弹性伸缩配置 集群中包含GPU节点时,可通过GPU指标查看节点GPU资源的使用情况,例如GPU利用率、显存使用量等。在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,在业务波动时自适应调整应用的副本数量。 前提条件 目标集群已创建,且集群中包含
NVIDIA Container Toolkit容器逃逸漏洞公告(CVE-2024-0132) NVIDIA Container Toolkit 是一个由 NVIDIA 提供的开源工具包,它允许您在容器化环境中利用 NVIDIA GPU 进行加速计算。工具包包括一个容器运行时库和实用程序
制作并上传镜像 本章指导用户将整体应用制作成Docker镜像。制作完镜像后,每次应用的部署和升级即可通过镜像操作,减少了人工配置,提升效率。 制作镜像时,要求制作镜像的文件在同个目录下。 使用云服务 容器镜像服务SWR:是一种支持容器镜像全生命周期管理的服务, 提供简单易用、安全可靠的镜像管理功能
服务基础配置 服务名称 服务名称 参数名 取值范围 默认值 是否允许修改 作用范围 name 0-253字符 无 创建时可修改 CCE Standard/CCE Turbo 命令空间 服务所在的命名空间 参数名 取值范围 默认值 是否允许修改 作用范围 namespace 0-63