检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU节点使用nvidia驱动启动容器排查思路 集群中的节点是否有资源调度失败的事件? 问题现象: 节点运行正常且有GPU资源,但报如下失败信息: 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路: 确认节点标签是否已经打上
获取集群升级前检查任务详情 功能介绍 获取集群升级前检查任务详情,任务ID由调用集群检查API后从响应体中uid字段获取。 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/clusters/{cluster_id}/operation
资源利用率优化调度配置案例 概述 Volcano调度分为两个阶段,分别为节点过滤和节点优选,过滤阶段筛选出符合调度条件的节点,优选阶段对所有符合调度条件的节点打分,最终选取得分最高的节点进行调度。Volcano提供多种调度策略进行节点打分优选,每种调度策略可以根据实际业务场景调整对应的权重值
集群监控 当您想观测整个集群的资源使用情况和健康度时,可以在“监控中心 > 集群”页面查看,该页面提供了单个集群的监控情况,包含集群健康度、健康概况、资源消耗Top统计和数据面监控多维度的信息概况。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心
Namespace:资源分组 为什么需要Namespace Label虽然好,但只用Label的话,那Label会非常多,有时候会有重叠,而且每次查询之类的动作都带一堆Label非常不方便。Kubernetes提供了Namespace来做资源组织和划分,使用多Namespace可以将包含很多组件的系统分成不同的组
CCE部署使用ClickHouse ClickHouse是一款用于联机分析(OLAP)的列式数据库管理系统,适用于处理大规模数据集的实时查询和分析。ClickHouse容器化部署方式主要有4种,具体请参见表1。ClickHouse Operator是在Kubernetes上部署和管理
创建无状态负载(Deployment) 操作场景 在运行中始终不保存任何数据或状态的工作负载称为“无状态负载 Deployment”,例如nginx。您可以通过控制台或kubectl命令行创建无状态负载。 前提条件 在创建容器工作负载前,您需要存在一个可用集群。若没有可用集群 ,请参照购买
API URL说明 集群管理、节点管理、节点池管理、配额管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 Kubernetes API、存储管理、插件管理的URL格式为:https://{clusterid}.Endpoint
metadata 密钥名称 密钥的名称 参数名 取值范围 默认值 是否允许修改 作用范围 name 以小写字母开头,由小写字母、数字、中划线(-)组成,长度253以内,且不能以中划线(-)结尾,命名空间下名称不能重复 无 密钥创建后名称不允许修改 - 密钥资源名称,为资源主键,指定后不支持修改
资源准备 在集群中添加GPU节点 登录CCE控制台,单击已创建的集群,进入集群控制台。 安装GPU插件。 在左侧导航栏中选择“插件管理”,在右侧找到gpu-beta(或gpu-device-plugin),单击“安装”。 在安装插件页面,设置插件关键参数。 Nvidia驱动:填写Nvidia
metadata 配置项名称 配置项的名称 参数名 取值范围 默认值 是否允许修改 作用范围 name 以小写字母开头,由小写字母、数字、中划线(-)组成,长度253以内,且不能以中划线(-)结尾,同一命名空间下名称不能重复 无 配置项创建后名称不允许修改 - 配置项资源名称,为资源主键
使用kubectl部署带云硬盘存储卷的工作负载 操作场景 云硬盘创建或导入CCE后,可以在工作负载中挂载云硬盘。 云硬盘不支持跨可用区挂载。在挂载前,您可以使用 kubectl get pvc 命令查询当前集群所在分区下可用PVC。 约束与限制 如下配置示例适用于Kubernetes
使用容器网络配置为命名空间/工作负载绑定子网及安全组 操作场景 CCE Turbo集群支持以命名空间或工作负载粒度设置容器所在的容器子网及安全组,该功能通过名为NetworkAttachmentDefinition的CRD资源实现。如您想为指定的命名空间或工作负载配置指定的容器子网和安全组
获取集群升级前检查任务详情列表 功能介绍 获取集群升级前检查任务详情列表 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/clusters/{cluster_id}/operation/precheck/tasks 表1
kubelet配置 CPU管理策略配置 提供的CPU管理策略为应用分配独占的CPU核(即CPU绑核),提升应用性能,减少应用的调度延迟。 参数名 取值范围 默认值 是否允许修改 作用范围 cpu-manager-policy none/static none 允许 CCE Standard
使用kubectl部署带极速文件存储卷的无状态工作负载 操作场景 极速文件存储创建或导入CCE后,可以在工作负载中挂载极速文件存储。 约束与限制 如下配置示例适用于Kubernetes 1.13及以下版本的集群。 操作步骤 请参见通过kubectl连接集群,使用kubectl连接集群
亲和与反亲和调度 在守护进程集(DaemonSet)中讲到使用nodeSelector选择Pod要部署的节点,其实Kubernetes还支持更精细、更灵活的调度机制,那就是亲和(affinity)与反亲和(anti-affinity)调度。 Kubernetes支持节点和Pod两个层级的亲和与反亲和
工作负载异常:实例无法写入数据 Pod事件 Pod所在的节点文件系统损坏,新建的Pod无法成功在/var/lib/kubelet/device-plugins/.xxxxx写入数据,Pod通常会出现以下类似事件: Message: Pod Update Plugin resources
使用通用文件存储(SFS 3.0)自动收集异常退出的JVM转储文件 当您使用Java开发业务时,如果设置的JVM堆空间过小,程序可能会出现OOM(Out Of Memory)问题。为了解决这个问题,您可以使用通用文件存储(SFS 3.0)作为记录日志的载体,并将其挂载到容器内的相应目录中
节点池概述 简介 为帮助您更好地管理Kubernetes集群内的节点,云容器引擎CCE引入节点池概念。节点池是集群中具有相同配置的一组节点,一个节点池包含一个节点或多个节点。 您可以在CCE控制台创建新的自定义节点池,借助节点池基本功能方便快捷地创建、管理和销毁节点,而不会影响整个集群