检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
管理工作负载弹性伸缩策略 操作场景 工作负载弹性策略创建完成后,可对创建的策略进行更新、编辑YAML以及删除等操作。 操作步骤 您可以查看工作负载弹性策略的规则、最新状态和事件,参照界面中的报错提示有针对性的解决异常事件。 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中
通过节点池升级节点的GPU驱动版本 如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理,创建应用时可调度到指定驱动版本的节点池,在升级驱动时,也可以根据节点池分批次控制升级。
容器使用SCSI类型云硬盘偶现IO卡住如何解决? 问题描述 容器使用SCSI类型的云硬盘存储,在CentOS节点上创建和删除容器触发磁盘频繁挂载卸载的场景,有概率会出现系统盘读写瞬时冲高,然后系统卡住的问题,影响节点正常工作。 出现该问题时,可在dmesg日志中观察到: Attached
节点被判定不可缩容后能再次启动检查的时间间隔,单位分钟,默认值:5。 scaleDownUtilizationThreshold 否 double 判断节点可缩容的cpu和内存资源使用率门限,默认0.5。 maxNodesTotal 否 int 集群扩容的节点数量上限,默认1000。 coresTotal
开启集群过载控制 操作场景 过载控制开启后,将根据控制节点的资源压力,动态调整系统外LIST请求的并发限制,维护控制节点和集群的可靠性。 约束与限制 集群版本需为v1.23及以上。 开启集群过载控制 方式一:创建集群时开启 创建v1.23及以上集群时,可在创建集群过程中,开启过载控制选项。
api版本,默认为v3 kind String 类型 metadata Metadata object 基本信息,为集合类的元素类型,包含一组由不同名称定义的属性 items Array of PrecheckClusterTask objects 集群检查任务列表 表3 Metadata
节点ARP表项超过限制 问题现象 ARP缓存超限,容器网络的访问出现异常,例如coredns域名解析概率失败。 问题根因 出现该问题的原因是节点上容器缓存的ARP表项超过限制。 问题定位 在节点操作系统内核为4.3以上时,dmsg日志中会有显性的打印neighbor table overfl
CCE节点故障检测插件(node-problem-detector,简称NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。node-problem-detector可以作为DaemonSet运行,
挂载的普通数据盘支持下调至10G。 调整容器运行时和Kubelet组件使用的数据盘大小存在一些风险,根据本文提供的预估方法,建议综合评估后再做实际调整。 过小的数据盘容量可能会频繁出现磁盘空间不足,导致镜像拉取失败的问题。如果节点上需要频繁拉取不同的镜像,不建议将数据盘容量调小。
通过LVM管理,创建一个名为vgpaas的卷组(VG)。 将90%的vgpaas空间以条带的方式划分成runtime逻辑卷。 将10%的vgpaas空间以条带的方式划分成kubernetes逻辑卷。 需要两块及以上数据盘才能条带化。 创建条带化逻辑卷(LV)时,加入卷组(VG)的物理卷(PV)的类型与大小应尽量保持一致,以免条带化创建失败。
Rails一个开源的版本管理系统,实现一个自托管的Git项目仓库,可通过Web界面进行访问公开的或者私人项目。与Github类似,GitLab能够浏览源代码,管理缺陷和注释。可以管理团队对仓库的访问,它非常易于浏览提交过的版本并提供一个文件历史库。团队成员可以利用内置的简单聊天程序(Wall)进行交流。
健康中心概述 集群健康诊断用于诊断集群的健康状态,该功能集合了容器运维专家的经验,为您提供了集群级别的健康诊断最佳实践。可对集群健康状况进行全面检查,帮助您及时发现集群故障与潜在风险,并给出应对的修复建议供您参考。 健康诊断覆盖范围 健康诊断覆盖范围如下图所示: 图1 健康诊断覆盖范围
Jenkins Master安装部署 Jenkins Agent配置 使用Jenkins构建流水线 参考:Jenkins对接Kubernetes集群的RBAC 父主题: 在CCE中安装部署Jenkins
推荐使用滚动的方式迁移,即扩容部分Containerd节点,再删除部分Docker节点,直至新的Containerd节点池中节点数量和原Docker节点池中节点数量一致。 若您在原有Docker节点或节点池上部署的负载设置了对应的节点亲和性,则需要将负载的节点亲和性策略配置为的新Containerd节点或节点池。
规格配置变更 如何变更CCE集群中的节点规格? CCE节点池内的节点变更规格后会有哪些影响? CCE节点变更规格后,为什么无法重新拉起或创建工作负载? CCE集群的节点可以更改IP吗? 父主题: 节点
API&kubectl 用户访问集群API Server的方式有哪些? 通过API或kubectl操作CCE集群,创建的资源是否能在控制台展示? 通过kubectl连接集群时,其配置文件config如何下载? kubectl top node命令为何报错 kubectl使用报错:Error
权限 CCE权限概述 集群权限(IAM授权) 命名空间权限(Kubernetes RBAC授权) 示例:某部门权限设计及配置 CCE控制台的权限依赖 ServiceAccount Token安全性提升说明 系统委托说明
Scheduler是负责Pod调度的组件,它由一系列action和plugin组成。action定义了调度各环节中需要执行的动作;plugin根据不同场景提供了action 中算法的具体实现细节。Volcano Scheduler具有高度的可扩展性,您可以根据需要实现自己的action和plugin。
CCE AI套件(NVIDIA GPU)版本发布记录 表1 CCE AI套件(NVIDIA GPU)版本记录 插件版本 支持的集群版本 更新特性 2.7.42 v1.28 v1.29 v1.30 v1.31 新增NVIDIA 535.216.03驱动,支持XGPU特性 2.7.41
Everest存储类型 自定义StorageClass 使用延迟绑定的云硬盘(csi-disk-topology)实现跨AZ调度 使用通用文件存储(SFS 3.0)自动收集异常退出的JVM转储文件 存储多可用区部署的推荐配置