检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开启集群过载控制 操作场景 过载控制开启后,将根据控制节点的资源压力,动态调整系统外LIST请求的并发限制,维护控制节点和集群的可靠性。 约束与限制 集群版本需为v1.23及以上。 开启集群过载控制 方式一:创建集群时开启 创建v1.23及以上集群时,可在创建集群过程中,开启过载控制选项。
自建K8s集群迁移方案概述 操作场景 随着容器化技术的发展,越来越多的企业使用容器代替了虚拟机完成应用的运行部署,而Kubernetes的发展让容器化的部署变得简单并且高效。目前许多企业选择自建Kubernetes集群,但是自建集群往往有着沉重的运维负担,需要运维人员自己配置管理
配置集群环境 前提条件 创建2个新的VPC,且网段互不重叠。本示例中名为vpc-A,所使用网段为172.16.0.0/16,另一个名为vpc-B,所使用网段为172.17.0.0/16。 创建测试集群 登录CCE控制台,在“集群管理”页面右上角单击“购买集群”。 填写集群配置,其
如何删除Terminating状态的命名空间? Kubernetes中namespace有两种常见的状态,即Active和Terminating状态。当对应的命名空间下还存在运行的资源,但该命名空间被删除时才会出现Terminating状态,这种情况下只要等待Kubernetes
docker审计日志量过大影响磁盘IO如何解决? 问题描述 部分集群版本的存量节点docker审计日志量较大,由于操作系统内核缺陷,会低概率出现IO卡住。该问题可通过优化审计日志规则,降低问题出现的概率。 影响范围 受影响的集群版本: v1.15.11-r1 v.1.17.9-r0
修改kubelet参数导致已驱逐的Pod被重新调度 问题现象 如果节点存在Memory/Disk/PID Pressure的情况,节点会被添加系统污点。此时修改节点池kubelet组件配置参数或者重启节点kubelet后,该污点会被临时删除,可能会导致由于节点资源压力而触发驱逐的
云原生混部概述 随着云原生技术迅速发展,海量应用正在走向云原生化。从2021年到2022年,Kubernetes集群中的云原生应用总数同比增长30%+,Kubernetes正在成为云时代的“操作系统”。但随着进一步调研发现,应用部署在Kubernetes集群后,大部分用户节点的C
云原生成本治理委托权限说明 由于云原生成本治理在运行过程中对CCE、AOM、OBS、CBC等各类云服务有依赖关系。因此当您首次使用云原生成本治理功能时,需要具有Security Administrator权限的账户完成授权,将当前区域云资源权限授权给CCE,以此来支持成本治理功能运行需要。
集群权限(IAM授权) CCE集群权限是基于IAM系统策略和自定义策略的授权,可以通过用户组功能实现IAM用户的授权。 集群权限仅针对与集群相关的资源(如集群、节点等)有效,您必须确保同时配置了命名空间权限,才能有操作Kubernetes资源(如工作负载、Service等)的权限。
GPU故障处理 前提条件 如需将GPU事件同步上报至AOM,集群中需安装云原生日志采集插件,您可前往AOM服务查看GPU插件隔离事件。 GPU插件隔离事件 当GPU显卡出现异常时,系统会将出现问题的GPU设备进行隔离,详细事件如表1所示。 表1 GPU插件隔离事件 事件原因 详细信息
方案概述 DevOps是一组过程、方法与系统的统称,通过一系列手段来促进开发(应用程序/软件工程)部门与技术运营和质量保障(QA)部门之间的密切沟通、高效协作与整合。通过自动化的软件交付和架构变更流程,让规划、开发、构建、测试、发布、部署、维护都能更快、更频繁、更可靠,保障开发结
节点命令行检查异常处理 检查项内容 检查节点中是否存在升级所必须的命令。 解决方案 该问题一般由于节点上缺少集群升级流程中使用到的关键命令,可能会导致集群升级失败。 报错信息如下: __error_code#ErrorCommandNotExist#chage command is
使用Kubectl命令操作集群 kubectl kubectl是Kubernetes集群的命令行工具,您可以将kubectl安装在任意一台机器上,通过kubectl命令操作Kubernetes集群。 CCE集群的kubectl安装请参见通过kubectl连接集群。连接后您可以执行kubectl
GPU节点使用nvidia驱动启动容器排查思路 集群中的节点是否有资源调度失败的事件? 问题现象: 节点运行正常且有GPU资源,但报如下失败信息: 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路: 确认节点标签是否已经打上nvidia资源。
节点上CCE Agent版本检查异常处理 检查项内容 检测当前节点的CCE包管理组件cce-agent是否为最新版本。 解决方案 问题场景一: 错误信息为“you cce-agent no update, please restart it”。 该问题是由于cce-agent没有
残留待迁移节点检查异常处理 检查项内容 检查节点是否需要迁移。 解决方案 该问题由于节点拉包组件异常或节点由比较老的版本升级而来,导致节点上缺少关键的系统组件导致。 解决方案一 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面,单击对应节点的“更多 > 重置节
修复Kubernetes Dashboard安全漏洞公告(CVE-2018-18264) 漏洞详情 Kubernetes社区发现Kubernetes Dashboard安全漏洞CVE-2018-18264:使用Kubernetes Dashboard v1.10及以前的版本有跳过
获取指定的节点池 功能介绍 该API用于获取指定节点池的详细信息。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_
Sudo缓冲区错误漏洞公告(CVE-2021-3156) 漏洞详情 外部安全研究人员披露sudo中的堆溢出漏洞(CVE-2021-3156),该漏洞在类似Unix的主要操作系统上都可以使用。在其默认配置下会影响从1.8.2到1.8.31p2的所有旧版本以及从1.9.0到1.9.5
续费包年/包月集群 客户购买包周期集群后,支持续费包周期资源。 操作步骤 本节以计费模式为“包年/包月”的集群为例,介绍如何为购买的集群续费。 包周期的集群超期未续费将会被系统删除,删除后集群内的节点以及运行的业务都将销毁,请务必及时续费或开通自动续费。 登录CCE控制台,在左侧导航栏中选择“集群管理”。