检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
工作负载异常:启动容器失败 问题定位 工作负载详情中,若事件中提示“启动容器失败”,请按照如下方式来初步排查原因: 登录异常工作负载所在的节点。 查看工作负载实例非正常退出的容器ID。 docker ps -a | grep $podName 查看退出容器的错误日志。 docker
修改kubelet参数导致已驱逐的Pod被重新调度 问题现象 如果节点存在Memory/Disk/PID Pressure的情况,节点会被添加系统污点。此时修改节点池kubelet组件配置参数或者重启节点kubelet后,该污点会被临时删除,可能会导致由于节点资源压力而触发驱逐的节点重新加入调度器计算流程中
方案概述 DevOps是一组过程、方法与系统的统称,通过一系列手段来促进开发(应用程序/软件工程)部门与技术运营和质量保障(QA)部门之间的密切沟通、高效协作与整合。通过自动化的软件交付和架构变更流程,让规划、开发、构建、测试、发布、部署、维护都能更快、更频繁、更可靠,保障开发结果的稳定可靠
GPU故障处理 前提条件 如需将GPU事件同步上报至AOM,集群中需安装云原生日志采集插件,您可前往AOM服务查看GPU插件隔离事件。 GPU插件隔离事件 当GPU显卡出现异常时,系统会将出现问题的GPU设备进行隔离,详细事件如表1所示。 表1 GPU插件隔离事件 事件原因 详细信息
集群权限(IAM授权) CCE集群权限是基于IAM系统策略和自定义策略的授权,可以通过用户组功能实现IAM用户的授权。 集群权限仅针对与集群相关的资源(如集群、节点等)有效,您必须确保同时配置了命名空间权限,才能有操作Kubernetes资源(如工作负载、Service等)的权限。
云原生混部概述 随着云原生技术迅速发展,海量应用正在走向云原生化。从2021年到2022年,Kubernetes集群中的云原生应用总数同比增长30%+,Kubernetes正在成为云时代的“操作系统”。但随着进一步调研发现,应用部署在Kubernetes集群后,大部分用户节点的CPU
云原生成本治理委托权限说明 由于云原生成本治理在运行过程中对CCE、AOM、OBS、CBC等各类云服务有依赖关系。因此当您首次使用云原生成本治理功能时,需要具有Security Administrator权限的账户完成授权,将当前区域云资源权限授权给CCE,以此来支持成本治理功能运行需要
残留待迁移节点检查异常处理 检查项内容 检查节点是否需要迁移。 解决方案 该问题由于节点拉包组件异常或节点由比较老的版本升级而来,导致节点上缺少关键的系统组件导致。 解决方案一 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面,单击对应节点的“更多 > 重置节点
使用Prometheus监控多个集群 应用场景 通常情况下,用户的集群数量不止一个,例如生产集群、测试集群、开发集群等。如果在每个集群安装Prometheus监控集群里的业务各项指标的话,很大程度上提高了维护成本和资源成本,同时数据也不方便汇聚到一块查看,这时候可以通过部署一套Prometheus
变更规格 当前包年/包月资源的规格不满足您的业务需要时,您可以进行变更规格操作: 变更集群规格:您可以在CCE控制台发起变更集群规格操作,变更时系统将按照如下规则为您计算变更费用: 扩大集群规格:新配置价格高于老配置价格,此时您需要支付新老配置的差价。 减小集群规格:不支持该操作。
守护进程集(DaemonSet) 守护进程集(DaemonSet) DaemonSet(守护进程集)在集群的每个节点上运行一个Pod,且保证只有一个Pod,非常适合一些系统层面的应用,例如日志收集、资源监控等,这类应用需要每个节点都运行,且不需要太多实例,一个比较好的例子就是Kubernetes
CCE容器云存储PVC能否感知底层存储故障? CCE PVC按照社区逻辑实现,PVC本身的定义是存储声明,与底层存储解耦,不负责感知底层存储细节,因此没有感知底层存储故障的能力。 云监控服务CES 具备查看云服务监控指标的能力:云监控服务基于云服务自身的服务属性,已经内置了详细全面的监控指标
创建有状态负载(StatefulSet) 操作场景 在运行过程中会保存数据或状态的工作负载称为“有状态工作负载(statefulset)”。例如MySQL,它需要存储产生的新数据。 因为容器可以在不同主机间迁移,所以在宿主机上并不会保存数据,这依赖于CCE提供的高可用存储卷,将存储卷挂载在容器上
发布概述 应用现状 应用程序升级面临最大挑战是新旧业务切换,将软件从测试的最后阶段带到生产环境,同时要保证系统不间断提供服务。如果直接将某版本上线发布给全部用户,一旦遇到线上事故(或BUG),对用户的影响极大,解决问题周期较长,甚至有时不得不回滚到前一版本,严重影响了用户体验。 解决方案
存储多可用区部署的推荐配置 应用场景 在多可用区构成的集群下,业务可以指定可用区部署。 多可用区部署可以减少可用区资源不足带来的故障问题。 通过存储多可用区部署优化,可以帮您最大限度地减少应用发布中断,确保关键业务系统和应用在各种故障情况下能持续运行。 前提条件 您已创建一个安装CCE
Sudo缓冲区错误漏洞公告(CVE-2021-3156) 漏洞详情 外部安全研究人员披露sudo中的堆溢出漏洞(CVE-2021-3156),该漏洞在类似Unix的主要操作系统上都可以使用。在其默认配置下会影响从1.8.2到1.8.31p2的所有旧版本以及从1.9.0到1.9.5p1
制作并上传镜像 本章指导用户将整体应用制作成Docker镜像。制作完镜像后,每次应用的部署和升级即可通过镜像操作,减少了人工配置,提升效率。 制作镜像时,要求制作镜像的文件在同个目录下。 使用云服务 容器镜像服务SWR:是一种支持容器镜像全生命周期管理的服务, 提供简单易用、安全可靠的镜像管理功能
通过PromQL语句查询Prometheus数据 PromQL是Prometheus Query Language的缩写,是一种用于查询和聚合时间序列数据的查询语言。Prometheus是一个开源的监控系统,用于收集和存储时间序列数据,每个时间序列都由一个唯一的标识符和一组时间戳-
容器镜像迁移方案概述 应用现状 随着容器化技术的发展,越来越多的企业使用容器代替了虚拟机完成应用的运行部署。目前许多企业选择自建Kubernetes集群,但是自建集群往往有着沉重的运维负担,需要运维人员自己配置管理系统和监控解决方案。企业自运维大批镜像资源,意味着要付出高昂的运维、
通过动态存储卷创建SFS子目录 通常情况下,在工作负载容器中挂载SFS类型的存储卷时,默认会将根目录挂载到容器中。为了更加经济合理地利用存储容量,CCE支持在创建PVC时动态创建SFS子目录,实现不同工作负载共享使用SFS。 仅通用文件系统(SFS 3.0)支持动态创建子目录。 前提条件