检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开启云原生混部 前提条件 已创建一个CCE Standard集群或CCE Turbo集群,且版本满足以下要求: v1.23集群:v1.23.9-r0及以上 v1.25集群:v1.25.4-r0及以上 集群中已安装1.10.0及以上版本的Volcano插件。 约束与限制 开启云原生
事件监控 Kubernetes事件涵盖了集群的运行状态和各类资源的调度情况,对运维人员日常观察资源的变更以及定位问题均有帮助。为了实现这一目标,您需要为集群安装log-agent插件,该插件可以采集Kubernetes事件,并在“监控中心 > 事件”页面进行展示。 功能入口 登录
删除/退订节点 操作场景 当您不再需要该节点继续工作时,请您在节点列表进行删除按需节点或退订包年/包月节点的标准化操作,以免带来不符合预期的效果。 在CCE集群中删除/退订节点会将该节点以及节点内运行的业务都销毁,请您在操作前提前进行排水和数据备份,确保正常业务运行不受影响。 注意事项
设置资源配额及限制 Kubernetes在一个物理集群上提供了多个虚拟集群,这些虚拟集群被称为命名空间。命名空间可用于多种工作用途,满足多用户、多环境、多应用的使用需求,通过为每个命名空间配置包括CPU、内存、Pod数量等资源的额度可以有效限制资源滥用,从而保证集群的可靠性,更多信息请参见资源配额。
公平调度(DRF) DRF(Dominant Resource Fairness)是主资源公平调度策略,应用于大批量提交AI训练和大数据作业的场景,可增强集群业务的吞吐量,整体缩短业务执行时间,提高训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。
可观测性体系概述 云原生可观测性是指在云原生架构中,通过使用各种工具和技术来实现对应用程序和基础设施的监控告警、日志、故障排除等功能的一套完整的解决方案。本文介绍云容器引擎CCE可观测性架构分层和主要的可观测能力,以帮助您对CCE云原生可观测性生态有一个全面的认识。 图1 可观测性体系
示例:某部门权限设计及配置 概述 随着容器技术的快速发展,原有的分布式任务调度模式正在被基于Kubernetes的技术架构所取代。云容器引擎(Cloud Container Engine,简称CCE)是高度可扩展的、高性能的企业级Kubernetes集群,支持社区原生应用和工具。
Prometheus插件平滑迁移实践 由于Prometheus(停止维护)仅支持v1.21及之前的集群版本,若您需要将集群升级至v1.21以上,您需要将停止维护的Prometheus插件迁移至云原生监控插件,以获取后续的技术支持。本文将指导您将已经停止维护的Prometheus插件迁移至云原生监控插件。
单部门视角的成本洞察 单部门视角成本洞察,提供单一部门的成本分析报告。在部门成本分析模块,进行整体部门成本状况查看,并可单击部门列表中的某一部门,进行单部门的详细成本分析。 前提条件 已开通成本洞察功能 已完成部门配置 约束与限制 由于实际账单的获取存在两天时间延迟,开通成本洞察后,成本洞察成本数据会延迟2天显示。
移除节点 操作场景 在集群中移除节点会将该节点移出集群,然后重装节点的操作系统,并清理节点上的CCE组件。 移除不会删除节点对应的服务器。移除前请确认您的正常业务运行不受影响,请谨慎操作。 节点移出集群后会继续开机运行,并继续产生费用。 约束限制 若节点在CCE集群移除后重装操作
管理节点标签 节点标签可以给节点打上不同的标签,给节点定义不同的属性,通过这些标签可以快速的了解各个节点的特点。 节点标签使用场景 节点标签的主要使用场景有两类。 节点管理:通过节点标签管理节点,给节点分类。 工作负载与节点的亲和与反亲和:通过为节点添加标签,您可以使用节点亲和性
迁移节点 您可以将同一个集群下节点在节点池间进行迁移,具体迁移场景如表1。 表1 迁移场景 迁移场景 是否支持迁移 操作步骤 原节点池 待迁移的目标节点池 自定义节点池 默认节点池(DefaultPool) 支持迁移 将自定义节点池中的节点迁移到默认节点池 默认节点池(DefaultPool)
使用PrometheusRules配置普罗监控与告警规则 Prometheus具有PrometheusRule的能力,PrometheusRules提供了一种用于监控和警报的规则语言,能够方便用户更好的使用Prometheus查询监控指标,配置基于PromQL的告警规则。 当前云
CCE部署使用Flink Flink是一个用于大规模数据处理的分布式流处理框架和计算引擎,可以处理有界(批处理)和无界(流处理)数据,提供低延迟、高吞吐量的实时数据处理能力,同时支持复杂事件处理和数据分析。在CCE集群中部署Flink,可以帮助您构建高效、可靠且灵活的数据处理系统
亲和与反亲和调度 在守护进程集(DaemonSet)中讲到使用nodeSelector选择Pod要部署的节点,其实Kubernetes还支持更精细、更灵活的调度机制,那就是亲和(affinity)与反亲和(anti-affinity)调度。 Kubernetes支持节点和Pod两
合理分配容器计算资源 只要节点有足够的内存资源,那容器就可以使用超过其申请的内存,但是不允许容器使用超过其限制的资源。如果容器分配了超过限制的内存,这个容器将会被优先结束。如果容器持续使用超过限制的内存,这个容器就会被终结。如果一个结束的容器允许重启,kubelet就会重启它,但是会出现其他类型的运行错误。
通过配置容器内核参数增大监听队列长度 使用场景 net.core.somaxconn默认监听队列(backlog)长度为128,当服务繁忙时,如果连接请求超过了监听队列的长度,新的连接请求将会被拒绝。为了避免这种情况的发生,您可以通过配置内核参数net.core.somaxconn来增大监听队列的长度。
普通任务(Job)和定时任务(CronJob) 普通任务(Job)和定时任务(CronJob) Job和CronJob是负责批量处理短暂的一次性任务(short lived one-off tasks),即仅执行一次的任务,它保证批处理任务的一个或多个Pod成功结束。 Job:是
持续集成及持续部署 在本方案中,需要在通过 code push 事件中触发 Jenkins 进行编译打包,通过邮件审批之后,将应用部署到 Kubernetes 集群中。 安装Jenkins插件 除了前文安装 Jenkins 时默认安装的插件外,还需要安装 GitLab Plugin,Kubernetes
使用kubectl对接已有极速文件存储卷 操作场景 CCE支持使用已有的极速文件存储来创建PersistentVolume,创建成功后,通过创建相应的PersistentVolumeClaim来绑定当前的PersistentVolume使用。 约束与限制 如下配置示例适用于Kubernetes