检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
v1.25 v1.27 v1.28 v1.29 支持OBS多AZ冗余存储策略 支持自定义存储卷名称前缀 支持包周期EVS卷 2.4.8 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 适配CCE v1.29集群 支持GPSSD2和ESSD2类型磁盘 支持DSS专属分布式存储
易于管理:Prometheus server是一个单独的二进制文件,可直接在本地工作,不依赖于分布式存储。 高效:平均每个采样点仅占 3.5 bytes,且一个Prometheus server可以处理数百万的metrics。
启用组调度(Gang)后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。详情请参见组调度(Gang)。 异构资源调度(Volcano调度器支持) 支持GPU资源调度 使用该能力时,集群中需要同时安装CCE AI套件(NVIDIA GPU)。
核心技术 OVS IPVlan,VPC路由 VPC弹性网卡/弹性辅助网卡 适用集群 CCE Standard集群 CCE Standard集群 CCE Turbo集群 容器网络隔离 Pod支持Kubernetes原生NetworkPolicy 否 Pod支持使用安全组隔离 ELB对接
图1 gRPC示意图 在gRPC中,客户端应用程序可以直接调用位于不同机器上的服务端应用方法,可以轻松创建分布式应用程序和服务。
CCE容器中域名解析的最佳实践 本文档重点介绍在CCE容器中如何配置域名解析。 服务 在创建工作负载(Deployment或ReplicaSet)之前,需要先创建与之相关联的服务。 因为Kubernetes在启动容器时,会为容器提供所有正在运行的服务作为环境变量。 例如,如果存在名为
节点概述 简介 节点是容器集群组成的基本元素。节点取决于业务,既可以是虚拟机,也可以是物理机。每个节点都包含运行Pod所需要的基本组件,包括Kubelet、Kube-proxy 、Container Runtime等。 CCE创建的Kubernetes集群包含Master节点和Node
取值范围: true: 开启对分布式云支持 false: 关闭对分布式云支持 默认取值: 默认false deletionProtection 否 Boolean 参数解释: 集群删除保护,如果开启后用户将无法删除该集群。 约束限制: 不涉及。
CoreDNS域名解析 插件简介 CoreDNS域名解析插件是一款通过链式插件的方式为Kubernetes提供域名解析服务的DNS服务器。 CoreDNS是由CNCF孵化的开源软件,用于Cloud-Native环境下的DNS服务器和服务发现解决方案。CoreDNS实现了插件链式架构
原理介绍及执行演示 Kubernetes探针原理、效果以及配置建议 OpenTelemetry环境搭建和工作原理 基于OpenTelemetry实现Java微服务调用链跟踪 Kubernetes容器弹性相关 HPA各关联组件流转关系以及建议 K8s集群HPA活动情况监控与报警 K8s 核心资源指标
节点维度 集群诊断场景 诊断项 是否需要开通监控中心 修复方案 节点状态 节点状态是否就绪 是 节点为承载业务的核心资源,状态不就绪可能直接导致承载在节点上的业务受到影响,需立即修复。
Metrics Server从kubelet公开的Summary API中采集度量数据,能够收集包括了Pod、Node、容器、Service等主要Kubernetes核心资源的度量数据,且对外提供一套标准的API。
ETCD:一个分布式数据存储组件,负责存储集群的配置信息。 在生产环境中,为了保障集群的高可用,通常会部署多个Master,如CCE的集群高可用模式就是3个Master节点。 Node节点 Node节点是集群的计算节点,即运行容器化应用的节点。
部署核心组件dcgm-exporter 在CCE中部署dcgm-exporter,需要添加一些特定配置,才可以正常监控GPU信息。详细yaml如下,其中yaml中标红的部分为较为重要的配置项。
关闭 工作线程CPU亲和性 worker-cpu-affinity 自动分配工作进程到特定的CPU核心,提高多核系统的性能。比如在多核服务器上,可以使某些工作进程固定在特定的CPU核上;这样可以减少上下文切换,提高处理效率。
GPU插件关键参数检查异常处理 检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer
使用限制 集群的节点上不建议用户随意修改内核参数、系统配置、集群核心组件版本、安全组及ELB相关参数,也不建议用户随意安装未经验证的软件。 部署 可能会导致CCE集群功能异常或安装在节点上的Kubernetes组件异常,节点状态变成不可用,无法部署应用到此节点。
/ 配置Kubernetes参数 通过该功能您可以对核心组件进行深度配置。 本功能仅支持在v1.15及以上版本的集群中对节点池进行配置,v1.15以下版本不显示该功能。 默认节点池DefaultPool不支持修改该类配置。
其作为Jenkins2.X 最核心的特性,帮助Jenkins实现从CI到CD与DevOps的转变。因此,Pipeline脚本编写是整个方案实现的关键。
核心技术 OVS IPVlan,VPC路由 VPC弹性网卡/弹性辅助网卡 适用集群 CCE Standard集群 CCE Standard集群 CCE Turbo集群 容器网络隔离 Pod支持Kubernetes原生NetworkPolicy 否 Pod支持使用安全组隔离 ELB对接