检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建GPU类型节点,具体请参见创建节点。 集群中需要安装GPU插件,且安装时注意要选择节点上GPU型号对应的驱动,具体请参见CCE AI套件(NVIDIA GPU)。 在v1.27及以下的集群中使用默认GPU调度能力时,GPU插件会把驱动的目录挂载到/usr/local/nvidia/lib64,在容器中使用GP
慢启动指负载均衡器向组内新增的后端服务器Pod线性增加请求分配权重,直到配置的慢启动时间结束,负载均衡器向后端服务器Pod正常发送完请求的启动模式。慢启动能够实现业务的平滑启动,成功避免业务抖动问题。 配置慢启动持续时间后,如果您在YAML中删除对应的annotation,将不启用慢启动。
修复了为业务容器自动挂载npu-smi失败的问题 2.1.5 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 适配CCE v1.29集群 新增静默故障码 2.0.9 v1.21 v1.23 v1.25 v1.27 v1.28 修复进程级故障恢复和给工作负载添加注解偶现失败问题
CCE节点故障检测插件(node-problem-detector,简称NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。node-problem-detector可以作为DaemonSet运行,
Bool 默认值:false XGPU虚拟化模式的开关 gpu_driver_config 否 Map 针对单个节点池的GPU驱动的相关配置 默认值:{} health_check_xids_v2 否 String 插件健康检查的GPU错误的范围 默认值:"74,79" inject_ld_Library_path
段,fallthrough表示当在hosts找不到要解析的域名时,会将解析任务传递给CoreDNS的下一个插件。如果不写fallthrough的话,任务就此结束,不会继续解析,会导致集群内部域名解析失败的情况。 hosts的详细配置请参见https://coredns.io/plugins/hosts/。
timeout 否 String 健康检查的超时时间(秒) 默认值:10,取值范围1-50 max_retries 否 String 健康检查的最大重试次数 默认值:3,取值范围1-10 protocol 否 String 健康检查的协议 默认值:取关联服务的协议 取值范围:“TCP”、“UDP”或者“HTTP”
Ingress配置一致性哈希负载均衡 原生的Nginx支持多种负载均衡规则,其中常用的有加权轮询、IP hash等。Nginx Ingress在原生的Nginx能力基础上,支持使用一致性哈希方法进行负载均衡。 Nginx默认支持的IP hash方法使用的是线性的hash空间,根据IP的hash运算值来选
同可用区的节点上,避免单可用区故障。 CoreDNS所运行的集群节点应避免CPU、内存用满的情况,否则会影响域名解析的QPS和响应延迟。建议您使用插件自定义参数完成CoreDNS隔离部署。 使用自定义参数完成CoreDNS隔离部署 建议CoreDNS插件与资源使用率高的负载隔离部
(可选)登录SWR管理控制台,选择左侧导航栏的“组织管理”,单击页面右上角的“创建组织”,创建一个组织。 如已有组织可跳过此步骤。 在左侧导航栏选择“我的镜像”,单击右侧“客户端上传”,在弹出的页面中单击“生成临时登录指令”,单击复制登录指令。 在集群节点上执行上一步复制的登录指令,登录成功会显示“Login
Ingress上。为了保持业务稳定,希望不改变对外提供服务的DNS域名及后端服务器的IP地址。您可以通过在CCE集群上配置ELB Ingress规则,使ELB提供的转发策略与之前一致,然后利用DNS域名解析的权重设置完成流量的迁移。 建议在业务低谷期进行流量的切换。 使用ELB会产生计费信息,具体计费详情请参见计费概述。
当Pod的Annotations配置符合Prometheus采集规范的规则后,Prometheus会自动采集这些Pod暴露的指标。 如上所述的nginx:exporter提供的监控数据,其数据格式并不满足Prometheus的要求,需要将其转换成Prometheus需要的格式,可
设置自定义采集规则 重新部署monitoring命名空间下的custom-metrics-apiserver工作负载。 图3 重新部署custom-metrics-apiserver 重启后,可以通过以下指令查看对应的Pod的指标是否正常(注意替换命名空间和业务Pod名)。 # 查询指标 $ kubectl
点弹性,以保证集群资源的按需供给,进而保证应用SLA。 基于优先级抢占调度的亲和/反亲和示例 在Pod间亲和场景中,不推荐Pod与比其优先级低的Pod亲和。如果pending状态的Pod与节点上的一个或多个较低优先级Pod具有Pod间亲和性,对较低优先级的Pod发起抢占时,会无法
CCE集群纳管节点时的常见问题及排查方法? 概述 本文主要介绍纳管/添加已有的ECS实例到CCE集群的常见问题。 纳管时,会将所选弹性云服务器的操作系统重置为CCE提供的标准镜像,以确保节点的稳定性,请选择操作系统及重置后的登录方式。 所选弹性云服务器挂载的系统盘、数据盘都会在纳管时被格式化,请确保信息已备份。
Pod所在节点与需挂载的SFS Turbo文件系统间的网络不通。 检查PV中共享地址是否正确。 获取PV的YAML,查看spec.csi.volumeAttributes下的everest.io/share-export-location字段值即为共享地址,正确的共享地址是指定的SFS Turbo文件系统的共享路径。
10-r0及以上 v1.30集群:v1.30.6-r0及以上 其他更高版本的集群 重定向至监听器(HTTP重定向至HTTPS) 无可额外添加的转发动作 该转发动作可以将HTTP协议的访问请求转发至HTTPS协议的监听器上。 为ELB Ingress配置HTTP重定向到HTTPS v1
ig,则优先使用Pod中的DNSConfig。 域名解析服务器地址nameserver(可选):容器解析域名时查询的DNS服务器的IP地址列表。默认会添加NodeLocal DNSCache的地址,以及CoreDNS的地址,允许用户额外追加1个地址,重复的IP地址将被删除。 搜索
”。 单击工作负载操作列的“日志”。 您可以在日志上方切换实例和容器。 Pod监控检查方法 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。 登录容器的方法 登录CCE控制台。
CCE集群中新增节点时无法添加新的节点,提示子网剩余可用IP不足。 原因分析: 集群默认的节点子网网段较小,子网中的私有IP已用完,无法为节点分配新的私有IP。 解决方法: 场景一:VPC网段的IP未分配完 您可以在创建节点时,在网络配置中选择一个新的节点子网。如果没有可用的节点子网,您可以前