检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
/usr/local/nvidia/bin && ./nvidia-smi 登录CCE控制台,单击集群名称进入集群,在左侧选择“配置中心”。 切换至“异构资源配置”页签,在“节点池自定义驱动”下方选择需要更新驱动的节点池及驱动,或者选择填写自定义驱动链接。 本文档中更新后的驱动为535.54
暴露给容器使用的一种网络构建技术,享有较高的性能,较为常见的解决方案有IP VLAN等。 图2 不同节点上的Pod通信 以上就是容器网络底层视图,后面将进一步介绍Kubernetes如何在此基础上向用户提供访问方案,具体请参见Service和Ingress。 父主题: Kubernetes网络
16-r2、v1.21.5-r0、v1.23.3-r0及以上版本的集群支持使用ELB服务中的证书,上述版本集群请参考方案一处理,其他版本集群请参考方案二处理。 方案一:您可以将Ingress使用的证书替换为ELB服务器证书,即可通过ELB控制台创建或编辑该证书。 请登录CCE控制
g状态。 问题根因 Kubernetes为了防止误删除PV和PVC导致数据丢失,存在数据保护机制,无法使用delete命令直接删除。 解决方案 执行以下命令,先解除保护机制,再删除PV或PVC。 如果已经使用kubectl delete命令删除PV或PVC,会一直处在Termin
ainerd且版本号小于 1.4.1-96则涉及该漏洞。 漏洞修复方案 使用可信的镜像,避免使用来源不明的第三方镜像,推荐使用容器镜像服务SWR。 CCE已提供大于1.4.1-96的containerd版本,请迁移至符合要求的节点。 相关链接 社区已经发布补丁,相关信息:https://github
--version 若显示无此命令,则不涉及该漏洞。 若显示nvidia-container-runtime版本低于1.16.2,则涉及该漏洞。 漏洞修复方案 在完成漏洞修复前,避免在集群中运行不可信的容器镜像。 CCE已发布新版本插件修复该漏洞,请关注CCE AI套件(NVIDIA GPU)版本发布记录。
通过Web界面一键完成Kubernetes集群的升级。 深度集成应用服务网格、Helm标准模板和插件中心,真正实现开箱即用。 高性能 基于在计算、网络、存储、异构等方面多年的行业技术积累,提供高性能的容器集群服务,支撑业务的高并发、大规模场景。 采用高性能裸金属NUMA架构和高速IB网卡,AI计算性能提升3-5倍以上。
可远程发送特殊构造的攻击包造成拒绝服务攻击,导致服务器不可用或崩溃。 华为云CCE团队已经紧急修复Linux内核SACK漏洞,并已发布解决方案。 参考链接: https://www.suse.com/support/kb/doc/?id=7023928 https://access
mycompany.com。 问题建议 方案一:发布服务使用域名发现,需要提前预置好主机名和命名空间,服务发现使用域名的方式,注册的服务的域名为:服务名.命名空间.svc.cluster.local 。这种使用有限制,注册中心部署必须容器化部署。 方案二:容器部署使用主机网络部署,然后
0-source-121-gb9675686c54267 如果状态都为不可用(Not Ready),则说明集群中无可用节点。 解决方案: 新增节点,若工作负载未设置亲和策略,pod将自动迁移至新增的可用节点,确保业务正常。 排查不可用节点问题并修复,排查修复方法请参见集群可用但节点状态为“不可用”如何解决?。
Prometheus是一套开源的系统监控报警框架,能够采集丰富的Metrics(度量数据),目前已经基本是Kubernetes的标准监控方案。 Metrics Server是Kubernetes集群范围资源使用数据的聚合器。Metrics Server从kubelet公开的Summary
传输的安全性,您可以根据需求创建四层或七层的访问方式来对接负载均衡器。 七层证书配置 四层证书配置 高可用部署 CCE为您提供高可用的部署方案: 集群支持3个控制节点的高可用模式 Node节点支持分布在不同AZ 创建工作负载时支持选用不同可用区或节点 容灾部署 磁盘加密 CCE支
Pressure、MemoryPressure等节点状态是否为True。如果节点存在任一状态为True,则基于异常的关键词,查找相应的解决方案。 检查节点上的关键组件,及关键组件上的日志。节点上的关键组件为Kubelet及其运行时组件(Docker/Containerd),详细操作请参见检查节点的关键组件。
x86_64的EulerOS x86版本。 内核版本为4.15.0-136-generic以及以下内核版本的Ubuntu节点。 漏洞修复方案 EulerOS 2.9 版本镜像已提供修复版本,请尽快迁移到4.18.0-147.5.1.6.h541.eulerosv2r9.x86_64版本节点。 为工作负载配置
图2 有安全风险的镜像配置示例 漏洞修复方案 规避措施: 配置工作负载的WORKDIR为固定目录。 若未设置工作负载WORKDIR目录,需确保工作负载使用的容器镜像来源可信。 执行以上规避措施前前请评估对业务的影响,并进行充分测试。 修复方案: 当前CCE团队已修复该漏洞,请您关注
v1.25 版本中移除。 升级备份说明 目前集群升级备份方式如下: 备份方式 备份对象 备份方式 备份时间 回滚时间 说明 etcd数据备份 etcd数据 升级流程中自动备份 1-5min 2h 必选备份,升级过程中自动进行,用户无需关注 CBR整机备份 Master节点磁盘,包括组件镜像、配置、日志以及etcd数据
节点磁盘检查异常处理 检查项内容 当前检查项包括以下内容: 检查节点关键数据盘使用量是否满足升级要求 检查/tmp目录是否存在500MB可用空间 解决方案 节点升级过程中需要使用磁盘存储升级组件包,使用/tmp目录存储临时文件。 问题场景一:Master节点磁盘使用量不满足升级要求 请联系技术支持人员排查处理。
定”进行保存。 步骤二:异构资源配置 单击左侧导航栏的“配置中心”,选择“异构资源配置”页签。 在“GPU配置”中找到“节点池配置”,并选择新增的目标节点池。 参考准备GPU虚拟化资源,选择满足GPU虚拟化要求的驱动,并开启支持GPU虚拟化。 图1 异构资源配置 单击“确认配置”进行保存。
配置中心 集群配置概览 集群访问配置 网络配置 调度配置 集群弹性伸缩配置 监控运维配置 Kubernetes原生配置 异构资源配置
插件 插件概述 容器调度与弹性插件 云原生可观测性插件 云原生异构计算插件 容器网络插件 容器存储插件 容器安全插件 其他插件