检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
确认节点标签是否已经打上nvidia资源。 查看nvidia驱动运行是否正常。 到插件运行所在的节点上,查看驱动的安装日志,路径如下所示: /opt/cloud/cce/nvidia/nvidia_installer.log 查看nvidia容器标准输出日志: 过滤容器id docker ps –a
当集群中存在APIService对象时,删除命名空间会先访问APIService对象,若APIService资源无法正常访问,会阻塞命名空间删除。除用户创建的APIService对象资源外,CCE集群部分插件也会自动创建APIService资源,如metrics-server、prometheus插件。
该问题常见于文件存储挂载模式为hard的场景,在hard模式下,所有访问挂载点的进程都会Hang住,直到访问成功。使用soft模式挂载可以避免该情况,具体请参见设置挂载参数。 父主题: 工作负载异常问题排查
容器资源(CPU、内存)配额。 表3 custom 参数 是否必选 参数类型 描述 annotations 否 Map<String>String 用户自定义注解。 表4 resources字段数据结构说明 参数 是否必选 参数类型 描述 limitsCpu 是 String CPU大小限制,单位:m
cpu: "1" workingDir: /opt/tf-benchmarks/scripts/tf_cnn_benchmarks restartPolicy: OnFailure Worker:
h1144.eulerosv2r9.aarch64 问题根因 EulerOS 4.18版本内核存在调度相关问题,使用CPU cgroup场景下,设置cfs bandwidth,并触发CPU带宽管控,会概率性触发warn级别告警打印,该流程会持有调度的rq锁,跟其他进程发生死锁(x86_
虑微服务治理的解决方案,并且将解决方案融合到其业务系统中。 价值 云容器引擎深度集成应用服务网格,提供开箱即用的应用服务网格流量治理能力,用户无需修改代码,即可实现灰度发布、流量治理和流量监控能力。 优势 开箱即用 与云容器引擎无缝对接,一键开启后即可提供非侵入的智能流量治理解决方案。
升级修复。 如果您是自行选择安装的NVIDIA GPU驱动或更新过节点上的GPU驱动,请参考上图确认您安装的GPU驱动是否受该漏洞影响。 如何确认GPU节点的NVIDIA驱动版本 登录到您的GPU节点,执行如下命令,即可查看驱动版本。 [root@XXX36 bin]# ./nvidia-smi
CCE将发布新的NGINX Ingress控制器插件修复该漏洞,请留意NGINX Ingress控制器插件版本发布记录。在修复之前,请按最小权限原则,只给予受信用户创建及管理Ingress的权限。 社区已发布nginx-ingress v1.11.2版本修复该漏洞,但该版本仅支持 Kubernetes
PodSecurity支持beta,PodSecurity替代废弃的PodSecurityPolicy,PodSecurity是一个准入控制器,它根据设置实施级别的特定命名空间标签在命名空间中的Pod上实施Pod安全标准。在1.23中PodSecurity默认启用。 社区1.22 ReleaseNotes
配置建议: 默认建议开启 开启过载防护功能不意味着绝对不会过载,极端场景如短时内请求量急剧冲高超出过载调整反应速度时,仍可能有过载现象出现,建议用户针对集群访问行为进行主动管控,避免此类极端场景 父主题: 集群
authenticatingProxy.ca Base64编码 无 允许 CCE Standard/CCE Turbo 客户端证书 认证模式为 authenticating_proxy 时,指定代理根证书签发的客户端证书 参数名 取值范围 默认值 是否允许修改 作用范围 Authentication.authenticatingProxy
查看方法:单击工作负载名称进入工作负载详情页,单击右上角的“日志”按钮可查看日志详情。日志约需要等待5分钟查看。 场景三:工作负载与节点时区同步 方法一:制作容器镜像时,将时区设置为CST。 方法二:若不希望修改容器,可在CCE控制台创建工作负载时,将本机的“/etc/localtime”目录挂载到容器的“/etc/localtime”目录下。
String 镜像仓库地址 swr_user 是 String 镜像仓库租户路径 表3 flavor 参数 是否必选 参数类型 描述 description 否 String 插件相关的描述信息 name 是 String 插件规格名称,固定为:Single-instance replicas
口的http监听,在CCE中只允许在本命名空间下创建同一端口的其它ingress(实际转发策略可根据域名、service来区分);所以出现客户侧在其它命名空间无法创建相同端口的ingress的情况(会提示端口冲突)。 解决方法 可以使用yaml创建,端口冲突只有前台限制,后台未限制。
enable TRUE/FALSE false 允许 CCE Standard/CCE Turbo 弹性伸缩场景配置,由autoscaler解析并限制客户端弹性伸缩决策。 开关启用时,相关弹性伸缩配置才生效。 通过Console或者API直接扩缩节点池时不受相关参数约束 minNodeCount~maxNodeCount
的差异及适配方案进行排查并做相应的适配验证。 如您短期内切换到 Helm V3 存在困难,可通过后台 Helm 客户端方式继续管理并部署 Helm V2 实例,操作方法请参见通过 Helm V2 客户端部署应用。为了更好地维护您的权益以及更好地获取运维支撑,请您在2022年12月30日前彻底切换至
控制器访问kube-apiserver的QPS 配置建议: 无特殊需求建议保持默认配置 配置过大可能会导致kube-apiserver过载,配置过小可能会触发客户端限流,对控制器性能产生影响 控制器访问kube-apiserver的突发流量上限 控制器访问kube-apiserver的突发流量上限 参数名
CCE Standard集群 CCE Turbo集群 最新内核信息 VPC网络模型 容器隧道网络模型 云原生网络2.0 Huawei Cloud EulerOS 2.0 v1.30 √ √ √ 5.10.0-182.0.0.95.r1941_123.hce2.x86_64 v1.29
Pod调度就绪态(GA) 在Kubernetes1.30版本中,Pod调度就绪态特性进阶至GA。此特性允许对Pod添加自定义的schedulingGates,并由用户控制何时移除这些gate,当所有gates移除后,Pod才会被认为调度就绪。详细使用方式请参考Pod调度就绪态。 验证准入策略(GA) 在Kubernetes1