检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
关于DCGM Exporter的更多信息,请参见DCGM Exporter。 由于DCGM Exporter为社区开源组件,因此本实践仅适用于监控Kubernetes社区原生的GPU资源(nvidia.com/gpu),不支持监控CCE提供的GPU虚拟化资源。 前提条件 目标集群
CCE AI套件(Ascend NPU) 插件简介 CCE AI套件(Ascend NPU)是支持容器里使用huawei NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 约束与限制 集群中使用“AI加速型”节点时必须安装CCE
Autoscaler检测未调度Pod进行扩容时,使用的是与Kubernetes社区版本一致的调度算法进行模拟调度计算,若应用调度采用非内置kube-scheduler调度器或其他非Kubernetes社区调度策略,此类应用使用Autoscaler扩容时可能因调度算法不一致出现无法扩容或多扩风险。
m。 service 是 表8 对外访问service配置 config 否 Map<String>String nginx配置参数,参考社区说明https://kubernetes.github.io/ingress-nginx/user-guide/nginx-configuration/configmap/
AI任务性能增强调度 公平调度(DRF) 组调度(Gang) 父主题: Volcano调度
text字段。 PodSecurityPolicy允许为不同的服务账号(Service Account)绑定不同策略(Kubernetes社区不建议使用该能力)。如果您有使用该能力的诉求,在迁移至Pod Security Admission后,需要自行定义第三方Webhook。 请勿将Pod
9 CoreDNS 1.17.7版本发布 CoreDNS发布1.17.7插件版本,对应社区CoreDNS版本由v1.6.5版本升级至v1.8.4。 相关ChangeLog请阅。 特别提示:社区 中对CoreDNS的metrics name有做变动,用户若存在收集CoreDNS m
访问defaultbackend“/healthz”接口 相关操作 由于社区Ingress结构体中没有property属性,用户使用client-go调用创建ingress的api接口时,创建的Ingress中没有property属性。为了与社区的client-go兼容,CCE提供了相关解决方案,具
iceAccount的Secret来获取Token,这种方式获得的Token是永久的。该方式在1.21及以上的版本中不再推荐使用,并且根据社区版本迭代策略,在1.25及以上版本的集群中,ServiceAccount将不会自动创建对应的Secret。 1.21及以上版本的集群中,直接使用TokenRequest
当节点的可用PID低于pid.available配置项时,则节点状态中PIDPressure为True,同时该节点上的容器被驱逐。关于节点驱逐,可参考社区文档节点压力驱逐。 解决方案 执行如下命令,查看节点的最大PID数和节点当前的最大PID。 sysctl kernel.pid_max #查看最大PID数
etheus CLIENT LIBRARIES,开发Exporter具体方法请参见WRITING EXPORTERS。Prometheus社区提供丰富的第三方exporter可以直接使用,具体请参见EXPORTERS AND INTEGRATIONS。 准备应用 自行开发的应用程
minReplicas: 2 # 最小实例数 maxReplicas: 10 # 最大实例数 metrics: # 指标列表,格式和社区HPA一致 - type: Resource # 指标源种类,当前只支持 Resource resource: name:
iptables:社区传统的kube-proxy模式,完全以iptables规则的方式来实现service负载均衡。该方式最主要的问题是在服务多的时候产生太多的iptables规则,非增量式更新会引入一定的时延,大规模情况下有明显的性能问题。 ipvs:主导开发并在社区获得广泛支持的
iptables:社区传统的kube-proxy模式,完全以iptables规则的方式来实现service负载均衡。该方式最主要的问题是在服务多的时候产生太多的iptables规则,非增量式更新会引入一定的时延,大规模情况下有明显的性能问题。 ipvs:主导开发并在社区获得广泛支持的
CCE AI套件(Ascend NPU)版本发布记录 表1 CCE AI套件(Ascend NPU)插件版本记录 插件版本 支持的集群版本 更新特性 2.1.46 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 v1.31 支持CCE v1.31集群
CCE AI套件(NVIDIA GPU)版本发布记录 表1 CCE AI套件(NVIDIA GPU)版本记录 插件版本 支持的集群版本 更新特性 2.7.42 v1.28 v1.29 v1.30 v1.31 新增NVIDIA 535.216.03驱动,支持XGPU特性 2.7.41
iptables:社区传统的kube-proxy模式,完全以iptables规则的方式来实现service负载均衡。该方式最主要的问题是在服务多的时候产生太多的iptables规则,非增量式更新会引入一定的时延,大规模情况下有明显的性能问题。 ipvs:主导开发并在社区获得广泛支持的
conf的“location”字段中添加自定义配置。 snippet配置在NGINX Ingress控制器版本为2.4.6版本及以上时(对应社区版本为v1.9.3)不再默认启用,详情请参见Changelog。如果您仍需要使用snippet配置,可以通过allow-snippet-annotations启用。
Containerd Pod重启风险检查异常处理 检查项内容 检查当前集群内使用containerd的节点在升级containerd组件时,节点上运行的业务容器是否可能发生重启,造成业务影响。 解决方案 检测到您的节点上的containerd服务存在重启风险;请确保在业务影响可控
权衡。当集群存在大量可调度节点时,Volcano出于调度性能的考虑会只选择其中一部分节点来进行调度选择,不会计算全局调度最优解,详情请参见社区文档链接。因此该行为与本优先级策略存在冲突,您可以调整Volcano可调度的节点比例,来使得Volcano选择所有节点进行调度。 应用扩缩容优先级策略介绍