检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用户节点组件健康检查异常处理 检查项内容 检查用户节点的容器运行时组件和网络组件等是否健康。 解决方案 问题场景一:CNI Agent is not active 如果您的集群版本在1.17.17以下,或者1.17.17以上且是隧道网络,请登录该节点,执行systemctl status
CCE容器实例弹性伸缩到CCI服务 CCE突发弹性引擎(对接 CCI)作为一种虚拟的kubelet用来连接Kubernetes集群和其他平台的API。Bursting的主要场景是将Kubernetes API扩展到无服务器的容器平台(如CCI)。 基于该插件,支持用户在短时高负载
great security risks. It is recommended that the AK and SK be stored in ciphertext in configuration files or environment variables and decrypted
great security risks. It is recommended that the AK and SK be stored in ciphertext in configuration files or environment variables and decrypted
great security risks. It is recommended that the AK and SK be stored in ciphertext in configuration files or environment variables and decrypted
集群升级后确认 功能介绍 集群升级后确认,该接口建议配合Console使用,主要用于升级步骤完成后,客户确认集群状态和业务正常后做反馈。 调用方法 请参见如何调用API。 URI POST /api/v3/projects/{project_id}/clusters/{clust
可能是您的部署描述YAML文件(例如 Pod、Deployment、StatefulSet等)存在错误。例如: 镜像版本未更新。您可能未使用正确的镜像版本,或者是旧版镜像和新版镜像重名均为latest版本,而节点上已存在旧版镜像,但工作负载的imagePullPolicy设置为IfNotPresent,导致未重新拉取新版镜像仍然运行旧版镜像。
Toolkit 是一个由 NVIDIA 提供的开源工具包,它允许您在容器化环境中利用 NVIDIA GPU 进行加速计算。工具包包括一个容器运行时库和实用程序,用于自动配置容器以利用NVIDIA GPU。 漏洞详情 表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间 容器逃逸
GPU视图 GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。 指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量
Engine,简称CCE)提供高度可扩展的、高性能的企业级Kubernetes集群。由于社区定期发布Kubernetes版本,CCE会随之发布相应的集群公测和商用版本。本文将为您介绍CCE集群的Kubernetes版本策略。 CCE集群版本生命周期表 Kubernetes版本号 当前状态 社区发布时间
Ubuntu内核与GPU驱动兼容性提醒 检查项内容 检查到集群中同时使用GPU插件和Ubuntu节点,提醒客户存在可能的兼容性问题。当Ubuntu内核版本在5.15.0-113-generic上时,GPU插件必须使用535.161.08及以上的驱动版本。 解决方案 您在升级后新创
弹性扩容策略 遵循节点池优先级和规格优先级的原则弹性扩容。 预判规格筛选: 通过预判算法,在所有节点池中选择能满足Pending状态的Pod正常调度的规格。 考虑因素包括节点资源是否满足Pod的Request值,以及nodeSelector、nodeAffinity和taints等是否满足Pod正常调度的条件。
cpu: "1" workingDir: /opt/tf-benchmarks/scripts/tf_cnn_benchmarks restartPolicy: OnFailure Worker:
例如上述告警中提到的容器ID(966fce58d9b8)已经停止运行了,但没有完全被删除。 问题根因 kubelet根据imageGCHighThresholdPercent和imageGCLowThresholdPercent两个配置参数定期回收未在使用中的镜像。如果在节点上使用docker或crictl命令行启
基于全量数据过滤属于此Namespace的资源,可以有效降低响应延迟时间和控制平面内存开销。 服务端精细化限流策略:通过API 优先级和公平性(APF)对请求并发限制进行精细化控制,详情请参见API优先级和公平性(APF)。 集群防过载建议 以下将给出几种过载防护措施与建议: 使用新版本集群
资源占用率增加:为保证DNS性能,CoreDNS往往需要更高规格的配置。 解决方案 NodeLocal DNSCache可以提升服务发现的稳定性和性能。 关于NodeLocal DNSCache的介绍及如何在CCE集群中部署NodeLocal DNSCache的具体步骤,请参见使用NodeLocal
且开启了“驱动选择”功能并选择了对应机型的NPU驱动,节点池扩容会导致前端设置的安装命令和npu-driver-installer Pod 同时在新增节点上安装驱动,可能导致安装的驱动和预期不符或安装失败。因此,不建议在huawei-npu驱动选择功能已开启的情况下,对已设置“
best-effort 策略:在这种模式下,kubelet 将为Pod 分配NUMA 对齐的CPU 和设备资源。 restricted 策略:在这种模式下,kubelet 仅为Pod 分配NUMA 对齐的CPU 和设备资源。如果节点资源不存在符合NUMA对齐资源Pod将会被拒绝。 single-numa-node策略:在该模式下
不可变的Secret和ConfigMap现在已升级到稳定状态。向这些对象添加了一个新的不可变字段,以拒绝更改。此拒绝可保护集群免受可能无意间中断应用程序的更新。因为这些资源是不可变的,kubelet不会监视或轮询更改。这减少了kube-apiserver的负载,提高了可扩展性和性能。更多信息,请参见Immutable
不可变的Secret和ConfigMap现在已升级到稳定状态。向这些对象添加了一个新的不可变字段,以拒绝更改。此拒绝可保护集群免受可能无意中中断应用程序的更新。因为这些资源是不可变的,kubelet不会监视或轮询更改。这减少了kube-apiserver的负载,提高了可扩展性和性能。更多信息,请参见Immutable