检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选择一个已有的弹性公网IP。如果无可用IP,可单击“创建弹性IP”前往EIP控制台进行创建。 通过绑定EIP实现公网访问,集群存在风险,建议绑定的EIP配置DDoS高防服务或配置API Server访问策略。 绑定EIP将会短暂重启集群API Server并更新kubeconfig证书,请避免在此期间操作集群。
GPU驱动的一个漏洞CVE-2021-1056,该漏洞是存在于NVIDIA GPU驱动程序中与设备隔离相关的安全漏洞。当容器以非特权模式启动,攻击者利用这个漏洞,通过在容器中创建特殊的字符设备文件后,能够获取宿主机上所有GPU设备的访问权限。 关于漏洞的详细信息,请参见CVE-2021-1056。 如
unhealthy. NVML获取设备UUID异常 隔离故障GPU节点的GPU设备 GPUXidError Xid=%d on Device=%s, UUID=%s, SN=%s, the device will go unhealthy. GPU设备存在Xid错误,Xid捕获范围为74和79
每个节点的GPU虚拟化设备数量 节点-XGPU设备显存分配量 字节 每个节点上的GPU虚拟化设备显存总量 GPU卡-XGPU设备显存使用率 百分比 每张GPU卡上的GPU虚拟化设备显存使用率 计算公式:显卡上所有XGPU设备的显存使用量之和 / 显卡显存总量 GPU卡-XGPU设备显存分配量
拓扑域topologyKey:包含默认和自定义标签,用于指定调度时的作用域。本示例设置为topology.kubernetes.io/zone,此为节点上标识节点在哪个可用区的标签。 标签选择labelSelector:选择Pod的标签,与工作负载本身反亲和。 第二条在节点名称作用域下工作负载反亲和,参数设置如下。
GPU虚拟化概述 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。
CVE-2024-47177 严重 2024-09-26 漏洞影响 该漏洞主要影响运行 CUPS 打印系统的 Unix 设备,若同时启用了 cups-browsed 服务,可能面临被远程攻击的风险,从而危及用户设备的安全。 判断方法 您可以在节点上执行以下命令查看是否安装CUPS相关服务: systemctl
busy 问题根因 出现以上问题的原因是宿主机上有其他进程正在使用该设备。 解决方法 您需要登录到Pod所在宿主机上查找正在使用该设备的进程,并终止对应的进程。 登录Pod所在节点。 执行以下命令,找到对应挂载路径下的云存储设备,其中<mount-path>为错误信息中显示的挂载路径。 mount
cluster_version 否 String CCE集群版本 device_version 是 String 插件的版本 driver_version 是 String 插件安装驱动时,插件里负责安装驱动的Pod的镜像tag,一般与device_version相同 obs_url 是 String
功能总览 功能总览 全部 集群管理 节点管理 节点池管理 工作负载管理 容器网络 容器存储 弹性伸缩 应用调度 容器运维 模板市场 插件管理 权限管理 集群管理 CCE是一种托管的Kubernetes产品/服务,可进一步简化基于容器的应用程序部署和管理,您可以在CCE中方便的创建
异构资源配置 GPU配置 GPU虚拟化 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU
本文介绍如何使用GPU虚拟化能力实现算力和显存隔离,高效利用GPU设备资源。 前提条件 已完成GPU虚拟化资源准备。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 单个GPU卡最多虚拟化成20个GPU虚拟设备。 init容器不支持使用GPU虚拟化资源。
准备GPU虚拟化资源 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。本文介绍如何在GPU节点上实现GPU的调度和隔离能力。 前提条件 配置 支持版本 集群版本 v1.23.8-r0、v1.25
cluster_version 是 String CCE集群版本 device_version 是 String 插件的版本 driver_version 是 String 插件开启自动安装驱动时,插件里负责安装驱动的Pod的镜像tag,一般与device_version相同 swr_addr 是 String
通过负载均衡配置实现会话保持 概念 会话保持可以确保用户在访问应用时的连续性和一致性。如果在客户端和服务器之间部署了负载均衡设备,很有可能这多个连接会被转发至不同的服务器进行处理。开启会话保持后,负载均衡会把来自同一客户端的访问请求持续分发到同一台后端云服务器上进行处理。 例如在
是否允许修改 作用范围 event-qps 大于等于0 5 允许 CCE Standard/CCE Turbo 事件创建QPS限制,默认值5,设置为0则不做限制 配置建议: 5 允许使用的不安全系统配置 允许使用的不安全系统配置列表 参数名 取值范围 默认值 是否允许修改 作用范围 a
npu-driver-installer 该容器运行在NPU节点上,负责安装NPU驱动。 DaemonSet huawei-npu-device-plugin 支持容器里使用huawei NPU设备的管理插件。 DaemonSet NPU指标 指标 监控级别 备注 cce_npu_memory_total
自定义资源分组 参数名 取值范围 默认值 是否允许修改 作用范围 spec.group 无 无 允许 CCE Standard/CCE Turbo 自定义资源作用域 自定义资源作用域 参数名 取值范围 默认值 是否允许修改 作用范围 spec.scope Namespaced/Cluster
问题原理 BUS 0上热插PCI设备后,Linux内核会多次遍历挂载在BUS 0上的所有PCI-Bridge,且PCI-Bridge在被更新期间无法正常工作。在此期间,若设备使用的PCI-Bridge被更新,由于内核缺陷,该设备会认为PCI-Bridge异常,设备进入故障模式进而无法正常
其余工作 应用功能验证 由于集群迁移是对应用数据的全量迁移,可能存在应用内适配问题。例如本示例中,集群迁移后,Wordpress中发布的文章跳转链接仍是原域名,单击文章标题将会重定向至原集群中的应用实例,因此需要通过搜索将Wordpress中原有的旧域名并替换为新域名,并修改数据