检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
登录NPU节点,通过以下命令查看NPU卡的信息。 npu-smi info 可以看到该机器上存在两张卡device0和device1。本文以device0为例,定位使用了这张卡的Pod。 根据节点IP(即192.168.0.138)和设备号(即第0张卡)定位使用了该卡的Pod。 kubectl get pods
支持C75驱动 1.0.5 v1.13 v1.15 v1.17 支持容器里使用huawei NPU设备的管理插件 1.0.3 v1.13 v1.15 v1.17 支持容器里使用huawei NPU设备的管理插件 父主题: 插件版本发布记录
v1.23 - 1.23.0 1.23.47 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容 1.23.0 1.23.44 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容
点的负载较低。 Volcano调度器支持使用负载感知调度功能,感知集群内节点CPU、Memory的负载情况,将Pod优先调度到负载较低的节点,实现节点负载均衡,避免出现因单个节点负载过高而导致的应用程序或节点故障。详情请参见负载感知调度。 父主题: 调度策略
资源利用率优化调度 装箱调度(Binpack) 重调度(Descheduler) 节点池亲和性调度 负载感知调度 资源利用率优化调度配置案例 父主题: Volcano调度
务器”。 登录目标节点。 使用lsblk命令查看节点块设备信息。 这里存在两种情况,根据容器存储Rootfs而不同。 Overlayfs:没有单独划分thinpool,在dockersys空间下统一存储镜像相关数据。 查看设备的磁盘和分区大小。 # lsblk NAME
1:显存算力隔离模式 2:默认模式,表示当前卡还没被用于GPU虚拟化设备分配。 xgpu_device_health Gauge - GPU卡 GPU虚拟化设备的健康情况。 0:表示GPU虚拟化设备为健康状态。 1:表示GPU虚拟化设备为非健康状态。 DCGM提供的GPU监控指标 表3 利用率(Utilization)
提高binpack插件的打分权重值后,该插件对于节点选择的影响力提高,nodeorder等插件对于节点的打分影响力将会被削弱 负载感知调度 Volcano调度器提供节点CPU、Memory的负载感知调度能力,感知集群内节点CPU、Memory的负载情况,将Pod优先调度到负载较低的节点,实现节点负载均衡,避免出
行启动容器,那么在容器停止后,它将处于退出状态,但并未完全删除,这意味着该容器仍然引用着容器镜像。由于kubelet无法感知到非Pod产生的容器,也就无法感知到该容器镜像被引用,因此当kubelet尝试删除容器镜像时,容器运行时会因为容器镜像仍处于被引用的状态而拦截kubelet
CCE集成华为云容器安全服务(CGS) CCE集成华为云容器安全服务(CGS),容器安全服务能够扫描镜像中的漏洞与配置信息,帮助企业解决传统安全软件无法感知容器环境的问题;同时提供容器进程白名单、文件只读保护和容器逃逸检测功能,有效防止容器运行时安全风险事件的发生。 商用 5 支持独享型ELB直通容器
问题定位 GPU插件的驱动版本较低,单独下载驱动安装后正常。 工作负载中未声明需要gpu资源。 建议方案 节点安装了gpu-beta(gpu-device-plugin)插件后,会自动安装nvidia-smi命令行工具。引起部署GPU服务报错通常是由于nvidia驱动安装失败,请排查nvidia驱动是否下载成功。
cer格式,客户端证书私钥仅支持上传未加密的证书私钥。 客户端证书有效期需要5年以上。 上传的CA根证书既给认证代理使用,也用于配置kube-apiserver聚合层,如不合法,集群将无法成功创建。 从1.25版本集群开始,Kubernetes不再支持使用SHA1WithRSA、ECDSAWithSHA1
务器”。 登录目标节点。 使用lsblk命令查看节点块设备信息。 这里存在两种情况,根据容器存储Rootfs而不同。 Overlayfs:没有单独划分thinpool,在dockersys空间下统一存储镜像相关数据。 查看设备的磁盘和分区大小。 # lsblk NAME
best-effort 策略:在这种模式下,kubelet 将为Pod 分配NUMA 对齐的CPU 和设备资源。 restricted 策略:在这种模式下,kubelet 仅为Pod 分配NUMA 对齐的CPU 和设备资源。如果节点资源不存在符合NUMA对齐资源Pod将会被拒绝。 single-numa-node策略:在该模式下
EncryptionConfig object 参数解释: secret资源落盘加密配置,当前仅支持配置一种加密方式。默认使用cce托管密钥(用户侧不感知该密钥)进行加密。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 表14 HostNetwork 参数 参数类型 描述 vpc
Pod接口ExtendPathMode: PodUID如何与社区client-go兼容? 创建存储卷失败如何解决? CCE容器云存储PVC能否感知底层存储故障? 通用文件存储(SFS 3.0)在OS中的挂载点修改属组及权限报错 无法使用kubectl命令删除PV或PVC 删除挂载了云存储的Pod时提示target
相关端口或URL的后端服务器组是否符合预期。 节点上的安全组是否对ELB暴露了相关的协议或端口。 四层ELB的健康检查是否开启(未开启的话,请开启)。 七层ELB的访问方式中使用的证书是否过期。 常见问题: 发布四层ELB时,如果客户在界面未开启健康检查,ELB可能会将流量转发到异常的节点。 UD
率。 - 负载感知调度(Usage) 负载感知调度通过云原生监控插件(kube-prometheus-stack)获取各节点 CPU、内存的真实负载数据,根据用户指定的周期计算各节点的负载平均值,优先调度任务至真实负载较低的节点,实现节点负载均衡。详情请参见负载感知调度。 AI任
务器”。 登录目标节点。 使用lsblk命令查看节点块设备信息。 这里存在两种情况,根据容器存储Rootfs而不同。 Overlayfs:没有单独划分thinpool,在dockersys空间下统一存储镜像相关数据。 查看设备的磁盘和分区大小。 # lsblk NAME
如何解决VPC网段与容器网络冲突的问题? ELB四层健康检查导致java报错:Connection reset by peer Service事件:Have no node to bind,如何排查? 为什么登录虚拟机VNC界面会间歇性出现Dead loop on virtual device gw_11cbf51a