搜索_华为云

根据GPU/NPU卡信息定位使用该卡的Pod - 云容器引擎 CCE

登录NPU节点，通过以下命令查看NPU卡的信息。 npu-smi info 可以看到该机器上存在两张卡device0和device1。本文以device0为例，定位使用了这张卡的Pod。根据节点IP（即192.168.0.138）和设备号（即第0张卡）定位使用了该卡的Pod。 kubectl get pods

帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 调度策略
CCE AI套件（Ascend NPU）版本发布记录 - 云容器引擎 CCE

支持C75驱动 1.0.5 v1.13 v1.15 v1.17 支持容器里使用huawei NPU设备的管理插件 1.0.3 v1.13 v1.15 v1.17 支持容器里使用huawei NPU设备的管理插件父主题：插件版本发布记录

 帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 插件版本发布记录
CCE集群弹性引擎版本发布记录 - 云容器引擎 CCE

v1.23 - 1.23.0 1.23.47 v1.23 优化异构设备(GPU/NPU)识别方法扩容节点数量超过集群规模时，使用集群支持的剩余节点数量进行扩容 1.23.0 1.23.44 v1.23 优化异构设备(GPU/NPU)识别方法扩容节点数量超过集群规模时，使用集群支持的剩余节点数量进行扩容

 帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 插件版本发布记录
为什么Pod在节点不是均匀分布？ - 云容器引擎 CCE

点的负载较低。 Volcano调度器支持使用负载感知调度功能，感知集群内节点CPU、Memory的负载情况，将Pod优先调度到负载较低的节点，实现节点负载均衡，避免出现因单个节点负载过高而导致的应用程序或节点故障。详情请参见负载感知调度。父主题：调度策略

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 调度策略
资源利用率优化调度 - 云容器引擎 CCE

资源利用率优化调度装箱调度（Binpack）重调度（Descheduler）节点池亲和性调度负载感知调度资源利用率优化调度配置案例父主题： Volcano调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度
存储扩容 - 云容器引擎 CCE
存储扩容 - 云容器引擎 CCE

务器”。登录目标节点。使用lsblk命令查看节点块设备信息。这里存在两种情况，根据容器存储Rootfs而不同。 Overlayfs：没有单独划分thinpool，在dockersys空间下统一存储镜像相关数据。查看设备的磁盘和分区大小。 # lsblk NAME

帮助中心 > 云容器引擎 CCE > 最佳实践 > 存储
GPU监控指标说明 - 云容器引擎 CCE

1：显存算力隔离模式 2：默认模式，表示当前卡还没被用于GPU虚拟化设备分配。 xgpu_device_health Gauge - GPU卡 GPU虚拟化设备的健康情况。 0：表示GPU虚拟化设备为健康状态。 1：表示GPU虚拟化设备为非健康状态。 DCGM提供的GPU监控指标表3 利用率（Utilization）

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
调度算法 - 云容器引擎 CCE
调度算法 - 云容器引擎 CCE

提高binpack插件的打分权重值后，该插件对于节点选择的影响力提高，nodeorder等插件对于节点的打分影响力将会被削弱负载感知调度 Volcano调度器提供节点CPU、Memory的负载感知调度能力，感知集群内节点CPU、Memory的负载情况，将Pod优先调度到负载较低的节点，实现节点负载均衡，避免出

 帮助中心 > 云容器引擎 CCE > 配置参考 > 集群
CCE节点事件中一直出现“镜像回收失败”告警如何解决？ - 云容器引擎 CCE

行启动容器，那么在容器停止后，它将处于退出状态，但并未完全删除，这意味着该容器仍然引用着容器镜像。由于kubelet无法感知到非Pod产生的容器，也就无法感知到该容器镜像被引用，因此当kubelet尝试删除容器镜像时，容器运行时会因为容器镜像仍处于被引用的状态而拦截kubelet

帮助中心 > 云容器引擎 CCE > 常见问题 > 节点 > 节点运行
最新动态 - 云容器引擎 CCE
最新动态 - 云容器引擎 CCE

CCE集成华为云容器安全服务（CGS） CCE集成华为云容器安全服务（CGS），容器安全服务能够扫描镜像中的漏洞与配置信息，帮助企业解决传统安全软件无法感知容器环境的问题；同时提供容器进程白名单、文件只读保护和容器逃逸检测功能，有效防止容器运行时安全风险事件的发生。商用 5 支持独享型ELB直通容器

 帮助中心 > 云容器引擎 CCE > 最新动态
工作负载异常：GPU节点部署服务报错 - 云容器引擎 CCE

问题定位 GPU插件的驱动版本较低，单独下载驱动安装后正常。工作负载中未声明需要gpu资源。建议方案节点安装了gpu-beta（gpu-device-plugin）插件后，会自动安装nvidia-smi命令行工具。引起部署GPU服务报错通常是由于nvidia驱动安装失败，请排查nvidia驱动是否下载成功。

帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 工作负载异常问题排查
购买Standard/Turbo集群 - 云容器引擎 CCE

cer格式，客户端证书私钥仅支持上传未加密的证书私钥。客户端证书有效期需要5年以上。上传的CA根证书既给认证代理使用，也用于配置kube-apiserver聚合层，如不合法，集群将无法成功创建。从1.25版本集群开始，Kubernetes不再支持使用SHA1WithRSA、ECDSAWithSHA1

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 购买集群
工作负载异常：启动容器失败 - 云容器引擎 CCE

务器”。登录目标节点。使用lsblk命令查看节点块设备信息。这里存在两种情况，根据容器存储Rootfs而不同。 Overlayfs：没有单独划分thinpool，在dockersys空间下统一存储镜像相关数据。查看设备的磁盘和分区大小。 # lsblk NAME

帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 工作负载异常问题排查
kubelet配置 - 云容器引擎 CCE
kubelet配置 - 云容器引擎 CCE

best-effort 策略：在这种模式下，kubelet 将为Pod 分配NUMA 对齐的CPU 和设备资源。 restricted 策略：在这种模式下，kubelet 仅为Pod 分配NUMA 对齐的CPU 和设备资源。如果节点资源不存在符合NUMA对齐资源Pod将会被拒绝。 single-numa-node策略：在该模式下

 帮助中心 > 云容器引擎 CCE > 配置参考 > 节点
更新指定的集群 - 云容器引擎 CCE

EncryptionConfig object 参数解释： secret资源落盘加密配置，当前仅支持配置一种加密方式。默认使用cce托管密钥（用户侧不感知该密钥）进行加密。约束限制：不涉及取值范围：不涉及默认取值：不涉及表14 HostNetwork 参数参数类型描述 vpc

帮助中心 > 云容器引擎 CCE > API参考 > API > 集群管理
存储管理 - 云容器引擎 CCE
存储管理 - 云容器引擎 CCE

Pod接口ExtendPathMode: PodUID如何与社区client-go兼容？创建存储卷失败如何解决？ CCE容器云存储PVC能否感知底层存储故障？通用文件存储（SFS 3.0）在OS中的挂载点修改属组及权限报错无法使用kubectl命令删除PV或PVC 删除挂载了云存储的Pod时提示target

帮助中心 > 云容器引擎 CCE > 常见问题
工作负载网络异常时，如何定位排查？ - 云容器引擎 CCE

相关端口或URL的后端服务器组是否符合预期。节点上的安全组是否对ELB暴露了相关的协议或端口。四层ELB的健康检查是否开启（未开启的话，请开启）。七层ELB的访问方式中使用的证书是否过期。常见问题：发布四层ELB时，如果客户在界面未开启健康检查，ELB可能会将流量转发到异常的节点。 UD

帮助中心 > 云容器引擎 CCE > 常见问题 > 网络管理 > 网络异常问题排查
调度配置 - 云容器引擎 CCE
调度配置 - 云容器引擎 CCE

率。 - 负载感知调度（Usage）负载感知调度通过云原生监控插件（kube-prometheus-stack）获取各节点 CPU、内存的真实负载数据，根据用户指定的周期计算各节点的负载平均值，优先调度任务至真实负载较低的节点，实现节点负载均衡。详情请参见负载感知调度。 AI任

 帮助中心 > 云容器引擎 CCE > 用户指南 > 配置中心
工作负载异常：实例拉取镜像失败 - 云容器引擎 CCE

务器”。登录目标节点。使用lsblk命令查看节点块设备信息。这里存在两种情况，根据容器存储Rootfs而不同。 Overlayfs：没有单独划分thinpool，在dockersys空间下统一存储镜像相关数据。查看设备的磁盘和分区大小。 # lsblk NAME

帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 工作负载异常问题排查
网络异常问题排查 - 云容器引擎 CCE

如何解决VPC网段与容器网络冲突的问题？ ELB四层健康检查导致java报错：Connection reset by peer Service事件：Have no node to bind，如何排查？为什么登录虚拟机VNC界面会间歇性出现Dead loop on virtual device gw_11cbf51a

帮助中心 > 云容器引擎 CCE > 常见问题 > 网络管理

总条数： 214

上一页
1
2
3
4
5
...
11
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

根据GPU/NPU卡信息定位使用该卡的Pod - 云容器引擎 CCE

CCE AI套件（Ascend NPU）版本发布记录 - 云容器引擎 CCE

CCE集群弹性引擎版本发布记录 - 云容器引擎 CCE

为什么Pod在节点不是均匀分布？ - 云容器引擎 CCE

资源利用率优化调度 - 云容器引擎 CCE

存储扩容 - 云容器引擎 CCE

GPU监控指标说明 - 云容器引擎 CCE

调度算法 - 云容器引擎 CCE

CCE节点事件中一直出现“镜像回收失败”告警如何解决？ - 云容器引擎 CCE

最新动态 - 云容器引擎 CCE

工作负载异常：GPU节点部署服务报错 - 云容器引擎 CCE

购买Standard/Turbo集群 - 云容器引擎 CCE

工作负载异常：启动容器失败 - 云容器引擎 CCE

kubelet配置 - 云容器引擎 CCE

更新指定的集群 - 云容器引擎 CCE

存储管理 - 云容器引擎 CCE

工作负载网络异常时，如何定位排查？ - 云容器引擎 CCE

调度配置 - 云容器引擎 CCE

工作负载异常：实例拉取镜像失败 - 云容器引擎 CCE

网络异常问题排查 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线