搜索_华为云

负载感知调度 - 云容器引擎 CCE

负载感知调度 Volcano调度器提供节点CPU、Memory的负载感知调度能力，感知集群内节点CPU、Memory的负载情况，将Pod优先调度到负载较低的节点，实现节点负载均衡，避免出现因单个节点负载过高而导致的应用程序或节点故障。前提条件已创建v1.21及以上版本的集群，

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度 > 资源利用率优化调度
CCE容器云存储PVC能否感知底层存储故障？ - 云容器引擎 CCE

CCE容器云存储PVC能否感知底层存储故障？ CCE PVC按照社区逻辑实现，PVC本身的定义是存储声明，与底层存储解耦，不负责感知底层存储细节，因此没有感知底层存储故障的能力。云监控服务CES 具备查看云服务监控指标的能力：云监控服务基于云服务自身的服务属性，已经内置了详细全

 帮助中心 > 云容器引擎 CCE > 常见问题 > 存储管理
设置容器健康检查 - 云容器引擎 CCE

设置容器健康检查操作场景健康检查是指容器运行过程中，根据用户需要，定时检查容器健康状况。若不配置健康检查，如果容器内应用程序异常，Pod将无法感知，也不会自动重启去恢复。最终导致虽然Pod状态显示正常，但Pod中的应用程序异常的情况。 Kubernetes提供了三种健康检查的探针：

帮助中心 > 云容器引擎 CCE > 用户指南 > 工作负载 > 配置工作负载
存活探针（Liveness Probe） - 云容器引擎 CCE

存活探针（Liveness Probe）存活探针 Kubernetes提供了自愈的能力，具体就是能感知到容器崩溃，然后能够重启这个容器。但是有时候例如Java程序内存泄漏了，程序无法正常工作，但是JVM进程却是一直运行的，对于这种应用本身业务出了问题的情况，Kubernetes提供了Liveness

帮助中心 > 云容器引擎 CCE > Kubernetes基础知识 > Pod、Label和Namespace
CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

cluster_version 否 String CCE集群版本 device_version 是 String 插件的版本 driver_version 是 String 插件安装驱动时，插件里负责安装驱动的Pod的镜像tag，一般与device_version相同 obs_url 是 String

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
NVIDIA GPU驱动漏洞公告（CVE-2021-1056） - 云容器引擎 CCE

GPU驱动的一个漏洞CVE-2021-1056，该漏洞是存在于NVIDIA GPU驱动程序中与设备隔离相关的安全漏洞。当容器以非特权模式启动，攻击者利用这个漏洞，通过在容器中创建特殊的字符设备文件后，能够获取宿主机上所有GPU设备的访问权限。关于漏洞的详细信息，请参见CVE-2021-1056。如

 帮助中心 > 云容器引擎 CCE > 服务公告 > 漏洞公告
XGPU视图 - 云容器引擎 CCE
XGPU视图 - 云容器引擎 CCE

每个节点的GPU虚拟化设备数量节点-XGPU设备显存分配量字节每个节点上的GPU虚拟化设备显存总量 GPU卡-XGPU设备显存使用率百分比每张GPU卡上的GPU虚拟化设备显存使用率计算公式：显卡上所有XGPU设备的显存使用量之和 / 显卡显存总量 GPU卡-XGPU设备显存分配量

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
使用GPU虚拟化 - 云容器引擎 CCE

本文介绍如何使用GPU虚拟化能力实现算力和显存隔离，高效利用GPU设备资源。前提条件已完成GPU虚拟化资源准备。如果您需要通过命令行创建，需要使用kubectl连接到集群，详情请参见通过kubectl连接集群。约束与限制单个GPU卡最多虚拟化成20个GPU虚拟设备。 init容器不支持使用GPU虚拟化资源。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

使用Kubeflow和Volcano实现典型AI训练任务 Kubernetes已经成为云原生应用编排、管理的事实标准，越来越多的应用选择向Kubernetes迁移。人工智能和机器学习领域天然的包含大量的计算密集型任务，开发者非常愿意基于Kubernetes构建AI平台，充分利用Kubernetes提供的资源管理、应用编排、运维监控能力。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
CCE AI套件（Ascend NPU） - 云容器引擎 CCE

cluster_version 是 String CCE集群版本 device_version 是 String 插件的版本 driver_version 是 String 插件开启自动安装驱动时，插件里负责安装驱动的Pod的镜像tag，一般与device_version相同 swr_addr 是 String

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
GPU虚拟化概述 - 云容器引擎 CCE

GPU虚拟化概述 CCE GPU虚拟化采用自研xGPU虚拟化技术，能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说，虚拟化的方案更加灵活，最大程度保证业务稳定的前提下，可以完全由用户自己定义使用的GPU量，提高GPU利用率。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
Linux CUPS服务RCE 漏洞公告（CVE-2024-47076、CVE-2024-47175、CVE-2024-47176、CVE-2024-47177） - 云容器引擎 CCE

CVE-2024-47177 严重 2024-09-26 漏洞影响该漏洞主要影响运行 CUPS 打印系统的 Unix 设备，若同时启用了 cups-browsed 服务，可能面临被远程攻击的风险，从而危及用户设备的安全。判断方法您可以在节点上执行以下命令查看是否安装CUPS相关服务： systemctl

帮助中心 > 云容器引擎 CCE > 服务公告 > 漏洞公告
异构资源配置 - 云容器引擎 CCE

异构资源配置 GPU配置 GPU虚拟化：CCE GPU虚拟化采用自研xGPU虚拟化技术，能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说，虚拟化的方案更加灵活，最大程度保证业务稳定的前提下，可以完全由用户自己定义使用的GPU

帮助中心 > 云容器引擎 CCE > 用户指南 > 配置中心
CCE AI套件（Ascend NPU） - 云容器引擎 CCE

npu-driver-installer 该容器运行在NPU节点上，负责安装NPU驱动。 DaemonSet huawei-npu-device-plugin 支持容器里使用huawei NPU设备的管理插件。 DaemonSet NPU指标指标监控级别备注 cce_npu_memory_total

帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生异构计算插件
准备GPU虚拟化资源 - 云容器引擎 CCE

准备GPU虚拟化资源 CCE GPU虚拟化采用自研xGPU虚拟化技术，能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。本文介绍如何在GPU节点上实现GPU的调度和隔离能力。前提条件配置支持版本集群版本 v1.23.8-r0、v1.25

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
对象存储概述 - 云容器引擎 CCE

场景。标准接口：具备标准Http Restful API接口，用户必须通过编程或第三方工具访问对象存储。数据共享：服务器、嵌入式设备、IOT设备等所有调用相同路径，均可访问共享的对象存储数据。公共/私有网络：对象存储数据允许在公网访问，满足互联网应用需求。容量与性能：容量

 帮助中心 > 云容器引擎 CCE > 用户指南 > 存储 > 对象存储（OBS）
调度概述 - 云容器引擎 CCE
调度概述 - 云容器引擎 CCE

Pod共享使用GPU。使用Kubernetes默认GPU调度 GPU虚拟化 GPU虚拟化能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说，虚拟化的方案更加灵活，最大程度保证业务稳定的前提下，可以完全由用户自己定义使用的GPU量，提高GPU利用率。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度
删除挂载了云存储的Pod时提示target is busy - 云容器引擎 CCE

busy 问题根因出现以上问题的原因是宿主机上有其他进程正在使用该设备。解决方法您需要登录到Pod所在宿主机上查找正在使用该设备的进程，并终止对应的进程。登录Pod所在节点。执行以下命令，找到对应挂载路径下的云存储设备，其中<mount-path>为错误信息中显示的挂载路径。 mount

帮助中心 > 云容器引擎 CCE > 常见问题 > 存储管理
集群概述 - 云容器引擎 CCE
集群概述 - 云容器引擎 CCE

PU兼容生态，支持GPU调度、监控、弹性伸缩等全生命周期操作。详情请参见GPU调度。 GPU虚拟化：支持对GPU设备显存与算力进行动态划分，多个容器共享一个GPU设备且相互隔离，提高GPU利用率。详情请参见GPU虚拟化。 NPU：支持以NPU实例作为集群工作节点，并提供NPU调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群
集群成本管理最佳实践 - 云容器引擎 CCE

在替换节点池、节点滚动升级等场景中，需要使用新节点池替换旧节点池。在这些场景下，为做到业务不感知，可以在业务触发变更时，将业务的Pod软亲和调度到新的节点池上。详情请参见节点池亲和性调度。负载感知调度提供节点CPU、Memory的负载感知调度能力，感知集群内节点CPU、Memory的负载情况，将Pod优先调度

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 集群

总条数： 163

上一页
1
2
3
4
5
...
9
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

负载感知调度 - 云容器引擎 CCE

CCE容器云存储PVC能否感知底层存储故障？ - 云容器引擎 CCE

设置容器健康检查 - 云容器引擎 CCE

存活探针（Liveness Probe） - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

NVIDIA GPU驱动漏洞公告（CVE-2021-1056） - 云容器引擎 CCE

XGPU视图 - 云容器引擎 CCE

使用GPU虚拟化 - 云容器引擎 CCE

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

CCE AI套件（Ascend NPU） - 云容器引擎 CCE

GPU虚拟化概述 - 云容器引擎 CCE

Linux CUPS服务RCE 漏洞公告（CVE-2024-47076、CVE-2024-47175、CVE-2024-47176、CVE-2024-47177） - 云容器引擎 CCE

异构资源配置 - 云容器引擎 CCE

CCE AI套件（Ascend NPU） - 云容器引擎 CCE

准备GPU虚拟化资源 - 云容器引擎 CCE

对象存储概述 - 云容器引擎 CCE

调度概述 - 云容器引擎 CCE

删除挂载了云存储的Pod时提示target is busy - 云容器引擎 CCE

集群概述 - 云容器引擎 CCE

集群成本管理最佳实践 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线