搜索_华为云

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

使用Kubeflow和Volcano实现典型AI训练任务 Kubernetes已经成为云原生应用编排、管理的事实标准，越来越多的应用选择向Kubernetes迁移。人工智能和机器学习领域天然的包含大量的计算密集型任务，开发者非常愿意基于Kubernetes构建AI平台，充分利用Kubernetes提供的资源管理、应用编排、运维监控能力。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
CCE AI套件（NVIDIA GPU）版本发布记录 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）版本发布记录表1 CCE AI套件（NVIDIA GPU）版本记录插件版本支持的集群版本更新特性 2.7.42 v1.28 v1.29 v1.30 v1.31 新增NVIDIA 535.216.03驱动，支持XGPU特性 2.7.41

帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 插件版本发布记录
CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

插件仅提供驱动的下载及安装脚本执行功能，插件的状态仅代表插件本身功能正常，与驱动是否安装成功无关。对于GPU驱动版本与您业务应用的兼容性（GPU驱动版本与CUDA库版本的兼容性），CCE不做保证，请您自行验证。对于已经安装GPU驱动的自定义操作系统镜像，CCE无法保证其提供的GPU驱

 帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生异构计算插件
CCE AI套件（Ascend NPU） - 云容器引擎 CCE

判断芯片主频降级是否恢复的门限默认值：2 container_path 否 String 容器里用于挂载Hiai library的路径默认值："/usr/local/HiAI_unused" host_path 否 String 主机上包含Hiai library的路径默认值："/

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

Bool 默认值：false XGPU虚拟化模式的开关 gpu_driver_config 否 Map 针对单个节点池的GPU驱动的相关配置默认值：{} health_check_xids_v2 否 String 插件健康检查的GPU错误的范围默认值："74,79" inject_ld_Library_path

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
CCE AI套件（Ascend NPU） - 云容器引擎 CCE

CCE AI套件（Ascend NPU）插件简介 CCE AI套件（Ascend NPU）是支持容器里使用huawei NPU设备的管理插件。安装本插件后，可创建“AI加速型”节点，实现快速高效地处理推理和图像识别等工作。约束与限制集群中使用“AI加速型”节点时必须安装CCE

帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生异构计算插件
CCE AI套件（Ascend NPU）版本发布记录 - 云容器引擎 CCE

CCE AI套件（Ascend NPU）版本发布记录表1 CCE AI套件（Ascend NPU）插件版本记录插件版本支持的集群版本更新特性 2.1.46 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 v1.31 支持CCE v1.31集群

 帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 插件版本发布记录
AI任务性能增强调度 - 云容器引擎 CCE

AI任务性能增强调度公平调度（DRF）组调度（Gang）父主题： Volcano调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度
Container配置 - 云容器引擎 CCE
Container配置 - 云容器引擎 CCE

- 指示容器是否准备好为请求提供服务。如果就绪态探测失败，端点控制器将从与 Pod 匹配的所有服务的端点列表中删除该 Pod 的 IP 地址。初始延迟之前的就绪态的状态值默认为 Failure。如果容器不提供就绪态探针，则默认状态为 Success。启动探针参数名取值范围

 帮助中心 > 云容器引擎 CCE > 配置参考 > Pod
NVIDIA Container Toolkit容器逃逸漏洞公告（CVE-2024-0132） - 云容器引擎 CCE

在NVIDIA Container Toolkit v1.16.1及更早版本的环境中，攻击者通过运行一个恶意镜像，可能实现容器逃逸，从而获得主机系统的访问权限。成功利用此漏洞可能会导致代码执行、拒绝服务、权限提升、信息泄露和数据篡改。判断方法如果集群未安装CCE AI套件（NVIDIA

帮助中心 > 云容器引擎 CCE > 服务公告 > 漏洞公告
VPC的子网无法删除，怎么办？ - 云容器引擎 CCE

VPC的子网无法删除，怎么办？ VPC的子网无法删除可能是因为您在CCE的集群中使用了该VPC的子网，因此需要在CCE界面删除相应的集群后，再删除VPC的子网。删除集群会将集群内的节点以及运行的工作负载和服务都销毁，请谨慎操作。不建议在ECS界面删除CCE集群中的节点。父主题：

帮助中心 > 云容器引擎 CCE > 常见问题 > 网络管理 > 网络异常问题排查
Containerd节点业务容器标准输出日志写入过快导致节点数据盘使用率过高 - 云容器引擎 CCE

等现象。问题根因对于使用Containerd运行时的节点上业务容器，若日志输出方式采用容器标准输出，其日志转储由节点上kubelet组件完成，除负责业务容器标准输出日志转储外，kubelet还负责节点上所有容器生命周期的维护操作。若节点上业务容器过多，业务容器标准日志输出过

 帮助中心 > 云容器引擎 CCE > 常见问题 > 节点 > 节点运行
如何驱逐节点上的所有Pod？ - 云容器引擎 CCE

<none> 驱逐该节点上的所有Pod。 kubectl drain 192.168.0.160 如果节点上存在绑定了本地存储的Pod或是一些守护进程集管理的Pod，将提示“error: unable to drain node "192.168.0.160"

帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 调度策略
工作负载异常：启动容器失败 - 云容器引擎 CCE

您可以执行以下步骤清理未使用的镜像：使用containerd容器引擎的节点：查看节点上的本地镜像。 crictl images -v 确认镜像无需使用，并通过镜像ID删除无需使用的镜像。 crictl rmi {镜像ID} 使用docker容器引擎的节点：查看节点上的本地镜像。 docker

帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 工作负载异常问题排查
containerd容器进程权限提升漏洞公告（CVE-2022-24769） - 云容器引擎 CCE

Inheritable 集合上，这会导致在容器内的进程在以 Non-Root 用户 execve() 执行可执行文件时Inheritable和文件的Inheritable集合的交集被添加到执行完execve后的进程的Permited集合中，出现非预期的“越权“行为。需要说明的是，这个越权并没有突破 execve

帮助中心 > 云容器引擎 CCE > 服务公告 > 漏洞公告
Containerd Pod重启风险检查异常处理 - 云容器引擎 CCE

Containerd Pod重启风险检查异常处理检查项内容检查当前集群内使用containerd的节点在升级containerd组件时，节点上运行的业务容器是否可能发生重启，造成业务影响。解决方案检测到您的节点上的containerd服务存在重启风险；请确保在业务影响可控

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
将节点容器引擎从Docker迁移到Containerd - 云容器引擎 CCE

推荐使用滚动的方式迁移，即扩容部分Containerd节点，再删除部分Docker节点，直至新的Containerd节点池中节点数量和原Docker节点池中节点数量一致。若您在原有Docker节点或节点池上部署的负载设置了对应的节点亲和性，则需要将负载的节点亲和性策略配置为的新Containerd节点或节点池。

帮助中心 > 云容器引擎 CCE > 用户指南 > 节点 > 节点运维
Apache containerd安全漏洞公告（CVE-2020-15257） - 云容器引擎 CCE

Apache containerd安全漏洞公告（CVE-2020-15257）漏洞详情 CVE-2020-15257是containerd官方发布的一处Docker容器逃逸漏洞。containerd是一个支持Docker和常见Kubernetes配置的容器运行时管理组件，它处理

 帮助中心 > 云容器引擎 CCE > 服务公告 > 漏洞公告
节点干扰ContainerdSock检查异常处理 - 云容器引擎 CCE

节点干扰ContainerdSock检查异常处理检查项内容检查节点上是否存在干扰的Containerd.Sock文件。该文件影响Euler操作系统下的容器运行时启动。解决方案问题场景：节点使用的docker为定制的Euler-docker而非社区的docker 登录相关节点。

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
公平调度（DRF） - 云容器引擎 CCE

在实际业务中，经常会遇到将集群稀缺资源分配给多个用户的情况，每个用户获得资源的权利都相同，但是需求数却可能不同，如何公平的将资源分配给每个用户是一项非常有意义的事情。调度层面有一种常用的方法为最大最小化公平分配算法（max-min fairness share），尽量满足用户中的最小的需求，然后将剩余的资源公平分配给剩下的用户。形式化定义如下：

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度 > AI任务性能增强调度

总条数： 640

上一页
1
2
3
4
5
...
32
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）版本发布记录 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

CCE AI套件（Ascend NPU） - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

CCE AI套件（Ascend NPU） - 云容器引擎 CCE

CCE AI套件（Ascend NPU）版本发布记录 - 云容器引擎 CCE

AI任务性能增强调度 - 云容器引擎 CCE

Container配置 - 云容器引擎 CCE

NVIDIA Container Toolkit容器逃逸漏洞公告（CVE-2024-0132） - 云容器引擎 CCE

VPC的子网无法删除，怎么办？ - 云容器引擎 CCE

Containerd节点业务容器标准输出日志写入过快导致节点数据盘使用率过高 - 云容器引擎 CCE

如何驱逐节点上的所有Pod？ - 云容器引擎 CCE

工作负载异常：启动容器失败 - 云容器引擎 CCE

containerd容器进程权限提升漏洞公告（CVE-2022-24769） - 云容器引擎 CCE

Containerd Pod重启风险检查异常处理 - 云容器引擎 CCE

将节点容器引擎从Docker迁移到Containerd - 云容器引擎 CCE

Apache containerd安全漏洞公告（CVE-2020-15257） - 云容器引擎 CCE

节点干扰ContainerdSock检查异常处理 - 云容器引擎 CCE

公平调度（DRF） - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线