搜索_华为云

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

人工智能和机器学习领域天然的包含大量的计算密集型任务，开发者非常愿意基于Kubernetes构建AI平台，充分利用Kubernetes提供的资源管理、应用编排、运维监控能力。 Kubernetes存在的问题 Kubeflow在调度环境使用的是Kubernetes的默认调度器。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
AI任务性能增强调度 - 云容器引擎 CCE

AI任务性能增强调度公平调度（DRF）组调度（Gang）父主题： Volcano调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度
CCE AI套件（Ascend NPU）版本发布记录 - 云容器引擎 CCE

CCE AI套件（Ascend NPU）版本发布记录表1 CCE AI套件（Ascend NPU）插件版本记录插件版本支持的集群版本更新特性 2.1.23 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 修复部分问题 2.1.22 v1.21

帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 插件版本发布记录
CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）插件介绍 CCE AI套件（NVIDIA GPU）插件是支持在容器中使用GPU显卡的设备管理插件，集群中使用GPU节点时必须安装本插件。

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）插件简介 CCE AI套件（NVIDIA GPU）插件是支持在容器中使用GPU显卡的设备管理插件，集群中使用GPU节点时必须安装本插件。约束与限制下载的驱动必须是后缀为“.run”的文件。

帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生异构计算插件
CCE AI套件（NVIDIA GPU）版本发布记录 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）版本发布记录表1 CCE AI套件（NVIDIA GPU）版本记录插件版本支持的集群版本更新特性 2.7.19 v1.28 v1.29 v1.30 修复nvidia-container-toolkit CVE-2024-0132容器逃逸漏洞

 帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 插件版本发布记录
CCE AI套件（Ascend NPU） - 云容器引擎 CCE

CCE AI套件（Ascend NPU）插件介绍 CCE AI套件（Ascend NPU）是支持容器里使用NPU设备的管理插件。安装本插件后，可创建“AI加速型”节点，实现快速高效地处理推理和图像识别等工作。

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
CCE AI套件（Ascend NPU） - 云容器引擎 CCE

约束与限制集群中使用“AI加速型”节点时必须安装CCE AI套件（Ascend NPU）插件。

帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生异构计算插件
Container配置 - 云容器引擎 CCE
Container配置 - 云容器引擎 CCE

初始延迟之前的就绪态的状态值默认为 Failure。如果容器不提供就绪态探针，则默认状态为 Success。启动探针参数名取值范围默认值是否允许修改作用范围 StartupProbe 无无允许 - 指示容器中的应用是否已经启动。

帮助中心 > 云容器引擎 CCE > 配置参考 > Pod
NVIDIA Container Toolkit容器逃逸漏洞公告（CVE-2024-0132） - 云容器引擎 CCE

如果CCE AI套件（NVIDIA GPU）插件版本大于等于2.0.0，请登录GPU节点执行以下命令： nvidia-container-runtime --version 若显示无此命令，则不涉及该漏洞。

帮助中心 > 云容器引擎 CCE > 服务公告 > 漏洞公告
组调度（Gang） - 云容器引擎 CCE

父主题： AI任务性能增强调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度 > AI任务性能增强调度
将节点容器引擎从Docker迁移到Containerd - 云容器引擎 CCE

Containerd不具备镜像构建功能，请勿在Containerd节点上使用Docker Build功能构建镜像。Docker和Containerd其他差异请参考容器引擎说明。默认节点池中的节点迁移步骤登录CCE控制台，单击集群名称进入集群。

帮助中心 > 云容器引擎 CCE > 用户指南 > 节点 > 节点运维
Containerd Pod重启风险检查异常处理 - 云容器引擎 CCE

Containerd Pod重启风险检查异常处理检查项内容检查当前集群内使用containerd的节点在升级containerd组件时，节点上运行的业务容器是否可能发生重启，造成业务影响。

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
Apache containerd安全漏洞公告（CVE-2020-15257） - 云容器引擎 CCE

相关链接 containerd-shim API exposed to host network containers 父主题：漏洞公告

 帮助中心 > 云容器引擎 CCE > 服务公告 > 漏洞公告
containerd镜像Volume非安全处理漏洞公告（CVE-2022-23648） - 云容器引擎 CCE

该漏洞影响范围如下：使用containerd作为Kubernetes CRI运行时，且使用了未知来源的恶意镜像。使用docker作为CRI时不涉及该漏洞。 containerd版本号小于1.4.1-96。

帮助中心 > 云容器引擎 CCE > 服务公告 > 漏洞公告
containerd容器进程权限提升漏洞公告（CVE-2022-24769） - 云容器引擎 CCE

containerd容器进程权限提升漏洞公告（CVE-2022-24769）漏洞详情 containerd开源社区中披露了一个安全漏洞，在containerd创建容器的场景，非root容器进程的初始inheritalbe capability不为空，可能会造成在execve执行可执行文件时提升到允许的

 帮助中心 > 云容器引擎 CCE > 服务公告 > 漏洞公告
公平调度（DRF） - 云容器引擎 CCE

公平调度（DRF） DRF（Dominant Resource Fairness）是主资源公平调度策略，应用于大批量提交AI训练和大数据作业的场景，可增强集群业务的吞吐量，整体缩短业务执行时间，提高训练性能。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度 > AI任务性能增强调度
节点干扰ContainerdSock检查异常处理 - 云容器引擎 CCE

执行stat /run/containerd/containerd.sock命令，若发现存在该文件则会导致docker启动失败。执行rm -rf /run/containerd/containerd.sock命令，然后重新进行集群升级检查。父主题：升级前检查异常问题排查

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
创建或升级实例失败，提示rendered manifests contain a resource that already exists - 云容器引擎 CCE

创建或升级实例失败，提示rendered manifests contain a resource that already exists 问题现象创建或升级实例失败，提示“Create release by helm failed:rendered manifests contain

帮助中心 > 云容器引擎 CCE > 常见问题 > 模板插件
Containerd节点业务容器标准输出日志写入过快导致节点数据盘使用率过高 - 云容器引擎 CCE

Containerd节点业务容器标准输出日志写入过快导致节点数据盘使用率过高问题现象 Containerd节点上业务容器标准输出不断写入大量日志，导致/var/lib/containerd目录占用空间不断增长，同时节点上容器创删速度变慢，进一步出现磁盘使用率过高、Pod驱逐、节点异常等现象

 帮助中心 > 云容器引擎 CCE > 常见问题 > 节点 > 节点运行

总条数： 623

上一页
1
2
3
4
5
...
32
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

AI任务性能增强调度 - 云容器引擎 CCE

CCE AI套件（Ascend NPU）版本发布记录 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）版本发布记录 - 云容器引擎 CCE

CCE AI套件（Ascend NPU） - 云容器引擎 CCE

CCE AI套件（Ascend NPU） - 云容器引擎 CCE

Container配置 - 云容器引擎 CCE

NVIDIA Container Toolkit容器逃逸漏洞公告（CVE-2024-0132） - 云容器引擎 CCE

组调度（Gang） - 云容器引擎 CCE

将节点容器引擎从Docker迁移到Containerd - 云容器引擎 CCE

Containerd Pod重启风险检查异常处理 - 云容器引擎 CCE

Apache containerd安全漏洞公告（CVE-2020-15257） - 云容器引擎 CCE

containerd镜像Volume非安全处理漏洞公告（CVE-2022-23648） - 云容器引擎 CCE

containerd容器进程权限提升漏洞公告（CVE-2022-24769） - 云容器引擎 CCE

公平调度（DRF） - 云容器引擎 CCE

节点干扰ContainerdSock检查异常处理 - 云容器引擎 CCE

创建或升级实例失败，提示rendered manifests contain a resource that already exists - 云容器引擎 CCE

Containerd节点业务容器标准输出日志写入过快导致节点数据盘使用率过高 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线