搜索_华为云

Tensorflow训练 - 云容器引擎 CCE
Tensorflow训练 - 云容器引擎 CCE

Tensorflow训练 Kubeflow部署成功后，使用ps-worker的模式来进行Tensorflow训练就变得非常容易。本节介绍一个Kubeflow官方的Tensorflow训练范例，您可参考TensorFlow Training (TFJob)获取更详细的信息。创建MNIST示例

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

使用Kubeflow和Volcano实现典型AI训练任务 Kubernetes已经成为云原生应用编排、管理的事实标准，越来越多的应用选择向Kubernetes迁移。人工智能和机器学习领域天然的包含大量的计算密集型任务，开发者非常愿意基于Kubernetes构建AI平台，充分利用Kubernete

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
通过CCE搭建IPv4/IPv6双栈集群 - 云容器引擎 CCE

通过CCE搭建IPv4/IPv6双栈集群本教程将指引您搭建一个IPv6网段的VPC，并在VPC中创建一个带有IPv6地址的集群和节点，使节点可以访问Internet上的IPv6服务。简介 IPv6的使用，可以有效弥补IPv4网络地址资源有限的问题。如果当前集群中的工作节点（如

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 集群
Kubeflow部署 - 云容器引擎 CCE
Kubeflow部署 - 云容器引擎 CCE

基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程，它需要处理很多个环节。如图1所示，除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲，如果要做模型训练，就不得不搭建一套AI计算平台，这个过程耗时费力，而且需要很多的知识积累。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
CCE AI套件（Ascend NPU） - 云容器引擎 CCE

CCE AI套件（Ascend NPU）插件简介 CCE AI套件（Ascend NPU）是支持容器里使用huawei NPU设备的管理插件。安装本插件后，可创建“AI加速型”节点，实现快速高效地处理推理和图像识别等工作。约束与限制集群中使用“AI加速型”节点时必须安装CCE

帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生异构计算插件
CCE AI套件（Ascend NPU） - 云容器引擎 CCE

container_path 否 String 容器里用于挂载Hiai library的路径默认值："/usr/local/HiAI_unused" host_path 否 String 主机上包含Hiai library的路径默认值："/usr/local/HiAI_unused"

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
使用本地临时卷 - 云容器引擎 CCE

如果您需要通过命令行创建，需要使用kubectl连接到集群，详情请参见通过kubectl连接集群。如需使用本地临时卷，您需要将一块节点数据盘导入本地临时卷存储池，详情请参见在存储池中导入临时卷。约束与限制本地临时卷仅在集群版本 >= v1.21.2-r0 时支持，且需要everest插件版本>=1.2.29。

帮助中心 > 云容器引擎 CCE > 用户指南 > 存储 > 临时存储卷（EmptyDir）
CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）插件介绍 CCE AI套件（NVIDIA GPU）插件是支持在容器中使用GPU显卡的设备管理插件，集群中使用GPU节点时必须安装本插件。字段说明表1 参数描述参数是否必选参数类型描述 basic 是 object 插件基础配置参数。

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）插件简介 CCE AI套件（NVIDIA GPU）插件是支持在容器中使用GPU显卡的设备管理插件，集群中使用GPU节点时必须安装本插件。约束与限制下载的驱动必须是后缀为“.run”的文件。仅支持Nvidia Tesla驱动，不支持GRID驱动。

帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生异构计算插件
通过动态存储卷使用本地持久卷 - 云容器引擎 CCE

通过动态存储卷使用本地持久卷前提条件您已经创建好一个集群，并且在该集群中安装CSI插件（everest）。如果您需要通过命令行创建，需要使用kubectl连接到集群，详情请参见通过kubectl连接集群。您已经将一块节点数据盘导入本地持久卷存储池，详情请参见在存储池中导入持久卷。

帮助中心 > 云容器引擎 CCE > 用户指南 > 存储 > 本地持久卷（Local PV）
搭建Jenkins和Gitlab环境 - 云容器引擎 CCE

'http://**.**.**.**' //宿主机外部IP，如EIP gitlab_rails['gitlab_ssh_host'] = '**.**.**.**' //宿主机外部IP，如EIP gitlab_rails['gitlab_shell_ssh_port'] = 222 //此端

 帮助中心 > 云容器引擎 CCE > 最佳实践 > DevOps > 使用Jenkins和Gitlab实现多集群隔离的DevOps流程 > 实施步骤
AI任务性能增强调度 - 云容器引擎 CCE

AI任务性能增强调度公平调度（DRF）组调度（Gang）父主题： Volcano调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度
CCE AI套件（Ascend NPU）版本发布记录 - 云容器引擎 CCE

CCE AI套件（Ascend NPU）版本发布记录表1 CCE AI套件（Ascend NPU）插件版本记录插件版本支持的集群版本更新特性 2.1.46 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 v1.31 支持CCE v1.31集群

 帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 插件版本发布记录
CCE AI套件（NVIDIA GPU）版本发布记录 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）版本发布记录表1 CCE AI套件（NVIDIA GPU）版本记录插件版本支持的集群版本更新特性 2.7.42 v1.28 v1.29 v1.30 v1.31 新增NVIDIA 535.216.03驱动，支持XGPU特性 2.7.41

帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 插件版本发布记录
在有状态负载中动态挂载本地持久卷 - 云容器引擎 CCE

在有状态负载中动态挂载本地持久卷使用场景动态挂载仅可在创建有状态负载（StatefulSet）时使用，通过卷声明模板（volumeClaimTemplates字段）实现，并依赖于StorageClass的动态创建PV能力。在多实例的有状态负载中，动态挂载可以为每一个Pod关联

 帮助中心 > 云容器引擎 CCE > 用户指南 > 存储 > 本地持久卷（Local PV）
本地持久卷概述 - 云容器引擎 CCE

本地持久卷概述本地持久卷介绍 CCE支持使用LVM将节点上的数据卷组成存储池（VolumeGroup），然后划分LV给容器挂载使用。使用本地持久卷作为存储介质的PV的类型可称之为Local PV。与HostPath卷相比，本地持久卷能够以持久和可移植的方式使用，而且本地持久卷

 帮助中心 > 云容器引擎 CCE > 用户指南 > 存储 > 本地持久卷（Local PV）
Container配置 - 云容器引擎 CCE
Container配置 - 云容器引擎 CCE

Container配置容器名称参数名取值范围默认值是否允许修改作用范围 name 无无允许 - 镜像名称参数名取值范围默认值是否允许修改作用范围 image 无无允许 - 更新策略参数名取值范围默认值是否允许修改作用范围 imagePullPolicy

帮助中心 > 云容器引擎 CCE > 配置参考 > Pod
公平调度（DRF） - 云容器引擎 CCE

公平调度（DRF） DRF（Dominant Resource Fairness）是主资源公平调度策略，应用于大批量提交AI训练和大数据作业的场景，可增强集群业务的吞吐量，整体缩短业务执行时间，提高训练性能。前提条件已创建v1.19及以上版本的集群，详情请参见购买Standard/Turbo集群。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度 > AI任务性能增强调度
组调度（Gang） - 云容器引擎 CCE

or nothing”的调度需求，避免Pod的任意调度导致集群资源的浪费，主要应用于AI、大数据等多任务协作场景。启用该能力后，可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题，大幅度提升整体训练性能。前提条件已创建v1.19及以上版本的集群，详情请参见购买Standard/Turbo集群。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度 > AI任务性能增强调度
Containerd Pod重启风险检查异常处理 - 云容器引擎 CCE

Containerd Pod重启风险检查异常处理检查项内容检查当前集群内使用containerd的节点在升级containerd组件时，节点上运行的业务容器是否可能发生重启，造成业务影响。解决方案检测到您的节点上的containerd服务存在重启风险；请确保在业务影响可控

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查

总条数： 707

上一页
1
2
3
4
5
...
36
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Tensorflow训练 - 云容器引擎 CCE

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

通过CCE搭建IPv4/IPv6双栈集群 - 云容器引擎 CCE

Kubeflow部署 - 云容器引擎 CCE

CCE AI套件（Ascend NPU） - 云容器引擎 CCE

CCE AI套件（Ascend NPU） - 云容器引擎 CCE

使用本地临时卷 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

通过动态存储卷使用本地持久卷 - 云容器引擎 CCE

搭建Jenkins和Gitlab环境 - 云容器引擎 CCE

AI任务性能增强调度 - 云容器引擎 CCE

CCE AI套件（Ascend NPU）版本发布记录 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）版本发布记录 - 云容器引擎 CCE

在有状态负载中动态挂载本地持久卷 - 云容器引擎 CCE

本地持久卷概述 - 云容器引擎 CCE

Container配置 - 云容器引擎 CCE

公平调度（DRF） - 云容器引擎 CCE

组调度（Gang） - 云容器引擎 CCE

Containerd Pod重启风险检查异常处理 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线