搜索_华为云

Tensorflow训练 - 云容器引擎 CCE
Tensorflow训练 - 云容器引擎 CCE

Tensorflow训练 Kubeflow部署成功后，使用ps-worker的模式来进行Tensorflow训练就变得非常容易。本节介绍一个Kubeflow官方的Tensorflow训练范例，您可参考TensorFlow Training (TFJob)获取更详细的信息。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

人工智能和机器学习领域天然的包含大量的计算密集型任务，开发者非常愿意基于Kubernetes构建AI平台，充分利用Kubernetes提供的资源管理、应用编排、运维监控能力。 Kubernetes存在的问题 Kubeflow在调度环境使用的是Kubernetes的默认调度器。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
Kubeflow部署 - 云容器引擎 CCE
Kubeflow部署 - 云容器引擎 CCE

对于一个AI算法工程师来讲，如果要做模型训练，就不得不搭建一套AI计算平台，这个过程耗时费力，而且需要很多的知识积累。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
组调度（Gang） - 云容器引擎 CCE

组调度（Gang）组调度（Gang）满足了调度过程中“All or nothing”的调度需求，避免Pod的任意调度导致集群资源的浪费，主要应用于AI、大数据等多任务协作场景。启用该能力后，可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题，大幅度提升整体训练性能。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度 > AI任务性能增强调度
弹性伸缩概述 - 云容器引擎 CCE

弹性伸缩在CCE上的使用场景非常广泛，典型的场景包含在线业务弹性、大规模计算训练、深度学习GPU或共享GPU的训练与推理、定时周期性负载变化等。 CCE弹性伸缩 CCE的弹性伸缩能力分为如下两个维度：工作负载弹性伸缩：即调度层弹性，主要是负责修改负载的调度容量变化。

帮助中心 > 云容器引擎 CCE > 用户指南 > 弹性伸缩
使用HPA+CA实现工作负载和节点联动弹性伸缩 - 云容器引擎 CCE

- name: container-1 image: 'hpa-example:latest' # 替换为您上传到SWR的镜像地址 resources: limits: # limits

帮助中心 > 云容器引擎 CCE > 最佳实践 > 弹性伸缩
集群成本管理最佳实践 - 云容器引擎 CCE

公平调度（DRF） DRF（Dominant Resource Fairness）是主资源公平调度策略，应用于大批量提交AI训练和大数据作业的场景，可增强集群业务的吞吐量，整体缩短业务执行时间，提高训练性能。详情请参见公平调度（DRF）。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 集群
调度配置 - 云容器引擎 CCE
调度配置 - 云容器引擎 CCE

启用该能力后，可使用使用NPU资源运行AI训练作业，调度器提供NPU拓扑感知调度能力，提高训练作业执行效率。父主题：配置中心

 帮助中心 > 云容器引擎 CCE > 用户指南 > 配置中心
Volcano调度器 - 云容器引擎 CCE
Volcano调度器 - 云容器引擎 CCE

AI大数据场景，创建vcjob时可指定minAvailable值，推荐配置enableJobStarving: true。 Volcano 1.11.5之前的版本enableJobStarving默认为true，1.11.5之后的版本默认配置为false。

帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 容器调度与弹性插件
使用kubectl部署带文件存储卷的有状态工作负载 - 云容器引擎 CCE

spec.template.spec.volumes.persistentVolumeClaim claimName 已有PVC名称。

帮助中心 > 云容器引擎 CCE > 用户指南 > 存储管理-Flexvolume（已弃用） > 文件存储卷
在CCE集群中部署使用Kubeflow - 云容器引擎 CCE

在CCE集群中部署使用Kubeflow Kubeflow部署 Tensorflow训练使用Kubeflow和Volcano实现典型AI训练任务父主题：批量计算

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算
云容器引擎-成长地图 - 云容器引擎 CCE

将自建K8S集群迁移到CCE Jenkins安装部署及对接SWR和CCE集群使用Kubeflow和Volcano实现典型AI训练任务 kubeflow华为云CCE虚机搭建运行分布式tf报告通过CCE搭建IPv4/IPv6双栈集群 CCE集群的网络地址段规划实践使用subpath

帮助中心 > 云容器引擎 CCE > 成长地图
公平调度（DRF） - 云容器引擎 CCE

公平调度（DRF） DRF（Dominant Resource Fairness）是主资源公平调度策略，应用于大批量提交AI训练和大数据作业的场景，可增强集群业务的吞吐量，整体缩短业务执行时间，提高训练性能。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度 > AI任务性能增强调度
工作负载概述 - 云容器引擎 CCE

一个Pod封装一个或多个容器（Container）、存储资源（Volume）、一个独立的网络IP以及管理控制容器运行方式的策略选项。 Pod使用主要分为两种方式： Pod中运行一个容器。

帮助中心 > 云容器引擎 CCE > 用户指南 > 工作负载
工作负载异常：实例无法写入数据 - 云容器引擎 CCE

kubectl drain <node-name> 等待Pod调度到其他节点后，排查文件系统异常的原因，并进行恢复或规避。执行以下命令，取消节点不可调度标记。

帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 工作负载异常问题排查
在CCE集群中使用工作负载Identity的安全配置建议 - 云容器引擎 CCE

- name: container-1 image: nginx:latest volumeMounts: - mountPath: "/var/run/secrets/tokens" # 将Kubernetes

帮助中心 > 云容器引擎 CCE > 最佳实践 > 安全
功能总览 - 云容器引擎 CCE
功能总览 - 云容器引擎 CCE

每个节点都包含运行Pod所需要的基本组件，包括 Kubelet、Kube-proxy 、Container Runtime等。在云容器引擎CCE中，主要采用高性能的弹性云服务器ECS或裸金属服务器BMS作为节点来构建高可用的Kubernetes集群。

帮助中心 > 云容器引擎 CCE > 功能总览
使用image-migrator将镜像迁移至SWR - 云容器引擎 CCE

Images(38) migration finished, 0 images tasks failed, 0 tasks generate failed 结果查看。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 迁移 > 容器镜像迁移
节点规格说明 - 云容器引擎 CCE

CCE Standard集群计算加速型 P2s NVIDIA V100 5120 14TFLOPS 单精度浮点计算 7TFLOPS 双精度浮点计算 112TFLOPS Tensor Core 深度学习加速 AI深度学习训练、科学计算、计算流体动力学、计算金融、地震分析、分子建模、

帮助中心 > 云容器引擎 CCE > 用户指南 > 节点
为负载均衡类型的Service配置pass-through能力 - 云容器引擎 CCE

- image: nginx:latest name: container-0 resources: limits: cpu: 100m memory: 200Mi

帮助中心 > 云容器引擎 CCE > 最佳实践 > 网络

总条数： 622

上一页
1
2
3
4
5
...
32
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Tensorflow训练 - 云容器引擎 CCE

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

Kubeflow部署 - 云容器引擎 CCE

组调度（Gang） - 云容器引擎 CCE

弹性伸缩概述 - 云容器引擎 CCE

使用HPA+CA实现工作负载和节点联动弹性伸缩 - 云容器引擎 CCE

集群成本管理最佳实践 - 云容器引擎 CCE

调度配置 - 云容器引擎 CCE

Volcano调度器 - 云容器引擎 CCE

使用kubectl部署带文件存储卷的有状态工作负载 - 云容器引擎 CCE

在CCE集群中部署使用Kubeflow - 云容器引擎 CCE

云容器引擎-成长地图 - 云容器引擎 CCE

公平调度（DRF） - 云容器引擎 CCE

工作负载概述 - 云容器引擎 CCE

工作负载异常：实例无法写入数据 - 云容器引擎 CCE

在CCE集群中使用工作负载Identity的安全配置建议 - 云容器引擎 CCE

功能总览 - 云容器引擎 CCE

使用image-migrator将镜像迁移至SWR - 云容器引擎 CCE

节点规格说明 - 云容器引擎 CCE

为负载均衡类型的Service配置pass-through能力 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线