搜索_华为云

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

度方面还有很多的不足。主要存在以下问题：资源争抢问题 TensorFlow的作业包含Ps和Worker两种不同的角色，这两种角色的Pod要配合起来完成整个作业，如果只是运行一种角色Pod，整个作业是无法正常执行的，而默认调度器对于Pod调度是逐个进行的，对于Kubeflow作业

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
Volcano调度器 - 云容器引擎 CCE
Volcano调度器 - 云容器引擎 CCE

Volcano调度器插件简介 Volcano是一个基于Kubernetes的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性。 Volcano提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管

 帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 容器调度与弹性插件
Volcano调度器 - 云容器引擎 CCE
Volcano调度器 - 云容器引擎 CCE

Volcano调度器插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。字段说明表1 参数描述参数是否必选参数类型描述 basic

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
集群网络模型选择及各模型区别 - 云容器引擎 CCE

于另外两种容器网络模式，性能存在一定的损耗（约5%-15%）。所以容器隧道网络适用于对性能要求不是特别高的业务场景，比如：Web应用、访问量不大的数据中台、后台服务等。大规模组网：相比VPC路由网络受限于VPC路由条目配额的限制，容器隧道网络没有网络基础设施的任何限制；同时容器

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 网络
Kubeflow部署 - 云容器引擎 CCE
Kubeflow部署 - 云容器引擎 CCE

当前最流行的机器学习软件。目前Kubeflow 1.0版本已经发布，包含开发、构建、训练、部署四个环节，可全面支持企业用户的机器学习、深度学习完整使用过程。如下图所示：通过Kubeflow 1.0，用户可以使用Jupyter开发模型，然后使用fairing（SDK）等工具构

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
集群成本管理最佳实践 - 云容器引擎 CCE

一般适用于设备需求量长期稳定的成熟业务。按需计费一种后付费模式，即先使用再付费，按照云服务器实际使用时长计费，秒级计费，按小时结算。按需计费模式允许您根据实际业务需求灵活地调整资源使用，无需提前预置资源，从而降低预置过多或不足的风险。一般适用于电商抢购等设备需求量瞬间大幅波动的场景。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 集群
Volcano调度概述 - 云容器引擎 CCE

Volcano调度概述 Volcano是一个基于Kubernetes的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性，提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 Volcano

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度
节点规格说明 - 云容器引擎 CCE

Core 深度学习加速云桌面、图像渲染、3D可视化、重载图形设计。 CCE Standard集群计算加速型 P2s NVIDIA V100 5120 14TFLOPS 单精度浮点计算 7TFLOPS 双精度浮点计算 112TFLOPS Tensor Core 深度学习加速 AI

帮助中心 > 云容器引擎 CCE > 用户指南 > 节点
目标集群资源规划 - 云容器引擎 CCE

高并发的海量计算场景。P系列适合于深度学习，科学计算，CAE等；G系列适合于3D动画渲染，CAD等。仅支持1.11及以上版本集群添加GPU加速型节点。高性能计算型：实例提供具有更稳定、超高性能计算性能的实例，可以用于超高性能计算能力、高吞吐量的工作负载场景，例如科学计算。通用

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 迁移 > 将K8s集群迁移到CCE
高性能调度 - 云容器引擎 CCE
高性能调度 - 云容器引擎 CCE

申请大量的冗余资源，因此，会导致资源利用率很低、浪费比较严重。将这些申请而未使用的资源（即申请量与使用量的差值）利用起来，就是资源超卖。超卖资源适合部署离线作业，离线作业通常关注吞吐量，SLA要求不高，容忍一定的失败。在线作业和离线作业混合部署在Kubernetes集群中将有效的提升集群整体资源利用率。

帮助中心 > 云容器引擎 CCE > 产品介绍 > 应用场景
调度概述 - 云容器引擎 CCE
调度概述 - 云容器引擎 CCE

多虚拟化成20个GPU虚拟设备。相对于静态分配来说，虚拟化的方案更加灵活，最大程度保证业务稳定的前提下，可以完全由用户自己定义使用的GPU量，提高GPU利用率。 GPU虚拟化 NPU调度 CCE为集群中的NPU异构资源提供调度能力，实现快速高效地处理推理和图像识别等工作。功能描述

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度
Kubernetes - 云容器引擎 CCE
Kubernetes - 云容器引擎 CCE

Kubernetes提供PVC专门用于持久化存储的申请，PVC可以让您无需关心底层存储资源如何创建、释放等动作，而只需要申明您需要何种类型的存储资源、多大的存储空间。搭建Kubernetes集群 Kubernetes网站上有多种搭建Kubernetes集群的方法，例如minikube、kubeadm等。

帮助中心 > 云容器引擎 CCE > Kubernetes基础知识 > 容器与Kubernetes
什么是云容器引擎 - 云容器引擎 CCE

什么是云容器引擎云容器引擎（Cloud Container Engine，简称CCE）是一个企业级的Kubernetes集群托管服务，支持容器化应用的全生命周期管理，为您提供高度可扩展的、高性能的云原生应用部署和管理方案。为什么选择云容器引擎云容器引擎深度整合高性能的计算（

帮助中心 > 云容器引擎 CCE > 产品介绍
调度配置 - 云容器引擎 CCE
调度配置 - 云容器引擎 CCE

应用于大批量提交AI训练和大数据作业场景。DRF调度算法优先考虑集群中业务的吞吐量，适用单次AI训练、单次大数据计算以及查询等批处理小业务场景。启用公平调度（DRF）后，可增强集群业务的吞吐量，提高业务运行性能。详情请参见公平调度（DRF）。组调度（Gang） Gang调度策略满足了调度过程中的“All

帮助中心 > 云容器引擎 CCE > 用户指南 > 配置中心
弹性伸缩概述 - 云容器引擎 CCE

就需要为集群增加节点，从而保证业务能够正常提供服务。弹性伸缩在CCE上的使用场景非常广泛，典型的场景包含在线业务弹性、大规模计算训练、深度学习GPU或共享GPU的训练与推理、定时周期性负载变化等。 CCE弹性伸缩 CCE的弹性伸缩能力分为如下两个维度：工作负载弹性伸缩：即调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 弹性伸缩
Prometheus Server视图 - 云容器引擎 CCE

用于并行发送到远程存储的队列中每个分片的容量 prometheus_remote_storage_pending_samples Gauge 要发送到远程存储的队列分片中挂起的样本数 prometheus_tsdb_wal_segment_current Gauge TSDB当前正在写入的WAL段索引

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
组调度（Gang） - 云容器引擎 CCE

右侧选择“调度配置”页签。在“AI任务性能增强调度”配置中，选择是否开启“组调度 (Gang) ”。启用该能力后，可增强集群业务的吞吐量，提高业务运行性能。修改完成后，单击“确认配置”。配置完成后，可以在工作负载或Volcano Job中使用Gang调度能力。创建工作负载使用Gang调度能力

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度 > AI任务性能增强调度
视频帮助 - 云容器引擎 CCE
视频帮助 - 云容器引擎 CCE

None 服务介绍云容器引擎 CCE 三分钟带你了解云容器引擎CCE 03:03 三分钟了解云容器引擎CCE 云容器引擎 CCE 探索云容器的编排与调度技术 03:19 探索云容器的编排与调度技术特性讲解 CCE Autopilot集群介绍CCE Autopilot集群 10:36

帮助中心 > 云容器引擎 CCE > 视频帮助
公平调度（DRF） - 云容器引擎 CCE

1和Job 2分别为两个工作负载，其请求的资源量如图所示，通过DRF计算之后，Job 1的主资源为Memory，对应的Share值为0.4，Job 2的主资源为CPU，对应的Share值为0.5，根据Share值对比，Job 1的资源请求量小于Job 2，按照最大最小公平算法分配策略，Job

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度 > AI任务性能增强调度
功能总览 - 云容器引擎 CCE
功能总览 - 云容器引擎 CCE

CCE Standard集群、CCE Turbo集群支持 CCE基于Volcano调度器提供多元算力资源调度及任务调度的能力，面向机器学习、深度学习、生物信息学、基因组学及其他大数据应用场景提供完整的应用调度特性。 CCE支持CPU资源调度、GPU/NPU异构资源调度、在离线作业混合部署、CPU

帮助中心 > 云容器引擎 CCE > 功能总览

总条数： 41

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

Volcano调度器 - 云容器引擎 CCE

Volcano调度器 - 云容器引擎 CCE

集群网络模型选择及各模型区别 - 云容器引擎 CCE

Kubeflow部署 - 云容器引擎 CCE

集群成本管理最佳实践 - 云容器引擎 CCE

Volcano调度概述 - 云容器引擎 CCE

节点规格说明 - 云容器引擎 CCE

目标集群资源规划 - 云容器引擎 CCE

高性能调度 - 云容器引擎 CCE

调度概述 - 云容器引擎 CCE

Kubernetes - 云容器引擎 CCE

什么是云容器引擎 - 云容器引擎 CCE

调度配置 - 云容器引擎 CCE

弹性伸缩概述 - 云容器引擎 CCE

Prometheus Server视图 - 云容器引擎 CCE

组调度（Gang） - 云容器引擎 CCE

视频帮助 - 云容器引擎 CCE

公平调度（DRF） - 云容器引擎 CCE

功能总览 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线