搜索_华为云

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

Volcano是一款构建于Kubernetes之上的增强型高性能计算任务批量处理系统。作为一个面向高性能计算场景的平台，它弥补了Kubernetes在机器学习、深度学习、HPC、大数据计算等场景下的基本能力缺失，其中包括gang-schedule的调度能力、计算任务队列管理、task-topology和

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
Volcano调度器 - 云容器引擎 CCE
Volcano调度器 - 云容器引擎 CCE

Volcano调度器插件简介 Volcano是一个基于Kubernetes的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性。 Volcano提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管

 帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 容器调度与弹性插件
调度概述 - 云容器引擎 CCE
调度概述 - 云容器引擎 CCE

为工作负载提供NPU资源。 NPU调度 Volcano调度 Volcano是一个基于Kubernetes的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性，提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度
Volcano调度器 - 云容器引擎 CCE
Volcano调度器 - 云容器引擎 CCE

Volcano调度器插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。字段说明表1 参数描述参数是否必选参数类型描述 basic

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
Volcano调度概述 - 云容器引擎 CCE

Volcano调度概述 Volcano是一个基于Kubernetes的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性，提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 Volcano

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度
Kubeflow部署 - 云容器引擎 CCE
Kubeflow部署 - 云容器引擎 CCE

当前最流行的机器学习软件。目前Kubeflow 1.0版本已经发布，包含开发、构建、训练、部署四个环节，可全面支持企业用户的机器学习、深度学习完整使用过程。如下图所示：通过Kubeflow 1.0，用户可以使用Jupyter开发模型，然后使用fairing（SDK）等工具构

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
高性能调度 - 云容器引擎 CCE
高性能调度 - 云容器引擎 CCE

方便灵活地进行定制化开发。应用场景4：高精度资源调度 Volcano 在支持AI，大数据等作业的时候提供了高精度的资源调度策略，例如在深度学习场景下计算效率非常重要。以TensorFlow计算为例，配置“ps”和“worker”之间的亲和性，以及“ps”与“ps”之间的反亲和性

 帮助中心 > 云容器引擎 CCE > 产品介绍 > 应用场景
工作负载异常：OOM问题 - 云容器引擎 CCE

单击集群名称进入集群，在左侧选择“工作负载”。单击工作负载操作列的“监控”，即可查看Pod的CPU、内存、网络I/O等监控大盘。通过Pod内存监控查看内存增长曲线，确定异常出现时间。根据监控、内存增长时间点、日志、进程名等信息，排查Pod内对应进程是否存在内存泄漏。若OOM是进程内存泄漏导致，请您自行排查泄露原因。

帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 工作负载异常问题排查
什么是云容器引擎 - 云容器引擎 CCE

什么是云容器引擎云容器引擎（Cloud Container Engine，简称CCE）是一个企业级的Kubernetes集群托管服务，支持容器化应用的全生命周期管理，为您提供高度可扩展的、高性能的云原生应用部署和管理方案。为什么选择云容器引擎云容器引擎深度整合高性能的计算（

帮助中心 > 云容器引擎 CCE > 产品介绍
使用ASM实现灰度发布和蓝绿发布 - 云容器引擎 CCE

使用ASM实现灰度发布和蓝绿发布应用服务网格（Application Service Mesh，简称ASM）是基于开源Istio推出的服务网格平台，它深度、无缝对接了企业级Kubernetes集群服务云容器引擎（CCE），在易用性、可靠性、可视化等方面进行了一系列增强，可为客户提供开箱即用的上手体验。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 发布
弹性伸缩概述 - 云容器引擎 CCE

就需要为集群增加节点，从而保证业务能够正常提供服务。弹性伸缩在CCE上的使用场景非常广泛，典型的场景包含在线业务弹性、大规模计算训练、深度学习GPU或共享GPU的训练与推理、定时周期性负载变化等。 CCE弹性伸缩 CCE的弹性伸缩能力分为如下两个维度：工作负载弹性伸缩：即调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 弹性伸缩
监控中心概述 - 云容器引擎 CCE

事件的指标展示，全面监控集群的健康状态和负荷程度。仪表盘：仪表盘可将不同图表汇聚到同一个屏幕上，通过不同的仪表形式来展示资源数据，例如，曲线图、数字图等，进而全面、深入地掌握监控数据。优势监控中心深度整合云原生基金会（CNCF）的监控项目Prometheus。对关键指标、事

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心
节点异常问题排查 - 云容器引擎 CCE

memory。可能会导致系统OOM异常，当出现系统OOM异常时，节点事件中可看到关键字Syetem OOM。解决方案通过节点的监控查看内存增长曲线，确认异常出现时间点，检查节点上的进程是否存在内存泄露现象。具体操作请参见检查节点监控。降低节点上的负载。如需重启节点，可在ECS界面

 帮助中心 > 云容器引擎 CCE > 常见问题 > 节点
目标集群资源规划 - 云容器引擎 CCE

务器、开发、测试环境以及中低性能数据库等场景。 GPU加速型：提供优秀的浮点计算能力，从容应对高实时、高并发的海量计算场景。P系列适合于深度学习，科学计算，CAE等；G系列适合于3D动画渲染，CAD等。仅支持1.11及以上版本集群添加GPU加速型节点。高性能计算型：实例提供具有

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 迁移 > 将K8s集群迁移到CCE
云原生监控插件兼容自建Prometheus - 云容器引擎 CCE

云原生监控插件兼容自建Prometheus 云原生监控插件兼容模式若您已自建Prometheus，且您的Prometheus基于开源，未做深度定制、未与您的监控系统深度整合，建议您卸载自建Prometheus并直接使用云原生监控插件对您的集群进行监控，无需开启“兼容模式”。卸

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 云原生观测最佳实践
节点规格说明 - 云容器引擎 CCE

Core 深度学习加速云桌面、图像渲染、3D可视化、重载图形设计。 CCE Standard集群计算加速型 P2s NVIDIA V100 5120 14TFLOPS 单精度浮点计算 7TFLOPS 双精度浮点计算 112TFLOPS Tensor Core 深度学习加速 AI

帮助中心 > 云容器引擎 CCE > 用户指南 > 节点
发布概述 - 云容器引擎 CCE
发布概述 - 云容器引擎 CCE

集群需要安装nginx-ingress插件，存在资源消耗 ASM 商用场景无需修改应用的服务代码，非侵入式治理界面可视化，灰度发布或蓝绿发布过程中的流量变化可通过拓扑图、曲线图等直观查看可配置的灰度策略更全面，包括基于流量比例、基于请求内容（Header、Cookie、操作系统、浏览器）需要为集群启用Istio，占用额外资源

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 发布
存储概述 - 云容器引擎 CCE
存储概述 - 云容器引擎 CCE

存储概述存储概览 CCE的容器存储功能基于Kubernetes容器存储接口（CSI）实现，深度融合多种类型的云存储并全面覆盖不同的应用场景，而且完全兼容Kubernetes原生的存储服务，例如EmptyDir、HostPath、Secret、ConfigMap等存储类型。图1

帮助中心 > 云容器引擎 CCE > 用户指南 > 存储
功能总览 - 云容器引擎 CCE
功能总览 - 云容器引擎 CCE

CCE Standard集群、CCE Turbo集群支持 CCE基于Volcano调度器提供多元算力资源调度及任务调度的能力，面向机器学习、深度学习、生物信息学、基因组学及其他大数据应用场景提供完整的应用调度特性。 CCE支持CPU资源调度、GPU/NPU异构资源调度、在离线作业混合部署、CPU

帮助中心 > 云容器引擎 CCE > 功能总览
修改CCE集群配置 - 云容器引擎 CCE

修改CCE集群配置操作场景 CCE支持对集群配置参数进行管理，通过该功能您可以对核心组件进行深度配置。操作步骤登录CCE控制台，在左侧导航栏中选择“集群管理”。找到目标集群，查看集群的更多操作，并选择“配置管理”。图1 配置管理在侧边栏滑出的“配置管理”窗口中，根据业

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 管理集群

总条数： 50

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

Volcano调度器 - 云容器引擎 CCE

调度概述 - 云容器引擎 CCE

Volcano调度器 - 云容器引擎 CCE

Volcano调度概述 - 云容器引擎 CCE

Kubeflow部署 - 云容器引擎 CCE

高性能调度 - 云容器引擎 CCE

工作负载异常：OOM问题 - 云容器引擎 CCE

什么是云容器引擎 - 云容器引擎 CCE

使用ASM实现灰度发布和蓝绿发布 - 云容器引擎 CCE

弹性伸缩概述 - 云容器引擎 CCE

监控中心概述 - 云容器引擎 CCE

节点异常问题排查 - 云容器引擎 CCE

目标集群资源规划 - 云容器引擎 CCE

云原生监控插件兼容自建Prometheus - 云容器引擎 CCE

节点规格说明 - 云容器引擎 CCE

发布概述 - 云容器引擎 CCE

存储概述 - 云容器引擎 CCE

功能总览 - 云容器引擎 CCE

修改CCE集群配置 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线