搜索_华为云

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

Volcano是一款构建于Kubernetes之上的增强型高性能计算任务批量处理系统。作为一个面向高性能计算场景的平台，它弥补了Kubernetes在机器学习、深度学习、HPC、大数据计算等场景下的基本能力缺失，其中包括gang-schedule的调度能力、计算任务队列管理、task-topology

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
调度算法 - 云容器引擎 CCE
调度算法 - 云容器引擎 CCE

在离线业务混部是将多种应用在一个集群内部署，通过预测分析应用特性，实现业务对集群资源的充分利用；参数名取值范围默认值是否允许修改作用范围 colocation-enable true/false false 允许 CCE Turbo 从集群维度来看，混部是将多种应用在一个集群内部署，通过预测分析应用特性，

帮助中心 > 云容器引擎 CCE > 配置参考 > 集群
什么是云容器引擎 - 云容器引擎 CCE

根据业务需求和策略，经济地自动调整弹性计算资源的管理服务。服务治理：深度集成应用服务网格，提供开箱即用的应用服务网格流量治理能力，用户无需修改代码，即可实现灰度发布、流量治理和流量监控能力。容器运维：深度集成容器智能分析，可实时监控应用及资源，支持采集、管理、分析日志，采集各项指标及事件并提供一键开启的告警能力。

帮助中心 > 云容器引擎 CCE > 产品介绍
Volcano调度器 - 云容器引擎 CCE
Volcano调度器 - 云容器引擎 CCE

Volcano调度器插件简介 Volcano是一个基于Kubernetes的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性。 Volcano提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管

 帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 容器调度与弹性插件
高性能调度 - 云容器引擎 CCE
高性能调度 - 云容器引擎 CCE

方便灵活地进行定制化开发。应用场景4：高精度资源调度 Volcano 在支持AI，大数据等作业的时候提供了高精度的资源调度策略，例如在深度学习场景下计算效率非常重要。以TensorFlow计算为例，配置“ps”和“worker”之间的亲和性，以及“ps”与“ps”之间的反亲和性

 帮助中心 > 云容器引擎 CCE > 产品介绍 > 应用场景
弹性伸缩概述 - 云容器引擎 CCE

就需要为集群增加节点，从而保证业务能够正常提供服务。弹性伸缩在CCE上的使用场景非常广泛，典型的场景包含在线业务弹性、大规模计算训练、深度学习GPU或共享GPU的训练与推理、定时周期性负载变化等。 CCE弹性伸缩 CCE的弹性伸缩能力分为如下两个维度：工作负载弹性伸缩：即调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 弹性伸缩
Volcano调度器 - 云容器引擎 CCE
Volcano调度器 - 云容器引擎 CCE

Volcano调度器插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。字段说明表1 参数描述参数是否必选参数类型描述 basic

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
GPU视图 - 云容器引擎 CCE
GPU视图 - 云容器引擎 CCE

显卡上容器显存使用总量 GPU卡-算力使用率百分比每张GPU卡的算力使用率计算公式：显卡上容器算力使用总量/显卡的算力总量 GPU卡-温度摄氏度每张GPU卡的温度 GPU-显存频率赫兹每张GPU卡的显存频率 GPU卡-PCle带宽字节/秒每张GPU卡的PCle带宽指标清单 GPU视图使用的指标清单如下：

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
云服务器事件处理建议 - 云容器引擎 CCE

在云容器引擎CCE中，您可以采用弹性云服务器ECS实例作为Node节点来构建高可用的Kubernetes集群。在日常运维中，华为云会对ECS实例所在底层宿主机的软硬件故障进行预测和主动规避。当宿主机上的故障风险无法规避时，为避免因ECS实例的资源可用性或性能受损对您的业务造成更大的影响，系统会对受影响的ECS实例

 帮助中心 > 云容器引擎 CCE > 用户指南 > 节点 > 节点运维
Volcano调度概述 - 云容器引擎 CCE

Volcano调度概述 Volcano是一个基于Kubernetes的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性，提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 Volcano

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度
单部门视角的成本洞察 - 云容器引擎 CCE

环比去年：（本年至今成本 - 去年同期成本）/ 去年同期成本年末预测成本（去年同期、环比去年）年度年末预测成本：当前部门到本年年末预计产生的总成本开销去年同期：当前部门去年整年产生的成本环比去年：（年末预测成本 - 去年同期成本）/ 去年同期成本本季至今成本（上季度同期、环比上季度）

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生成本治理 > 成本洞察
秒级弹性伸缩 - 云容器引擎 CCE

秒级弹性伸缩应用场景电商客户遇到促销、限时抢购等活动期间，访问量激增，需及时、自动扩展云计算资源。视频直播客户业务负载变化难以预测，需要根据CPU/内存使用率进行实时扩缩容。游戏客户每天中午12点及晚上18:00-23:00间需求增长，需要定时扩容。价值云容器引擎可根

 帮助中心 > 云容器引擎 CCE > 产品介绍 > 应用场景
创建AHPA策略 - 云容器引擎 CCE
创建AHPA策略 - 云容器引擎 CCE

PA策略即Advanced Horizontal Pod Autoscaling，可根据业务历史指标，识别工作负载弹性周期并对未来波动进行预测，提前进行扩缩容动作，解决原生HPA的滞后问题。功能介绍 AHPA通过对工作负载的历史指标进行监控，以周为维度进行建模，因此对具有明显周期性的工作负载具有更佳效果。

帮助中心 > 云容器引擎 CCE > 用户指南 > 弹性伸缩 > 工作负载弹性伸缩
云原生网络2.0模型说明 - 云容器引擎 CCE

云原生网络2.0模型说明云原生网络2.0模型云原生网络2.0是自研的新一代容器网络模型，深度整合了虚拟私有云VPC的弹性网卡（Elastic Network Interface，简称ENI）和辅助弹性网卡（Sub Network Interface，简称Sub-ENI）的能力

 帮助中心 > 云容器引擎 CCE > 用户指南 > 网络 > 容器网络 > 云原生网络2.0模型
按需计费 - 云容器引擎 CCE
按需计费 - 云容器引擎 CCE

按需计费是一种先使用再付费的计费模式，适用于资源需求灵活的用户。本文将介绍云容器引擎中购买按需计费资源的计费规则。适用场景按需计费适用于短期突增或不可预测的应用或服务，例如电商抢购、临时测试、科学计算。适用计费项使用云容器引擎CCE时，表1中的计费项支持从CCE控制台选择计费模式（包年/

帮助中心 > 云容器引擎 CCE > 计费说明 > 计费模式
发布概述 - 云容器引擎 CCE
发布概述 - 云容器引擎 CCE

版本，并下线老版本。切分20%的流量到新版本后，新版本出现异常，则快速将流量切回老版本。蓝绿发布提供了一种零宕机的部署方式，是一种以可预测的方式发布应用的技术，目的是减少发布过程中服务停止的时间。在保留老版本的同时部署新版本，将两个版本同时在线，新版本和老版本相互热备，通过切

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 发布
使用ASM实现灰度发布和蓝绿发布 - 云容器引擎 CCE

使用ASM实现灰度发布和蓝绿发布应用服务网格（Application Service Mesh，简称ASM）是基于开源Istio推出的服务网格平台，它深度、无缝对接了企业级Kubernetes集群服务云容器引擎（CCE），在易用性、可靠性、可视化等方面进行了一系列增强，可为客户提供开箱即用的上手体验。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 发布
云原生监控插件兼容自建Prometheus - 云容器引擎 CCE

云原生监控插件兼容自建Prometheus 云原生监控插件兼容模式若您已自建Prometheus，且您的Prometheus基于开源，未做深度定制、未与您的监控系统深度整合，建议您卸载自建Prometheus并直接使用云原生监控插件对您的集群进行监控，无需开启“兼容模式”。卸载您自建的Pro

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 云原生观测最佳实践
修改CCE集群配置 - 云容器引擎 CCE

修改CCE集群配置操作场景 CCE支持对集群配置参数进行管理，通过该功能您可以对核心组件进行深度配置。操作步骤登录CCE控制台，在左侧导航栏中选择“集群管理”。找到目标集群，查看集群的更多操作，并选择“配置管理”。图1 配置管理在侧边栏滑出的“配置管理”窗口中，根据业

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 管理集群
使用dcgm-exporter监控GPU指标 - 云容器引擎 CCE

表示帧缓存已使用数，该值与nvidia-smi命令中memory-usage的已使用值对应表3 温度及功率指标指标名称指标类型单位说明 DCGM_FI_DEV_GPU_TEMP Gauge 摄氏度设备的当前GPU温度读数 DCGM_FI_DEV_POWER_USAGE Gauge W 设备的电源使用情况

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 监控

总条数： 64

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

调度算法 - 云容器引擎 CCE

什么是云容器引擎 - 云容器引擎 CCE

Volcano调度器 - 云容器引擎 CCE

高性能调度 - 云容器引擎 CCE

弹性伸缩概述 - 云容器引擎 CCE

Volcano调度器 - 云容器引擎 CCE

GPU视图 - 云容器引擎 CCE

云服务器事件处理建议 - 云容器引擎 CCE

Volcano调度概述 - 云容器引擎 CCE

单部门视角的成本洞察 - 云容器引擎 CCE

秒级弹性伸缩 - 云容器引擎 CCE

创建AHPA策略 - 云容器引擎 CCE

云原生网络2.0模型说明 - 云容器引擎 CCE

按需计费 - 云容器引擎 CCE

发布概述 - 云容器引擎 CCE

使用ASM实现灰度发布和蓝绿发布 - 云容器引擎 CCE

云原生监控插件兼容自建Prometheus - 云容器引擎 CCE

修改CCE集群配置 - 云容器引擎 CCE

使用dcgm-exporter监控GPU指标 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线