搜索_华为云

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

PU Share等特性的支持，进一步提升kubeflow批量训练和推理的效率。实现典型分布式AI训练任务下面将展示如何基于Kubeflow和Volcano，并使用MNIST数据集轻松的完成数字图像分类模型的分布式训练。登录CCE控制台，单击集群名称进入一个集群。在CCE集群上部署Volcano环境。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
集群网络模型选择及各模型区别 - 云容器引擎 CCE

集群网络模型选择及各模型区别自研高性能商业版容器网络插件，支持容器隧道网络、VPC网络、云原生网络2.0网络模型：集群创建成功后，网络模型不可更改，请谨慎选择。容器隧道网络（Overlay）：基于底层VPC网络构建了独立的VXLAN隧道化容器网络，适用于一般场景。VXLAN

帮助中心 > 云容器引擎 CCE > 最佳实践 > 网络
Tensorflow训练 - 云容器引擎 CCE
Tensorflow训练 - 云容器引擎 CCE

该示例的主要功能是基于Tensorflow的分布式架构，利用卷积神经网络（CNN）中的ResNet50模型对随机生成的图像进行训练，每次训练32张图像（batch_size），共训练100次（step），记录每次训练过程中的性能（image/sec）。 apiVersion: "kubeflow.org/v1"

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
成本计算模型 - 云容器引擎 CCE

使用量等资源指标是动态变化的，如何做到准确的估算？在计算成本时的Pod使用量取值为Pod申请量（Request）和实际使用量（used）中的最大值。基于普罗监控数据，可以清晰识别分钟级别的应用资源，进行成本计算。节点中没有被分配的空闲成本，是如何处理的？节点中的空闲成本不会

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生成本治理 > 成本洞察
Kubeflow部署 - 云容器引擎 CCE
Kubeflow部署 - 云容器引擎 CCE

基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程，它需要处理很多个环节。如图1所示，除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲，如果要做模型训练，就不得不搭建一套AI计算平台，这个过程耗时费力，而且需要很多的知识积累。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
容器网络模型对比 - 云容器引擎 CCE

容器网络模型对比容器网络为集群内Pod分配IP地址并提供网络服务，CCE支持如下几种网络模型，您可在创建集群时进行选择。云原生网络2.0 VPC网络容器隧道网络网络模型对比表1主要介绍CCE所支持的网络模型，您可根据实际业务需求进行选择。集群创建成功后，网络模型不可更改，请谨慎选择。

帮助中心 > 云容器引擎 CCE > 用户指南 > 网络 > 容器网络
VPC网络模型说明 - 云容器引擎 CCE

VPC网络模型说明 VPC网络模型 VPC网络模型将虚拟私有云VPC的路由方式与底层网络深度整合，适用于高性能场景，但节点数量受限于虚拟私有云VPC的路由配额。在VPC网络模型中，容器网段独立于节点网段进行单独设置。在容器IP地址分配时，集群中的每个节点会被分配固定大小的容器IP

帮助中心 > 云容器引擎 CCE > 用户指南 > 网络 > 容器网络 > VPC网络模型
VPC网络模型 - 云容器引擎 CCE
VPC网络模型 - 云容器引擎 CCE

VPC网络模型 VPC网络模型说明扩展集群容器网段父主题：容器网络

 帮助中心 > 云容器引擎 CCE > 用户指南 > 网络 > 容器网络
云原生网络2.0模型 - 云容器引擎 CCE

云原生网络2.0模型云原生网络2.0模型说明为CCE Turbo集群配置默认容器子网使用注解为Pod绑定安全组使用安全组策略为工作负载绑定安全组使用容器网络配置为命名空间/工作负载绑定子网及安全组为Pod配置固定IP 为Pod配置EIP 为Pod配置固定EIP 为IPv6双栈网卡的Pod配置共享带宽

 帮助中心 > 云容器引擎 CCE > 用户指南 > 网络 > 容器网络
云原生网络2.0模型说明 - 云容器引擎 CCE

绑定弹性公网IP等特性。由于不需要使用容器隧道封装和NAT地址转换，云原生网络2.0模型与容器隧道网络模型和VPC网络模型相比具有比较高的网络性能。图1 云原生网络2.0 在云原生网络2.0模型的集群中，Pod依赖弹性网卡/辅助弹性网卡对外进行网络通信：裸金属节点上运行的Pod使用ENI网卡。

帮助中心 > 云容器引擎 CCE > 用户指南 > 网络 > 容器网络 > 云原生网络2.0模型
容器隧道网络模型 - 云容器引擎 CCE

容器隧道网络模型容器隧道网络模型说明父主题：容器网络

 帮助中心 > 云容器引擎 CCE > 用户指南 > 网络 > 容器网络
容器隧道网络模型说明 - 云容器引擎 CCE

容器隧道网络模型说明容器隧道网络模型容器隧道网络是在主机网络平面的基础上，通过隧道封装技术来构建一个独立的容器网络平面。CCE集群容器隧道网络使用了VXLAN作为隧道封装协议，并使用了Open vSwitch作为后端虚拟交换机。VXLAN是一种将以太网报文封装成UDP报文进行隧道传输的协议，而Open

帮助中心 > 云容器引擎 CCE > 用户指南 > 网络 > 容器网络 > 容器隧道网络模型
扩展集群容器网段 - 云容器引擎 CCE

当创建CCE集群时设置的容器网段太小，无法满足业务扩容需求时，您通过扩展集群容器网段的方法来解决。本文介绍如何为集群添加容器网段。约束与限制仅支持v1.19及以上版本的“VPC网络”模型集群。容器网段添加后无法删除，请谨慎操作。为CCE Standard集群添加容器网段登录CC

帮助中心 > 云容器引擎 CCE > 用户指南 > 网络 > 容器网络 > VPC网络模型
组调度（Gang） - 云容器引擎 CCE

or nothing”的调度需求，避免Pod的任意调度导致集群资源的浪费，主要应用于AI、大数据等多任务协作场景。启用该能力后，可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题，大幅度提升整体训练性能。前提条件已创建v1.19及以上版本的集群，详情请参见购买Standard/Turbo集群。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度 > AI任务性能增强调度
为IPv6双栈网卡的Pod配置共享带宽 - 云容器引擎 CCE

最长30秒删除状态后进行IPv6双栈网卡移出共享带宽。如果Pod对应的IPv6双栈网卡加入共享带宽失败，Pod上会有Event告警事件FailedIPv6InsertBandwidth（如超过配额，触发流控等），请根据告警事件进行相应的处理。弹性公网IP控制台中的“共享带宽”

帮助中心 > 云容器引擎 CCE > 用户指南 > 网络 > 容器网络 > 云原生网络2.0模型
为Pod配置EIP - 云容器引擎 CCE
为Pod配置EIP - 云容器引擎 CCE

您可以尝试为Pod配置init container并使用downwardAPI类型的存储卷把yangtse.io/allocated-ipv4-eip的annotation通过volume挂载到init container里，并在init container中检查EIP是否已经分配成功。您可以参考以下示例配置init

帮助中心 > 云容器引擎 CCE > 用户指南 > 网络 > 容器网络 > 云原生网络2.0模型
为Pod配置固定IP - 云容器引擎 CCE

yangtse.io/static-ip-expire-duration: 5m spec: containers: - name: container-0 image: nginx:alpine resources:

帮助中心 > 云容器引擎 CCE > 用户指南 > 网络 > 容器网络 > 云原生网络2.0模型
为CCE Turbo集群配置默认容器子网 - 云容器引擎 CCE

Turbo集群配置默认容器子网操作场景当创建CCE Turbo集群时设置的容器子网太小，无法满足业务扩容需求时，您通过扩展集群容器子网的方法来解决。本文介绍如何为CCE Turbo集群添加容器子网。约束与限制仅支持v1.19及以上版本的CCE Turbo集群。为CCE Turbo集群添加默认容器子网

 帮助中心 > 云容器引擎 CCE > 用户指南 > 网络 > 容器网络 > 云原生网络2.0模型
为Pod配置固定EIP - 云容器引擎 CCE

io/eip-charge-mode: bandwidth # EIP计费模式 spec: containers: - name: container-0 image: nginx:alpine resources:

帮助中心 > 云容器引擎 CCE > 用户指南 > 网络 > 容器网络 > 云原生网络2.0模型
公平调度（DRF） - 云容器引擎 CCE

公平调度（DRF） DRF（Dominant Resource Fairness）是主资源公平调度策略，应用于大批量提交AI训练和大数据作业的场景，可增强集群业务的吞吐量，整体缩短业务执行时间，提高训练性能。前提条件已创建v1.19及以上版本的集群，详情请参见购买Standard/Turbo集群。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度 > AI任务性能增强调度

总条数： 788

上一页
1
2
3
4
5
...
40
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

集群网络模型选择及各模型区别 - 云容器引擎 CCE

Tensorflow训练 - 云容器引擎 CCE

成本计算模型 - 云容器引擎 CCE

Kubeflow部署 - 云容器引擎 CCE

容器网络模型对比 - 云容器引擎 CCE

VPC网络模型说明 - 云容器引擎 CCE

VPC网络模型 - 云容器引擎 CCE

云原生网络2.0模型 - 云容器引擎 CCE

云原生网络2.0模型说明 - 云容器引擎 CCE

容器隧道网络模型 - 云容器引擎 CCE

容器隧道网络模型说明 - 云容器引擎 CCE

扩展集群容器网段 - 云容器引擎 CCE

组调度（Gang） - 云容器引擎 CCE

为IPv6双栈网卡的Pod配置共享带宽 - 云容器引擎 CCE

为Pod配置EIP - 云容器引擎 CCE

为Pod配置固定IP - 云容器引擎 CCE

为CCE Turbo集群配置默认容器子网 - 云容器引擎 CCE

为Pod配置固定EIP - 云容器引擎 CCE

公平调度（DRF） - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线