检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Tensorflow训练 Kubeflow部署成功后,使用ps-worker的模式来进行Tensorflow训练就变得非常容易。本节介绍一个Kubeflow官方的Tensorflow训练范例,您可参考TensorFlow Training (TFJob)获取更详细的信息。 创建MNIST示例
Kubeflow的诞生背景 基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,
调度能力如智能调度的支持,在推理场景增加GPU Share等特性的支持,进一步提升kubeflow批量训练和推理的效率。 实现典型分布式AI训练任务 下面将展示如何基于Kubeflow和Volcano,并使用MNIST数据集轻松的完成数字图像分类模型的分布式训练。 登录CCE控制台,单击集群名称进入一个集群。
集群网络模型选择及各模型区别 自研高性能商业版容器网络插件,支持容器隧道网络、VPC网络、云原生网络2.0网络模型: 集群创建成功后,网络模型不可更改,请谨慎选择。 容器隧道网络(Overlay):基于底层VPC网络构建了独立的VXLAN隧道化容器网络,适用于一般场景。VXLAN
VPC网络模型说明 VPC网络模型 VPC网络模型将虚拟私有云VPC的路由方式与底层网络深度整合,适用于高性能场景,但节点数量受限于虚拟私有云VPC的路由配额。在VPC网络模型中,容器网段独立于节点网段进行单独设置。在容器IP地址分配时,集群中的每个节点会被分配固定大小的容器IP地
容器网络模型对比 容器网络为集群内Pod分配IP地址并提供网络服务,CCE支持如下几种网络模型,您可在创建集群时进行选择。 云原生网络2.0 VPC网络 容器隧道网络 网络模型对比 表1主要介绍CCE所支持的网络模型,您可根据实际业务需求进行选择。 集群创建成功后,网络模型不可更改,请谨慎选择。
Request和Used的资源,应该根据哪个来估算成本,进行计算Pod的费用,Pod的CPU、内存使用量等资源指标是动态变化的,如何做到准确的估算? 在计算成本时的Pod使用量取值为Pod申请量(Request)和实际使用量(used)中的最大值。基于普罗监控数据,可以清晰识别分钟级别的应用资源,进行成本计算。
VPC网络模型 VPC网络模型说明 扩展集群容器网段 父主题: 容器网络
容器隧道网络 在容器隧道模型的集群中,节点内Pod间通信和跨节点Pod间通信路径不同: 节点内Pod间通信:同节点的Pod间通信通过本节点的OVS网桥直接转发。 跨节点Pod间通信:所有跨节点Pod间的通信通过OVS隧道网桥进行封装后,通过主机网卡转发到另一个节点上的Pod。 优缺点 优点
ECS节点上绑定的总网卡数:用于承载辅助弹性网卡的弹性网卡数+当前Pod使用的辅助弹性网卡数+预热的辅助弹性网卡数。 BMS节点上绑定的网卡数:当前Pod使用的弹性网卡数+预热的弹性网卡数。 Pod创建时,优先从节点的预热网卡池中随机分配一个可用的网卡。 Pod删除时,网卡释放回节点的预热网卡池。 节点删除时,将
容器隧道网络模型 容器隧道网络模型说明 父主题: 容器网络
云原生网络2.0模型 云原生网络2.0模型说明 为CCE Turbo集群配置默认容器子网 使用注解为Pod绑定安全组 使用安全组策略为工作负载绑定安全组 使用容器网络配置为命名空间/工作负载绑定子网及安全组 为Pod配置固定IP 为Pod配置EIP 为Pod配置固定EIP 为IPv6双栈网卡的Pod配置共享带宽
在实际业务中,经常会遇到将集群稀缺资源分配给多个用户的情况,每个用户获得资源的权利都相同,但是需求数却可能不同,如何公平的将资源分配给每个用户是一项非常有意义的事情。调度层面有一种常用的方法为最大最小化公平分配算法(max-min fairness share),尽量满足用户中的最小的需求,然后将剩余的资源公平分配给剩下的用户。形式化定义如下:
l or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,主要应用于AI、大数据等多任务协作场景。启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。
如果Pod对应的IPv6双栈网卡加入共享带宽失败,Pod上会有Event告警事件FailedIPv6InsertBandwidth(如超过配额,触发流控等),请根据告警事件进行相应的处理。 弹性公网IP控制台中的“共享带宽”页面,单击共享带宽详情下的“IPv6网卡”页签,可以
CCE AI套件(Ascend NPU) 插件介绍 CCE AI套件(Ascend NPU)是支持容器里使用NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic
请直接修改对应的StatefulSet工作负载spec.template字段下的annotations配置。 当固定IP的Pod重建调度时,如果待调度的节点上没有剩余的网卡配额(预绑定的网卡会占用节点的网卡配额),固定IP的网卡会尝试抢占预绑定的网卡,此时固定IP的Pod启动会略
CCE AI套件(Ascend NPU) 插件简介 CCE AI套件(Ascend NPU)是支持容器里使用huawei NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 约束与限制 集群中使用“AI加速型”节点时必须安装CCE
扩展集群容器网段 操作场景 当创建CCE集群时设置的容器网段太小,无法满足业务扩容需求时,您通过扩展集群容器网段的方法来解决。本文介绍如何为集群添加容器网段。 约束与限制 仅支持v1.19及以上版本的“VPC网络”模型集群。 容器网段添加后无法删除,请谨慎操作。 为CCE Standard集群添加容器网段
CIDR)”中取消选择需要删除的容器子网,单击“确定”。 删除容器子网属高危操作,请确保当前集群中没有已经使用待删除子网的网卡,包含Pod正在使用和集群预热的网卡。 您可以复制需要删除的子网ID,在弹性网卡页面的“弹性网卡”和“辅助弹性网卡”列表中,通过子网ID进行筛选,如果筛选出的网卡“名称”或