检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
(停止维护)Kubernetes 1.11版本说明 云容器引擎(CCE)严格遵循社区一致性认证。本文介绍CCE发布Kubernetes 1.11版本所做的变更说明。 表1 v1.11版本集群说明 Kubernetes版本(CCE增强版) 版本说明 v1.11.7-r2 主要特性: GPU支持V100类型 集群支持权限管理
目是基于容器和Kubernetes构建,旨在为数据科学家、机器学习工程师、系统运维人员提供面向机器学习业务的敏捷部署、开发、训练、发布和管理平台。它利用了云原生技术的优势,让用户更快速、方便地部署、使用和管理当前最流行的机器学习软件。 目前Kubeflow 1.0版本已经发布,包
器规格。 GPU配额(可选) 当集群中包含GPU节点时,才能设置GPU配额,且集群中需安装CCE AI套件(NVIDIA GPU)插件。 不限制:表示不使用GPU。 独享:单个容器独享GPU。 共享:容器需要使用的GPU百分比,例如设置为10%,表示该容器需使用GPU资源的10%。
CSI和Flexvolume存储插件的区别 表1 CSI与Flexvolume Kubernetes插件方案 CCE插件名称 插件特性 使用推荐 CSI everest CSI插件是kubernetes社区推荐的存储插件机制。CCE发布的kubernetes1.15版本及以上版
21 v1.23 v1.25 volcano agent支持资源超卖。 添加针对GPU资源字段的校验admission:nvidia.com/gpu应小于1或者为正整数,volcano.sh/gpu-core.percentage应小于100并为5的倍数。 修复存在PVC绑定失败的场景下,后续提交Pod调度慢的问题。
器规格。 GPU配额(可选) 当集群中包含GPU节点时,才能设置GPU配额,且集群中需安装CCE AI套件(NVIDIA GPU)插件。 不限制:表示不使用GPU。 独享:单个容器独享GPU。 共享:容器需要使用的GPU百分比,例如设置为10%,表示该容器需使用GPU资源的10%。
Service的详细介绍请参见服务概述。 Ingress Service是基于四层TCP和UDP协议转发的,而Ingress可以基于七层的HTTP和HTTPS协议转发,可以通过域名和路径做到更细粒度的划分,如下图所示。 图2 Ingress-Service Ingress的详细介绍请参见路由概述。
120 15 2/0.4 40 2 KVM GPU加速型 GPU加速型云服务器(GPU Accelerated Cloud Server,GACS)能够提供强大的浮点计算能力,从容应对高实时、高并发的海量计算场景。 GPU加速型云服务器包括G系列和P系列两类。其中: G系列:图形加速型
etes 调度器和调度策略。 为什么Pod数量在节点上分布不均匀 资源需求:不同节点的资源配置可能不同,例如CPU、内存大小,导致Pod中定义的Request值无法被满足。即使节点实际负载很低,也无法调度到该节点。 自定义调度策略:Pod可能根据自定义的亲和性和反亲和性策略进行调度,导致Pod在节点上分布不均匀。
Kubernetes同步社区1.9.2版本 集群节点支持CentOS 7.1操作系统 支持GPU节点,支持GPU资源限制 支持web-terminal插件 v1.7.3-r13 主要特性: 新建集群的Docker版本升级到1706 支持DNS级联 支持插件化管理 增强PVC和PV事件的上报机制 裸金属场景支持对接OBS对象存储
Kubernetes同步社区1.9.2版本 集群节点支持CentOS 7.1操作系统 支持GPU节点,支持GPU资源限制 支持web-terminal插件 v1.7.3-r13 主要特性: 新建集群的Docker版本升级到1706 支持DNS级联 支持插件化管理 增强PVC和PV事件的上报机制 裸金属场景支持对接OBS对象存储
Turbo 集群显示名,用于在 CCE 界面显示,该名称创建后可修改 配置建议: 按照集群资源归属(如一般集群还是GPU集群)、应用场景(测试集群还是生产集群)等维度命名,方便区分和管理 计费模式 包年包月是预付费模式,按订单的购买周期计费,适用于可预估资源使用周期的场景,价格比按需计费模式更优惠。
27.14 v1.27 修复多规格情况下无法缩容和非预期PreferNoSchedule污点问题 1.27.1 1.27.11 v1.27 - 1.27.1 1.27.7 v1.27 适配CCE v1.27集群 优化异构设备(GPU/NPU)识别方法 1.27.1 表5 v1.25集群配套插件版本记录
kubectl delete -f tf-mnist.yaml 使用GPU训练 TFJob可在GPU场景下进行,该场景需要集群中包含GPU节点,并安装合适的驱动。 在TFJob中指定GPU资源。 创建tf-gpu.yaml文件,示例如下: 该示例的主要功能是基于Tensorflo
什么是云原生网络2.0网络模式,适用于什么场景? 云原生网络2.0是什么 云原生网络2.0是新一代容器网络模型,深度整合了虚拟私有云VPC的原生弹性网卡(Elastic Network Interface,简称ENI)能力,采用VPC网段分配容器地址,支持ELB直通容器,享有高性能。
score为Memory资源得分,Memory.weight为Memory权重 GPU.score为GPU资源得分,GPU.weight为GPU权重 图1 Binpack策略示例 如图所示,集群中存在两个节点,分别为Node 1和Node 2,在调度Pod时,Binpack策略对两个节点分别打分。
空闲节点:资源利用率低于30%的节点。 CPU和内存资源碎片率整理策略(HighNodeUtilization) 从分配率低的节点上驱逐Pod。这个策略必须与Volcano调度器的binpack策略或者kube-scheduler调度器的MostAllocated策略一起使用。阈值可以分为CPU和内存两种资源角度进行配置。
6-CCE Turbo集群容器网络走线介绍 CCE集群中容器出网总结 GPU&AI相关 基于Nvidia xid进行GPU故障定位 CCE中GPU虚拟化的使用 Kubernetes场景下基于Nvidia GPU-operator实现图形渲染能力 Java应用容器化相关 Java业
NUMA对齐的Pod。 best-effort:kubelet会优先选择在 CPU 和设备资源上实现NUMA对齐的Pod。 none(默认):不启用拓扑管理策略。 single-numa-node:kubelet仅允许在 CPU和设备资源上对齐到同一NUMA节点的Pod。 默认:none 须知:
显的。 虚拟GPU资源调度 支持GPU虚拟化资源调度。 参数名 取值范围 默认值 是否允许修改 作用范围 xGPU true/false true 允许 CCE Standard/CCE Turbo 支持GPU单卡算力、显存分割与隔离的调度能力 配置建议: 使用GPU的场景默认开启,不使用GPU资源可以选择关闭