检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
系统插件多可用区部署 自动弹性伸缩 日志监控告警 集群Master节点多可用区 华为云支持多区域(Region),每个区域下又有不同的可用区(AZ,Availability Zone)。可用区是一个或多个物理数据中心的集合,有独立的风火水电。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。
表示按照Job的minAvailable进行抢占。 false:表示按照Job的replicas进行抢占。 说明: Kubernetes原生工作负载(如Deployment)的minAvailable默认值为1,建议配置enableJobStarving: false。 AI大数据场景,创建
什么是云容器引擎 云容器引擎(Cloud Container Engine,简称CCE)是一个企业级的Kubernetes集群托管服务,支持容器化应用的全生命周期管理,为您提供高度可扩展的、高性能的云原生应用部署和管理方案。 为什么选择云容器引擎 云容器引擎深度整合高性能的计算(
服务器。 如果云服务器有多块数据盘,需要选择其中一块作为供容器运行时和Kubelet组件使用。 容器引擎 CCE支持Docker和Containerd容器引擎,不同的集群类型、集群版本、操作系统可能导致支持的容器引擎类型不同,请根据控制台呈现进行选择。具体场景请参见节点操作系统与容器引擎对应关系。
kind: Pod metadata: name: nginx spec: containers: - image: nginx:alpine name: container-0 resources: limits: cpu:
6-r0、v1.28.4-r0及以上时,Docker和containerd均支持自定义Pod容器空间。 EulerOS 2.10 弹性云服务器-物理机使用Device Mapper Rootfs为Device Mapper且容器引擎为containerd时支持自定义Pod容器空间,默认值为10G。
对应Corefile内容如下: .:5353 { bind {$POD_IP} cache 30 { servfail 5s } errors health {$POD_IP}:8080 kubernetes cluster
r.service containerd节点:/usr/lib/systemd/system/containerd.service Ubuntu系统: docker节点:/lib/systemd/system/docker.service containerd节点:/lib/sy
新创建的节点池,仅按照默认规格创建节点,当默认规格资源不足时,会导致节点创建失败。 节点池创建后,已存在节点的规格不可删除。 容器引擎 CCE支持Docker和Containerd容器引擎,不同的集群类型、集群版本、操作系统可能导致支持的容器引擎类型不同,请根据控制台呈现进行选择。具体场景请参见节点操作系统与容器引擎对应关系。
xxxxx写入数据,Pod通常会出现以下类似事件: Message: Pod Update Plugin resources failed due to failed to write checkpoint file "kubelet_internal_checkpoint": open
Containerd节点业务容器标准输出日志写入过快导致节点数据盘使用率过高 问题现象 Containerd节点上业务容器标准输出不断写入大量日志,导致/var/lib/containerd目录占用空间不断增长,同时节点上容器创删速度变慢,进一步出现磁盘使用率过高、Pod驱逐、节点异常等现象。
metadata: labels: app: nginx spec: containers: - name: container-1 image: nginx:latest imagePullPolicy:
222.254:8080”。 图3 Kubernetes Cloud details填写示例 Pod Templates:单击“Add Pod Template > Pod Template details”,填写Pod模板参数。 配置Pod模板基本参数:参数配置如图4所示。 Name:jenkins-agent
CCE AI套件(NVIDIA GPU) 插件简介 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 约束与限制 下载的驱动必须是后缀为“.run”的文件。 仅支持Nvidia Tesla驱动,不支持GRID驱动。
除运维人员以外,其他人员(例如数据科学家、AI算法工程师等)也能通过相关监控指标了解业务的GPU使用情况,以便进行容量规划和任务调度。 新一代NVIDIA支持使用数据中心GPU管理器(DCGM)来管理大规模集群中的GPU。CCE AI套件(NVIDIA GPU)插件(版本2.7
否则,不执行。 基于容器组概念的Gang调度算法十分适合需要多进程协作的场景。AI场景往往包含复杂的流程,Data Ingestion、Data Analysts、Data Splitting、Trainer、Serving、Logging等,需要一组容器进行协同工作,就很适合基
container_path 否 String 容器里用于挂载Hiai library的路径 默认值:"/usr/local/HiAI_unused" host_path 否 String 主机上包含Hiai library的路径 默认值:"/usr/local/HiAI_unused"
数据保护技术 CCE通过多种数据保护手段和特性,保障数据的安全可靠。 表1 CCE的数据保护手段和特性 数据保护手段 简要说明 详细介绍 服务发现支持证书配置 CCE集群中的应用服务支持使用HTTPS传输协议,保证数据传输的安全性,您可以根据需求创建四层或七层的访问方式来对接负载均衡器。
公平调度(DRF) DRF(Dominant Resource Fairness)是主资源公平调度策略,应用于大批量提交AI训练和大数据作业的场景,可增强集群业务的吞吐量,整体缩短业务执行时间,提高训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。
hello.txt && echo goodbye > goodbye.txt container: container-0 onError: Fail timeout: 30s post: - exec: