检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
价值 面向AI计算的容器服务,采用高性能GPU计算实例,并支持多容器共享GPU资源,在AI计算性能上比通用方案提升3~5倍以上,并大幅降低了AI计算的成本,同时帮助数据工程师在集群上轻松部署计算应用,您无需关心复杂的部署运维,专注核心业务,快速实现从0到1快速上线。
初始延迟之前的就绪态的状态值默认为 Failure。 如果容器不提供就绪态探针,则默认状态为 Success。 启动探针 参数名 取值范围 默认值 是否允许修改 作用范围 StartupProbe 无 无 允许 - 指示容器中的应用是否已经启动。
queue设置部分capability情况下Pod无法调度问题 支持volcano组件日志时间与系统时间保持一致 修复队列间多抢占问题 修复ioaware插件在某些极端场景下结果不符合预期的问题 支持混合集群 1.2.3 v1.15 v1.17 v1.19 修复因为精度不够引发的训练任务
配置建议: DRF调度算法优先考虑集群中业务的吞吐量,适用单次AI训练、单次大数据计算以及查询等批处理小业务场景。 组调度 将一组Pod看做一个整体进行资源分配。
CCE容器存储(Everest) CoreDNS域名解析 节点本地域名解析加速 CCE集群弹性引擎 Kubernetes Metrics Server CCE节点故障检测 Kubernetes Dashboard CCE AI套件(Ascend NPU) CCE AI套件(NVIDIA
CCE集群中的EVS存储卷被删除或者过期后是否可以恢复? 云硬盘EVS存储需要人工配置备份策略。如果卷被删除或者释放,可以使用云硬盘备份恢复数据。 详细请参见备份云硬盘。 父主题: 存储管理
性能要求较高:由于没有额外的隧道封装,相比于容器隧道网络模式,VPC网络模型集群的容器网络性能接近于VPC网络性能,所以适用于对性能要求较高的业务场景,比如:AI计算、大数据计算等。
约束与限制 集群中使用“AI加速型”节点时必须安装CCE AI套件(Ascend NPU)插件。
CCE AI套件(Ascend NPU) 插件介绍 CCE AI套件(Ascend NPU)是支持容器里使用NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。
容器:镜像(Image)和容器(Container)的关系,就像是面向对象程序设计中的类和实例一样,镜像是静态的定义,容器是镜像运行时的实体。容器可以被创建、启动、停止、删除、暂停等。 操作步骤 以root用户登录到安装有Docker的服务器上。 进入apptest目录。
CCE AI套件(NVIDIA GPU) 插件介绍 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。
CCE AI套件(NVIDIA GPU) 插件简介 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 约束与限制 下载的驱动必须是后缀为“.run”的文件。
="", container!
相关链接 containerd-shim API exposed to host network containers 父主题: 漏洞公告
containerd容器进程权限提升漏洞公告(CVE-2022-24769) 漏洞详情 containerd开源社区中披露了一个安全漏洞,在containerd创建容器的场景,非root容器进程的初始inheritalbe capability不为空,可能会造成在execve执行可执行文件时提升到允许的
AI任务性能增强调度 公平调度(DRF) 组调度(Gang) 父主题: Volcano调度
CCE AI套件(Ascend NPU)版本发布记录 表1 CCE AI套件(Ascend NPU)插件版本记录 插件版本 支持的集群版本 更新特性 2.1.46 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 v1.31 支持CCE v1.31
CCE AI套件(NVIDIA GPU)版本发布记录 表1 CCE AI套件(NVIDIA GPU)版本记录 插件版本 支持的集群版本 更新特性 2.7.42 v1.28 v1.29 v1.30 v1.31 新增NVIDIA 535.216.03驱动,支持XGPU特性 2.7.41
如果CCE AI套件(NVIDIA GPU)插件版本大于等于2.0.0,请登录GPU节点执行以下命令: nvidia-container-runtime --version 若显示无此命令,则不涉及该漏洞。
CCE AI套件(NVIDIA GPU)插件(版本2.7.32及以上)基于NVIDIA DCGM构建,提供了更强大的GPU监控功能。