检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Kubeflow和Volcano实现典型AI训练任务 Kubernetes已经成为云原生应用编排、管理的事实标准, 越来越多的应用选择向Kubernetes迁移。人工智能和机器学习领域天然的包含大量的计算密集型任务,开发者非常愿意基于Kubernetes构建AI平台,充分利用Kubernet
CCE AI套件(NVIDIA GPU)版本发布记录 表1 CCE AI套件(NVIDIA GPU)版本记录 插件版本 支持的集群版本 更新特性 2.7.42 v1.28 v1.29 v1.30 v1.31 新增NVIDIA 535.216.03驱动,支持XGPU特性 2.7.41
证。 对于已经安装GPU驱动的自定义操作系统镜像,CCE无法保证其提供的GPU驱动与CCE其他GPU组件兼容(例如监控组件等)。 如果您使用不在GPU驱动支持列表内的GPU驱动版本,可能引发GPU驱动与操作系统版本、ECS实例类型、Container Runtime等不兼容,继而
CCE AI套件(NVIDIA GPU) 插件介绍 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 是 object 插件基础配置参数。
除运维人员以外,其他人员(例如数据科学家、AI算法工程师等)也能通过相关监控指标了解业务的GPU使用情况,以便进行容量规划和任务调度。 新一代NVIDIA支持使用数据中心GPU管理器(DCGM)来管理大规模集群中的GPU。CCE AI套件(NVIDIA GPU)插件(版本2.7
插件简介 CCE容器存储(Everest)是一个云原生容器存储系统,基于CSI(即Container Storage Interface)为Kubernetes v1.15.6及以上版本集群对接云存储服务的能力。 该插件为系统资源插件,Kubernetes 1.15及以上版本的集群在创建时默认安装。
CCE AI套件(Ascend NPU) 插件简介 CCE AI套件(Ascend NPU)是支持容器里使用huawei NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 约束与限制 集群中使用“AI加速型”节点时必须安装CCE
节点操作系统 集群版本与操作系统对应关系 如下为当前已经发布的集群版本与操作系统版本的对应关系,请参考: 表1 弹性云服务器-虚拟机节点操作系统 操作系统 集群版本 CCE Standard集群 CCE Turbo集群 最新内核信息 VPC网络模型 容器隧道网络模型 云原生网络2
container_path 否 String 容器里用于挂载Hiai library的路径 默认值:"/usr/local/HiAI_unused" host_path 否 String 主机上包含Hiai library的路径 默认值:"/usr/local/HiAI_unused"
节点操作系统说明 本文为您提供当前已经发布的集群版本与操作系统版本的对应关系。 弹性云服务器-虚拟机 表1 弹性云服务器-虚拟机节点操作系统 操作系统 集群版本 CCE Standard集群 CCE Turbo集群 最新内核信息 VPC网络模型 容器隧道网络模型 云原生网络2.0
before:虚机部署 after:容器部署 部署 部署成本高。 每给一家客户部署一套系统,就需要购置一台虚拟机。 成本降低50%以上。 通过容器服务实现了多租隔离,在同一台虚拟机上可以给多个企业部署系统。 升级 升级效率低。 版本升级时,需要逐台登录虚拟机手动配置升级,效率低且容易出错。
Container配置 容器名称 参数名 取值范围 默认值 是否允许修改 作用范围 name 无 无 允许 - 镜像名称 参数名 取值范围 默认值 是否允许修改 作用范围 image 无 无 允许 - 更新策略 参数名 取值范围 默认值 是否允许修改 作用范围 imagePullPolicy
在NVIDIA Container Toolkit v1.16.1及更早版本的环境中,攻击者通过运行一个恶意镜像,可能实现容器逃逸,从而获得主机系统的访问权限。成功利用此漏洞可能会导致代码执行、拒绝服务、权限提升、信息泄露和数据篡改。 判断方法 如果集群未安装CCE AI套件(NVIDIA
如何解决yum update升级操作系统导致的容器网络不可用问题? CCE控制台不提供针对节点的操作系统升级,也不建议您通过yum方式进行升级。 如果您在节点上通过yum update升级了操作系统,会导致容器网络的组件不可用。 您可以通过如下方式手动恢复: 当前该恢复方式仅针对EulerOS
Euler-docker。 执行stat /run/containerd/containerd.sock命令,若发现存在该文件则会导致docker启动失败。 执行rm -rf /run/containerd/containerd.sock命令,然后重新进行集群升级检查。 父主题:
Apache containerd安全漏洞公告(CVE-2020-15257) 漏洞详情 CVE-2020-15257是containerd官方发布的一处Docker容器逃逸漏洞。containerd是一个支持Docker和常见Kubernetes配置的容器运行时管理组件,它处理
可优化的节点系统参数列表 CCE提供默认的节点系统参数在某些用户场景下可能出现性能瓶颈,因此用户可对部分节点系统参数进行自定义优化,节点系统参数如可优化的节点系统参数列表所示。 修改节点系统参数具有一定的风险,需要您对Linux命令和Linux系统知识具有较高程度的了解,避免误操作引起节点故障。
启用DNS缓存。详情请参见cache。 插件版本>=1.25.10时,支持关闭servfail缓存。如需关闭servfail缓存,请将configBlock设置为"servfail 0";否则servfail缓存的单位为s,不可省略。 errors 默认配置 错误信息到标准输出。详情请参见errors。
系统委托说明 由于CCE在运行中对计算、存储、网络以及监控等各类云服务资源都存在依赖关系,因此当您首次登录CCE控制台时,CCE将自动请求获取当前区域下的云资源权限,从而更好地为您提供服务。服务权限包括: 计算类服务 CCE集群创建节点时会关联创建云服务器,因此需要获取访问弹性云服务器、裸金属服务器的权限。
迁移的影响,以最大限度避免可能存在的风险。 Containerd不具备镜像构建功能,请勿在Containerd节点上使用Docker Build功能构建镜像。Docker和Containerd其他差异请参考容器引擎说明。 默认节点池中的节点迁移步骤 登录CCE控制台,单击集群名称进入集群。