检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
人工智能和机器学习领域天然的包含大量的计算密集型任务,开发者非常愿意基于Kubernetes构建AI平台,充分利用Kubernetes提供的资源管理、应用编排、运维监控能力。 Kubernetes存在的问题 Kubeflow在调度环境使用的是Kubernetes的默认调度器。
CCE AI套件(Ascend NPU)版本发布记录 表1 CCE AI套件(Ascend NPU)插件版本记录 插件版本 支持的集群版本 更新特性 2.1.46 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 v1.31 支持CCE v1.31
AI任务性能增强调度 公平调度(DRF) 组调度(Gang) 父主题: Volcano调度
CCE AI套件(NVIDIA GPU)版本发布记录 表1 CCE AI套件(NVIDIA GPU)版本记录 插件版本 支持的集群版本 更新特性 2.7.42 v1.28 v1.29 v1.30 v1.31 新增NVIDIA 535.216.03驱动,支持XGPU特性 2.7.41
CCE AI套件(NVIDIA GPU) 插件介绍 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。
CCE AI套件(NVIDIA GPU) 插件简介 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 约束与限制 下载的驱动必须是后缀为“.run”的文件。
如果CCE AI套件(NVIDIA GPU)插件版本大于等于2.0.0,请登录GPU节点执行以下命令: nvidia-container-runtime --version 若显示无此命令,则不涉及该漏洞。
CCE AI套件(Ascend NPU) 插件介绍 CCE AI套件(Ascend NPU)是支持容器里使用NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。
约束与限制 集群中使用“AI加速型”节点时必须安装CCE AI套件(Ascend NPU)插件。
spec.template.spec.volumes.persistentVolumeClaim claimName 已有PVC名称。
相关链接 containerd-shim API exposed to host network containers 父主题: 漏洞公告
containerd容器进程权限提升漏洞公告(CVE-2022-24769) 漏洞详情 containerd开源社区中披露了一个安全漏洞,在containerd创建容器的场景,非root容器进程的初始inheritalbe capability不为空,可能会造成在execve执行可执行文件时提升到允许的
该漏洞影响范围如下: 使用containerd作为Kubernetes CRI运行时,且使用了未知来源的恶意镜像。使用docker作为CRI时不涉及该漏洞。 containerd版本号小于1.4.1-96。
每个节点都包含运行Pod所需要的基本组件,包括 Kubelet、Kube-proxy 、Container Runtime等。在云容器引擎CCE中,主要采用高性能的弹性云服务器ECS或裸金属服务器BMS作为节点来构建高可用的Kubernetes集群。
Containerd Pod重启风险检查异常处理 检查项内容 检查当前集群内使用containerd的节点在升级containerd组件时,节点上运行的业务容器是否可能发生重启,造成业务影响。
初始延迟之前的就绪态的状态值默认为 Failure。 如果容器不提供就绪态探针,则默认状态为 Success。 启动探针 参数名 取值范围 默认值 是否允许修改 作用范围 StartupProbe 无 无 允许 - 指示容器中的应用是否已经启动。
创建或升级实例失败,提示rendered manifests contain a resource that already exists 问题现象 创建或升级实例失败,提示“Create release by helm failed:rendered manifests contain
CCE AI套件(NVIDIA GPU)插件(版本2.7.32及以上)基于NVIDIA DCGM构建,提供了更强大的GPU监控功能。
执行stat /run/containerd/containerd.sock命令,若发现存在该文件则会导致docker启动失败。 执行rm -rf /run/containerd/containerd.sock命令,然后重新进行集群升级检查。 父主题: 升级前检查异常问题排查
Containerd不具备镜像构建功能,请勿在Containerd节点上使用Docker Build功能构建镜像。Docker和Containerd其他差异请参考容器引擎说明。 默认节点池中的节点迁移步骤 登录CCE控制台,单击集群名称进入集群。