检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Kubeflow和Volcano实现典型AI训练任务 Kubernetes已经成为云原生应用编排、管理的事实标准, 越来越多的应用选择向Kubernetes迁移。人工智能和机器学习领域天然的包含大量的计算密集型任务,开发者非常愿意基于Kubernetes构建AI平台,充分利用Kubernet
CCE AI套件(NVIDIA GPU)版本发布记录 表1 CCE AI套件(NVIDIA GPU)版本记录 插件版本 支持的集群版本 更新特性 2.7.19 v1.28 v1.29 v1.30 修复nvidia-container-toolkit CVE-2024-0132容器逃逸漏洞
CCE AI套件(NVIDIA GPU) 插件介绍 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 是 object 插件基础配置参数。
CCE AI套件(NVIDIA GPU) 插件简介 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 约束与限制 下载的驱动必须是后缀为“.run”的文件。 仅支持Nvidia Tesla驱动,不支持GRID驱动。
CCE AI套件(Ascend NPU)版本发布记录 表1 CCE AI套件(Ascend NPU)插件版本记录 插件版本 支持的集群版本 更新特性 2.1.23 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 修复部分问题 2.1.22 v1
AI任务性能增强调度 公平调度(DRF) 组调度(Gang) 父主题: Volcano调度
CCE AI套件(Ascend NPU) 插件简介 CCE AI套件(Ascend NPU)是支持容器里使用huawei NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 约束与限制 集群中使用“AI加速型”节点时必须安装CCE
container_path 否 String 容器里用于挂载Hiai library的路径 默认值:"/usr/local/HiAI_unused" host_path 否 String 主机上包含Hiai library的路径 默认值:"/usr/local/HiAI_unused"
Device=%s, UUID=%s, SN=%s failed to get fan state. GPU设备存在风扇异常 不隔离 GPUHealthWarning Device=%s, UUID=%s, SN=%s failed to get power state. GPU设备存在功率查询异常
Container配置 容器名称 参数名 取值范围 默认值 是否允许修改 作用范围 name 无 无 允许 - 镜像名称 参数名 取值范围 默认值 是否允许修改 作用范围 image 无 无 允许 - 更新策略 参数名 取值范围 默认值 是否允许修改 作用范围 imagePullPolicy
K8s废弃API检查异常处理 检查项内容 系统会扫描过去一天的审计日志,检查用户是否调用目标K8s版本已废弃的API。 由于审计日志的时间范围有限,该检查项仅作为辅助手段,集群中可能已使用即将废弃的API,但未在过去一天的审计日志中体现,请您充分排查。 解决方案 检查说明 根据检查结果,检测到您的集群通过
发布时间:2021/03/31 CCE Turbo集群是全面基于云原生基础设施构建的云原生2.0的容器引擎服务,具备软硬协同、网络无损、安全可靠、调度智能的优势,为用户提供一站式、高性价比的全新容器服务体验。 详情请参见购买CCE集群。 父主题: 产品变更公告
ubernetes的使用和维护技能。 云容器引擎视频指导 带您熟悉云容器引擎控制台,手把手与您一起部署容器工作负载。 智能客服 您好!我是有问必答知识渊博的的智能问答机器人,有问题欢迎随时求助哦! 社区求助 华为云社区是华为云用户的聚集地。这里有来自容器服务的技术牛人,为您解决技术难题。
Containerd Pod重启风险检查异常处理 检查项内容 检查当前集群内使用containerd的节点在升级containerd组件时,节点上运行的业务容器是否可能发生重启,造成业务影响。 解决方案 检测到您的节点上的containerd服务存在重启风险;请确保在业务影响可控
请使用支持ipv6的子网。 400 CCE.01400004 No available flavors for master nodes. Master节点无可用规格。 请更换其他可用的集群规格,或联系技术支持。 400 CCE.01400005 Container network CIDR blocks
Euler-docker。 执行stat /run/containerd/containerd.sock命令,若发现存在该文件则会导致docker启动失败。 执行rm -rf /run/containerd/containerd.sock命令,然后重新进行集群升级检查。 父主题:
0,则不涉及该漏洞。 CCE AI套件(NVIDIA GPU)插件老版本命名为:gpu-beta、gpu-device-plugin。 如果CCE AI套件(NVIDIA GPU)插件版本大于等于2.0.0,请登录GPU节点执行以下命令: nvidia-container-runtime
CCE Turbo集群支持管理边缘基础设施(智能边缘小站)的能力。启用分布式支持后,一个集群可以统一管理数据中心和边缘的计算资源,用户可以便捷地根据应用的诉求将其部署在对应的区域。 CCE Turbo集群使用分布式云资源功能需要提前注册并部署智能边缘小站服务。 图1 CCE Turbo分布式管理
4.1-98版本的containerd作为kuberentes CRI运行时。 2. CCE集群containerd版本低于1.5.11以下的集群。 判断方法 在node节点上使用root用户执行containerd --version查看containerd版本。 新Conso
Apache containerd安全漏洞公告(CVE-2020-15257) 漏洞详情 CVE-2020-15257是containerd官方发布的一处Docker容器逃逸漏洞。containerd是一个支持Docker和常见Kubernetes配置的容器运行时管理组件,它处理