检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备GPU虚拟化资源 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。本文介绍如何在GPU节点上实现GPU的调度和隔离能力。 前提条件 配置 支持版本 集群版本 v1.23.8-r0、v1.25
GPU虚拟化概述 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。
com”。支持在联系组创建完成后修改告警消息显示名。 添加订阅终端:您需要添加一个或多个订阅终端来接收告警消息。终端类型包括短信和邮件,选择“短信”时,请输入有效的手机号码;选择“邮件”时,请输入有效的电子邮件地址。 单击“确定”完成联系组的绑定。 返回联系组列表,订阅终端状态为“未确认”,您需要继续执行
busy 问题根因 出现以上问题的原因是宿主机上有其他进程正在使用该设备。 解决方法 您需要登录到Pod所在宿主机上查找正在使用该设备的进程,并终止对应的进程。 登录Pod所在节点。 执行以下命令,找到对应挂载路径下的云存储设备,其中<mount-path>为错误信息中显示的挂载路径。 mount
本文介绍如何使用GPU虚拟化能力实现算力和显存隔离,高效利用GPU设备资源。 前提条件 已完成GPU虚拟化资源准备。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 单个GPU卡最多虚拟化成20个GPU虚拟设备。 init容器不支持使用GPU虚拟化资源。
异构资源配置 GPU配置 GPU虚拟化:CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU
CCE AI套件(Ascend NPU) 插件介绍 CCE AI套件(Ascend NPU)是支持容器里使用NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic
kubelet-monit docker docker-monit 检查是否有程序正在使用GPU卡设备。 运行命令: sudo fuser -v /dev/nvidia* 如无fuser命令(以基于RPM的Linux发行版为例),可执行命令yum install psmisc安装psmisc包。 #
故障场景下大规模迁移操作产生更坏的影响 配置建议: 无特殊需求建议保持默认配置 比例配置过大可能导致区域在规模故障场景下仍尝试执行大规模迁移动作,导致集群过载等风险 节点迁移速率 当某区域健康时,在节点故障的情况下每秒删除 Pods 的节点数比例 参数名 取值范围 默认值 是否允许修改
至“节点”页签,将光标移动到节点名称上,查看对应的节点ID。 图2 获取node_id 节点池ID(nodepool_id) 登录CCE控制台,在左侧导航栏中选择“集群管理”。 单击所创建集群的名称,并在左侧选择“节点管理”,切换至“节点池”页签,将光标移动到节点池名称上,查看对应的节点池ID。
Kubernetes 1.29版本说明 云容器引擎(CCE)严格遵循社区一致性认证,现已支持创建Kubernetes 1.29集群。本文介绍Kubernetes 1.29版本的变更说明。 索引 新增特性及特性增强 API变更与弃用 CCE对Kubernetes 1.29版本的增强 参考链接 新增特性及特性增强
Kubernetes 1.29版本说明 云容器引擎(CCE)严格遵循社区一致性认证,现已支持创建Kubernetes 1.29集群。本文介绍Kubernetes 1.29版本的变更说明。 索引 新增特性及特性增强 API变更与弃用 CCE对Kubernetes 1.29版本的增强 参考链接 新增特性及特性增强
Kubernetes 1.28版本说明 云容器引擎(CCE)严格遵循社区一致性认证,现已支持创建Kubernetes 1.28集群。本文介绍Kubernetes 1.28版本的变更说明。 索引 重要说明 新增特性及特性增强 API变更与弃用 特性门禁及命令行参数 CCE对Kubernetes
Kubernetes 1.28版本说明 云容器引擎(CCE)严格遵循社区一致性认证,现已支持创建Kubernetes 1.28集群。本文介绍Kubernetes 1.28版本的变更说明。 索引 重要说明 新增特性及特性增强 API变更与弃用 特性门禁及命令行参数 CCE对Kubernetes
表用于用户终端(例如:浏览器)选择。 301 Moved Permanently 永久移动,请求的资源已被永久的移动到新的URI,返回信息会包括新的URI。 302 Found 资源被临时移动。 303 See Other 查看其它地址。 使用GET和POST请求查看。 304 Not
Kubernetes 1.30版本说明 云容器引擎(CCE)严格遵循社区一致性认证,现已支持创建Kubernetes 1.30集群。本文介绍Kubernetes 1.30版本的变更说明。 索引 新增特性及特性增强 API变更与弃用 CCE对Kubernetes 1.30版本的增强 参考链接 新增特性及特性增强
Kubernetes 1.30版本说明 云容器引擎(CCE)严格遵循社区一致性认证,现已支持创建Kubernetes 1.30集群。本文介绍Kubernetes 1.30版本的变更说明。 索引 新增特性及特性增强 API变更与弃用 CCE对Kubernetes 1.30版本的增强 参考链接 新增特性及特性增强
问题原理 BUS 0上热插PCI设备后,Linux内核会多次遍历挂载在BUS 0上的所有PCI-Bridge,且PCI-Bridge在被更新期间无法正常工作。在此期间,若设备使用的PCI-Bridge被更新,由于内核缺陷,该设备会认为PCI-Bridge异常,设备进入故障模式进而无法正常
支持C75驱动 1.0.5 v1.13 v1.15 v1.17 支持容器里使用huawei NPU设备的管理插件 1.0.3 v1.13 v1.15 v1.17 支持容器里使用huawei NPU设备的管理插件 父主题: 云原生异构计算插件
是一个应用托管和微服务管理平台,可以帮助企业简化部署、监控、运维和治理等应用生命周期管理工作。ServiceStage面向企业提供微服务、移动和Web类应用开发的全栈解决方案,帮助您的各类应用轻松上云,聚焦业务创新,帮助企业数字化快速转型。 父主题: 相关服务