检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
异构资源配置 GPU配置 GPU虚拟化:CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU
关于CCE v1.23集群中Ingress API版本升级的说明 CCE从v1.23版本集群开始,将Ingress切换到networking.k8s.io/v1版本。 v1版本的参数相较v1beta1版本的参数有如下区别: ingress类型由annotations中kubernetes
1:显存算力隔离模式 2:默认模式,表示当前卡还没被用于GPU虚拟化设备分配。 xgpu_device_health GPU卡 GPU虚拟化设备的健康情况。 0:表示GPU虚拟化设备为健康状态。 1:表示GPU虚拟化设备为非健康状态。 相关链接 GPU插件及驱动相关问题的排查思路 工作负载异常:GPU相关
至“节点”页签,将光标移动到节点名称上,查看对应的节点ID。 图2 获取node_id 节点池ID(nodepool_id) 登录CCE控制台,在左侧导航栏中选择“集群管理”。 单击所创建集群的名称,并在左侧选择“节点管理”,切换至“节点池”页签,将光标移动到节点池名称上,查看对应的节点池ID。
故障场景下大规模迁移操作产生更坏的影响 配置建议: 无特殊需求建议保持默认配置 比例配置过大可能导致区域在规模故障场景下仍尝试执行大规模迁移动作,导致集群过载等风险 节点迁移速率 当某区域健康时,在节点故障的情况下每秒删除 Pods 的节点数比例 参数名 取值范围 默认值 是否允许修改
√(需Kubernetes RBAC授权) √ 容器智能分析所有资源查看权限 √ √ √ 容器智能分析所有资源操作权限 x √ √ 告警助手所有资源查看权限 √ √ √ 告警助手所有资源操作权限 x √ √ ECS(弹性云服务器)服务的所有权限。 x √ √ EVS(云硬盘)的所有权限。 可以将云
表用于用户终端(例如:浏览器)选择。 301 Moved Permanently 永久移动,请求的资源已被永久的移动到新的URI,返回信息会包括新的URI。 302 Found 资源被临时移动。 303 See Other 查看其它地址。 使用GET和POST请求查看。 304 Not
支持的集群类型 clusterVersion Array of strings 支持的集群版本(正则表达式) 请求示例 安装1.17.15版本的coredns插件,插件规格为2500qps,插件实例数指定为2。 { "kind" : "Addon", "apiVersion"
问题原理 BUS 0上热插PCI设备后,Linux内核会多次遍历挂载在BUS 0上的所有PCI-Bridge,且PCI-Bridge在被更新期间无法正常工作。在此期间,若设备使用的PCI-Bridge被更新,由于内核缺陷,该设备会认为PCI-Bridge异常,设备进入故障模式进而无法正常
CCE从2022年9月开始,各region将逐步切换至Helm v3。模板管理不再支持Helm v2版本的模板,若您在短期内不能切换至Helm v3,可通过Helm v2 客户端在后台管理v2版本的模板。 前提条件 在CCE中创建的Kubernetes集群已对接kubectl,具体请参见使用kubectl连接集群。
支持C75驱动 1.0.5 v1.13 v1.15 v1.17 支持容器里使用huawei NPU设备的管理插件 1.0.3 v1.13 v1.15 v1.17 支持容器里使用huawei NPU设备的管理插件 父主题: 云原生异构计算插件
v1.23 - 1.23.0 1.23.47 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容 1.23.0 1.23.44 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容
镜像文件的完整性和真实性,有效地防止软件被篡改或植入恶意代码,保障用户的安全。 约束与限制 使用镜像验签功能依赖容器镜像仓库企业版,请先创建一个企业版仓库。 安装插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”,在右侧找到容器镜像签名验证,单击“安装”。
主机视图 从主机视角出发,监控主机的资源占用与健康状态,查看主机的磁盘、文件系统等常用系统设备指标,帮助您掌控节点运行状况。 指标说明 主机视图暴露的指标具体说明如下: 图1 主机资源指标 表1 视图说明 图表名称 单位 说明 CPU使用率 百分比 每个CPU核的使用率 平均负载
0.46 v1.21 v1.23 v1.25 v1.27 支持535版本Nvidia驱动 支持非root用户使用XGPU 优化启动逻辑 2.0.44 v1.21 v1.23 v1.25 v1.27 支持535版本Nvidia驱动 支持非root用户使用XGPU 优化启动逻辑 2.0
v3。模板管理不再支持Helm v2版本的模板,若您在短期内不能切换至Helm v3,可通过Helm v2 客户端在后台管理v2版本的模板。 约束与限制 单个用户可以上传模板的个数有限制,请以各个Region控制台界面中提示的实际值为准。 CCE使用的Helm版本为v3.8.2,支持上传Helm v3版本语法的模板包。
购买Autopilot集群 通过kubectl连接CCE集群 CCE Autopilot集群 CCE Autopilot是云容器引擎服务推出的Serverless版集群,为您提供免运维的容器服务,并提供经过优化的Kubernetes兼容能力。 在创建CCE Autopilot集群后,您无需购买节点即可部
kubelet-monit docker docker-monit 检查是否有程序正在使用GPU卡设备。 运行命令: sudo fuser -v /dev/nvidia* 如无fuser命令(以基于RPM的Linux发行版为例),可执行命令yum install psmisc安装psmisc包。 #
若干插件适配1.19版本集群及新增特性 插件市场中的若干插件支持在Kubernetes 1.19版本集群下使用,部分插件在功能方面进行增强。 商用 2020年11月 序号 功能名称 功能描述 阶段 相关文档 1 1.15版本鲲鹏集群支持添加ARM裸金属服务器 1.15版本鲲鹏集群支持添
若通过NPD插件排查和自主排查流程都无法解决问题,请提交工单排查。 通过NPD插件排查 CCE提供节点故障检测NPD插件,NPD插件从1.16.0版本开始增加了大量检查项,能对节点上各种资源和组件的状态检测,帮助发现节点故障。 强烈建议您安装该插件,如已安装请查看插件版本并升级到1.16