检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
标说明。关于DCGM-Exporter的更多信息,请参见DCGM-Exporter。 前提条件 集群中已有正常运行的NVIDIA GPU节点。 步骤一:启用DCGM-Exporter组件 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“插件中心”,在右侧找到CCE AI套件(NVIDIA
群和命名空间两个层面对用户组或用户进行细粒度授权,具体解释如下: 集群权限:是基于IAM系统策略的授权,可以让用户组拥有“集群管理”、“节点管理”、“应用模板”、“插件中心”权限。 命名空间权限:是基于Kubernetes RBAC能力的授权,可以让用户或用户组拥有Kuberne
5 节点池级别 集群中用户新创建了一个使用大规格机型c7.8xlarge.2的节点池(辅助弹性网卡配额256) 节点池下大部分节点平时日常运行100个Pod左右 节点池下大部分节点最多运行128个Pod 节点池下大部分节点日常在10s内会瞬时弹性扩容10个Pod 节点池下大部分
适配NPU和安全容器 节点伸缩策略支持不设置步长 bug修复,自动移除已删除的节点池 设置优先调度 注册EmptyDir调度策略 修复停用节点伸缩策略时,低于缩容阈值的节点未触发缩容的问题 修改自定义规格的内存申请与限制 当没有开启弹性伸缩的节点池时上报无法伸缩的事件 修复NPU节点在扩容过程中会再次触发扩容的问题
至“节点池”页签。 选择需要更新的存量节点池,单击“更新 ”,将CentOS操作系统切换为支持切换的操作系统支持切换的操作系统,建议选择操作系统为Huawei Cloud EulerOS。 在节点列表中选择节点池中的节点,单击“更多 > 重置节点”。(重置节点将对节点操作系统进行
由于实际账单的获取存在两天时间延迟,开通成本洞察后,成本洞察成本数据会延迟2天显示。 使用成本洞察期间,要保证云原生监控插件运行正常,否则影响成本洞察中命名空间、工作负载、节点池等相关视图的呈现。 操作入口 登录CCE控制台,单击左侧导航栏中的“云原生成本治理”。 图1 云原生成本治理 查看部门分析模块。 图2 查看部门分析
容器网络类型 说明 步骤区别 容器隧道网络 容器隧道网络在节点网络基础上通过隧道封装网络数据包。 从Pod访问不同VPC下的其他服务时,需确保节点子网与目标子网之间的连通性。 创建集群VPC和目标VPC的对等连接后,只需要建立节点子网和目标子网之间的路由。 VPC网络 在VPC网络中,
建。 节点资源不足 当节点资源(如内存、CPU等)不足时,集群可能会驱逐部分Pod并将其调度到其他资源充足节点,从而触发容器重建。 节点重启或故障 若由于某些原因重启节点,节点上的容器可能会被销毁并在其他可用节点上重建。当节点发生故障时,集群会检测到该节点不可用,该节点上的容器将在其他可用节点上进行重建。
获取cluster_id 节点ID(node_id) 登录CCE控制台,在左侧导航栏中选择“集群管理”。 单击所创建集群的名称,并在左侧选择“节点管理”,切换至“节点”页签,将光标移动到节点名称上,查看对应的节点ID。 图2 获取node_id 节点池ID(nodepool_id)
您可以在集群节点上查询GPU/NPU卡的信息,然后使用kubectl搜索到使用该卡的Pod。 GPU场景 NPU场景 登录CCE控制台,在左侧导航栏中选择“节点管理”,切换至“节点”页签,查看GPU节点的IP。本文中以192.168.0.106为例。 登录GPU节点,通过以下命令查看GPU卡的信息。
创建节点池 节点池 createNodePool 更新节点池 节点池 updateNodePool 删除节点池 节点池 claimNodePool 迁移节点池 节点池 migrateNodepool 修改节点池配置 节点池 updateConfiguration 创建节点 节点 createNode
Bridge)通信,如下图所示。 图1 同一个节点中的Pod通信 在同一节点上的Pod会通过Veth设备将一端连接到网桥,且它们的IP地址是通过网桥动态获取的,和网桥IP属于同一网段。此外,同一节点上的所有Pod默认路由都指向网桥,网桥会负责将所有非本地地址的流量进行转发。因此,同一节点上的Pod可以直接通信。
采集端点访问403的原因是什么?该如何处理? 问题根因 您的采集端点对应的采集任务ServiceMonitor/PodMonitor配置了认证,出于安全考虑,页面访问默认不支持访问需认证的端点。 解决方案:您可以通过配置,允许访问带认证的端点。 配置允许访问带认证的端点,会导致
在线业务带宽使用未超过水线时,离线业务最高总带宽占用量在机型基准带宽中的占比。 如果同节点的在线业务总带宽的未超过节点机型基准带宽 * onlineBandwidthWatermarkPercent/100,则同节点的离线业务总带宽的不超过节点机型基准带宽 * offlineHighBandwidthPercent/100
创建集群时指定要安装的插件 如何获取接口URI中参数 创建VPC和子网 创建密钥对 节点规格(flavor)说明 创建节点时password字段加盐加密的方法 节点可创建的最大Pod数量说明 节点操作系统 默认数据盘空间分配说明 节点磁盘挂载 通过控制台可视化生成API参数
安装失败 错误显示资源不足。 添加节点资源为4U8G后,nginx-ingress安装正常。 问题原因 最初建立的集群中各节点的基本配置为2U4G,且各节点上有kubelet,kube-proxy及docker等相关程序占用系统资源,导致节点可用资源低于2000m,无法满足ngi
强制模式:插件Deployment实例强制调度到不同可用区的节点上,每个可用区下最多运行一个实例。如集群下节点不满足多可用区,插件实例将无法全部运行。节点故障后,插件实例存在无法迁移风险。 节点亲和 不配置:插件实例不指定节点亲和调度。 指定节点调度:指定插件实例部署的节点。若不指定,将根据集群默认调度策略进行随机调度。
计算公式:集群内容器算力使用总量/集群内算力总量 节点-显存使用量 字节 每个节点的显存使用量 节点-算力使用率 百分比 每个节点的算力使用率 计算公式:节点上容器算力使用总量/节点上算力总量 节点-显存使用率 百分比 每个节点的显存使用率 计算公式:节点上容器显存使用总量/节点上显存总量 GPU卡-显存使用量
23及以上集群请使用云原生监控插件插件替代。 插件特点 作为新一代的监控框架,Prometheus具有以下特点: 强大的多维度数据模型: 时间序列数据通过metric名和键值对来区分。 所有的metrics都可以设置任意的多维标签。 数据模型更随意,不需要刻意设置为以点分隔的字符串。 可以对数据模型进行聚合,切割和切片操作。
区的节点上,如集群下节点不满足多可用区,插件实例将调度到单可用区下的不同节点。 强制模式:插件Deployment实例强制调度到不同可用区的节点上,每个可用区下最多运行一个实例。如集群下节点不满足多可用区,插件实例将无法全部运行。节点故障后,插件实例存在无法迁移风险。 节点亲和 不配置:插件实例不指定节点亲和调度。