检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
您可以在集群节点上查询GPU/NPU卡的信息,然后使用kubectl搜索到使用该卡的Pod。 GPU场景 NPU场景 登录CCE控制台,在左侧导航栏中选择“节点管理”,切换至“节点”页签,查看GPU节点的IP。本文中以192.168.0.106为例。 登录GPU节点,通过以下命令查看GPU卡的信息。
建。 节点资源不足 当节点资源(如内存、CPU等)不足时,集群可能会驱逐部分Pod并将其调度到其他资源充足节点,从而触发容器重建。 节点重启或故障 若由于某些原因重启节点,节点上的容器可能会被销毁并在其他可用节点上重建。当节点发生故障时,集群会检测到该节点不可用,该节点上的容器将在其他可用节点上进行重建。
由于实际账单的获取存在两天时间延迟,开通成本洞察后,成本洞察成本数据会延迟2天显示。 使用成本洞察期间,要保证云原生监控插件运行正常,否则影响成本洞察中命名空间、工作负载、节点池等相关视图的呈现。 操作入口 登录CCE控制台,单击左侧导航栏中的“云原生成本治理”。 图1 云原生成本治理 查看部门分析模块。 图2 查看部门分析
获取cluster_id 节点ID(node_id) 登录CCE控制台,在左侧导航栏中选择“集群管理”。 单击所创建集群的名称,并在左侧选择“节点管理”,切换至“节点”页签,将光标移动到节点名称上,查看对应的节点ID。 图2 获取node_id 节点池ID(nodepool_id)
Bridge)通信,如下图所示。 图1 同一个节点中的Pod通信 在同一节点上的Pod会通过Veth设备将一端连接到网桥,且它们的IP地址是通过网桥动态获取的,和网桥IP属于同一网段。此外,同一节点上的所有Pod默认路由都指向网桥,网桥会负责将所有非本地地址的流量进行转发。因此,同一节点上的Pod可以直接通信。
在线业务带宽使用未超过水线时,离线业务最高总带宽占用量在机型基准带宽中的占比。 如果同节点的在线业务总带宽的未超过节点机型基准带宽 * onlineBandwidthWatermarkPercent/100,则同节点的离线业务总带宽的不超过节点机型基准带宽 * offlineHighBandwidthPercent/100
从上述输出的信息中,可以看到该节点的GPU驱动版本为460.32.03。 漏洞修复方案 请您根据漏洞影响范围,将节点升级到对应驱动版本进行漏洞修复: 若您升级了NVIDIA GPU驱动,需重启GPU节点,重启节点将会短暂影响您的业务。 如果节点驱动版本为418系列,请升级驱动至418
安装失败 错误显示资源不足。 添加节点资源为4U8G后,nginx-ingress安装正常。 问题原因 最初建立的集群中各节点的基本配置为2U4G,且各节点上有kubelet,kube-proxy及docker等相关程序占用系统资源,导致节点可用资源低于2000m,无法满足ngi
采集端点访问403的原因是什么?该如何处理? 问题根因 您的采集端点对应的采集任务ServiceMonitor/PodMonitor配置了认证,出于安全考虑,页面访问默认不支持访问需认证的端点。 解决方案:您可以通过配置,允许访问带认证的端点。 配置允许访问带认证的端点,会导致
计算公式:集群内容器算力使用总量/集群内算力总量 节点-显存使用量 字节 每个节点的显存使用量 节点-算力使用率 百分比 每个节点的算力使用率 计算公式:节点上容器算力使用总量/节点上算力总量 节点-显存使用率 百分比 每个节点的显存使用率 计算公式:节点上容器显存使用总量/节点上显存总量 GPU卡-显存使用量
创建集群时指定要安装的插件 如何获取接口URI中参数 创建VPC和子网 创建密钥对 节点规格(flavor)说明 创建节点时password字段加盐加密的方法 节点可创建的最大Pod数量说明 节点操作系统 默认数据盘空间分配说明 节点磁盘挂载 通过控制台可视化生成API参数
强制模式:插件Deployment实例强制调度到不同可用区的节点上,每个可用区下最多运行一个实例。如集群下节点不满足多可用区,插件实例将无法全部运行。节点故障后,插件实例存在无法迁移风险。 节点亲和 不配置:插件实例不指定节点亲和调度。 指定节点调度:指定插件实例部署的节点。若不指定,将根据集群默认调度策略进行随机调度。
CCE集群选型建议 通过CCE搭建IPv4/IPv6双栈集群 制作CCE节点自定义镜像 创建节点时执行安装前/后脚本 创建节点时使用OBS桶实现自定义脚本注入 通过kubectl对接多个集群 选择合适的节点数据盘大小 集群视角的成本可视化最佳实践 使用共享VPC创建CCE Turbo集群
区的节点上,如集群下节点不满足多可用区,插件实例将调度到单可用区下的不同节点。 强制模式:插件Deployment实例强制调度到不同可用区的节点上,每个可用区下最多运行一个实例。如集群下节点不满足多可用区,插件实例将无法全部运行。节点故障后,插件实例存在无法迁移风险。 节点亲和 不配置:插件实例不指定节点亲和调度。
“按需付费”等)进行收费。 说明: 集群休眠后,集群中的工作节点(即ECS)并不会自动关机,如需关机可勾选“关机集群下所有节点”选项。您也可以在集群休眠后自行登录ECS控制台将节点关机,具体请参见节点关机。 大部分节点关机后不再收费,特殊ECS实例(包含本地硬盘,如磁盘增强型,超
扩大集群规格:新配置价格高于老配置价格,此时您需要支付新老配置的差价。 减小集群规格:不支持该操作。 变更节点规格:CCE控制台不支持变更节点规格,您需要从云服务器控制台发起变更节点规格操作,规格变更完成后前往CCE控制台同步云服务器信息即可。变更时系统将按照如下规则为您计算变更费用:
oot身份执行任意代码。 判断方法 查看节点操作系统及openssh版本: 如果集群node节点OS是EulerOS、Huawei Cloud EulerOS 1.1和CentOS,openssh版本不受该漏洞影响。 如果集群node节点OS是Huawei Cloud EulerOS
配置管理 查询指定节点池支持配置的参数列表 查询指定集群支持配置的参数列表 查询指定节点池支持配置的参数内容 修改指定节点池配置参数的值 父主题: API
按需计费资源按秒计费,每一个小时整点结算一次费用(以GMT+08:00时间为准),结算完毕后进入新的计费周期。计费的起点以集群/节点创建成功的时间点为准,终点以实例删除时间为准。 集群/节点从下发创建命令到正常运行存在时间差,计费的起点是集群/节点创建成功的时间点,而非开始创建时间。您可以
CCE支持将极速文件存储(SFS Turbo)创建的存储卷挂载到容器的某一路径下,以满足数据持久化的需求。极速文件存储具有按需申请,快速供给,弹性扩展,方便灵活等特点,适用于海量小文件业务,例如DevOps、容器微服务、企业办公等应用场景。 SFS Turbo为用户提供一个完全托管的共享文件存储,能够弹性