检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Gauge MB 表示帧缓存剩余数,帧缓存一般被称为显存 DCGM_FI_DEV_FB_USED Gauge MB 表示帧缓存已使用数,该值与nvidia-smi命令中memory-usage的已使用值对应 表3 温度及功率指标 指标名称 指标类型 单位 说明 DCGM_FI_DEV_GPU_TEMP
根据日志判断是否触发了系统OOM。 排查思路 根据具体事件信息确定具体问题原因,如表1所示。 表1 容器启动失败 日志或事件信息 问题原因与解决方案 日志中存在exit(0) 容器中无进程。 请调试容器是否能正常运行。 排查项一:(退出码:0)容器中无持续运行的进程 事件信息:Liveness
约束限制: 不涉及 dataVolumes Array of Volume objects 参数解释: 节点的数据盘参数。针对专属云节点,参数解释与rootVolume一致。 约束限制: 磁盘挂载上限为虚拟机不超过16块,裸金属不超过10块。在此基础上还受限于虚拟机/裸金属规格可挂载磁盘
约束限制: 不涉及 dataVolumes Array of Volume objects 参数解释: 节点的数据盘参数。针对专属云节点,参数解释与rootVolume一致。 约束限制: 磁盘挂载上限为虚拟机不超过16块,裸金属不超过10块。在此基础上还受限于虚拟机/裸金属规格可挂载磁盘
不涉及 dataVolumes 是 Array of Volume objects 参数解释: 节点的数据盘参数。针对专属云节点,参数解释与rootVolume一致。 约束限制: 磁盘挂载上限为虚拟机不超过16块,裸金属不超过10块。在此基础上还受限于虚拟机/裸金属规格可挂载磁盘
约束限制: 不涉及 dataVolumes Array of Volume objects 参数解释: 节点的数据盘参数。针对专属云节点,参数解释与rootVolume一致。 约束限制: 磁盘挂载上限为虚拟机不超过16块,裸金属不超过10块。在此基础上还受限于虚拟机/裸金属规格可挂载磁盘
不涉及 取值范围: "patch",表示升级插件版本 version 是 String 参数解释: 目标插件版本号 约束限制: 目标插件版本必须与目标集群版本配套。集群版本配套关系见查询AddonTemplates列表 取值范围: 不涉及 values 否 Map<String,Object>
理,查看节点状态是否符合预期。 节点kubelet状态 是 kubelet为节点关键组件,不可用可能会导致节点异常,Pod状态不符合预期(与APIServer的Pod状态不一致)。可以到节点上通过如下命令查看kubelet日志,并分析异常原因。命令参考:journalctl -l
点池),即当出现Pod处于Pending状态无法调度时,集群会自动扩容节点。若Pod已经指定调度到某个节点,则不会自动扩容节点。该功能一般与HPA策略配合使用,具体请参见使用HPA+CA实现工作负载和节点联动弹性伸缩。 如不开启,则只能通过自定义扩容规则进行扩缩容。 节点扩容资源
9-r0 及以上版本 v1.27集群:v1.27.6-r0 及以上版本 v1.28集群:v1.28.4-r0 及以上版本 其他更高版本的集群 约束与限制 创建灰度Ingress后,不应删除原Ingress。 单个ELB下的监听器,如果关联的多个Ingress配置了多个灰度策略,按HTTP
参数说明 示例 权重 仅支持在“尽量满足”策略中添加。权重的取值范围为1-100,调度器在进行调度时会将该权重视为一个附加的评分项,并将其与节点的其他优先级函数评分相加。最终,调度器会将Pod调度到总分最大的节点上。 - 命名空间 指定调度策略生效的命名空间。 default 拓扑域
调小数据盘容量后,建议您的集群安装npd插件,用于检测可能出现的节点磁盘压力问题,以便您及时感知。如出现节点磁盘压力问题,可根据数据盘空间不足时如何解决进行解决。 约束与限制 仅1.19及以上集群支持调小容器运行时和Kubelet组件使用的数据盘容量。 调整数据盘大小功能只支持云硬盘,不支持本地盘(本地盘仅在
待纳管节点必须状态为“运行中”,未被其他集群所使用,且不携带 CCE 专属节点标签CCE-Dynamic-Provisioning-Node。 待纳管节点需与集群在同一虚拟私有云内(若集群版本低于1.13.10,纳管节点还需要与CCE集群在同一子网内)。 待纳管节点需挂载数据盘,可使用本地盘(磁盘
用户自定义的namespace,使用前必须先在集群中创建namespace 系统自带的namespace:default 不能使用kube-system与kube-public 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 是 String 参数解释:
internal internalCluster user 登录Argo服务端,用户名为admin,服务端地址及密码可从1中获取。如果ECS服务器与集群处于同一VPC下,此处节点IP可使用私网IP。 argocd login <节点IP:端口号> --username admin --password
s metric api提供给HPA controller使用。 设置HPA规则,使用ELB的监控数据作为弹性伸缩指标。 图1 ELB流量与监控数据示意图 本文介绍的方法不限于ELB指标,其他指标可按照类似方法操作。 前提条件 本实践需要您熟悉Prometheus。 在集群中安装3
事件的方法请参见Pod事件查看方法。 排查思路 根据具体事件信息确定具体问题原因,如表1所示。 表1 实例拉取镜像失败 事件信息 问题原因与解决方案 Failed to pull image "xxx": rpc error: code = Unknown desc = Error
0-9\-\._/]{0,254}$): 支持输入最多5个标签(1.3.4版本后最多支持10个标签),单个标签长度最长255个字符。 字母与数字之外的字符均会被替换为_。 用户可以按照上述格式对监控任务进行创建、修改、及删除,当前仅支持最多10个监控任务的创建,且多个监控任务匹配
me,一个group可选择多个selector;但一个selector只能被一个group选择。 约束限制: 系统组件无法分别存储于系统盘与数据盘中,因此选择selector的type为system时,group只能选择一个selector。 virtualSpaces 是 Array
B侧已存在的Ingress证书进行覆盖。 优化autoscaler扩容节点池时的事件上报逻辑,去除规格售罄的重复事件。 增加Service与Ingress端口占用的相互校验逻辑;增加同集群下Ingress的路径冲突的的校验逻辑。 修复部分安全问题。 v1.27.2-r20 v1.27