检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本章节讲述为华为云集群开启监控的操作流程。 约束与限制 华为云集群开启监控之前,有可能已经安装了kube-prometheus-stack插件,若该插件处于“安装中”、“升级中”、“删除中”和“回滚中”状态时,不允许开启监控。插件的状态说明请参见插件状态说明。 前提条件 已将华为云集群注册到UCS中,具体操作请参见华为云集群。
返回结果 状态码 请求发送以后,您会收到响应,其中包含状态码、响应消息头和消息体。 状态码是一组从1xx到5xx的数字代码,状态码表示了请求响应的状态,完整的状态码列表请参见状态码。 对于管理员创建IAM用户接口,如果调用后返回状态码为“201”,则表示请求成功。 响应消息头 对
安装或重装插件时,需要保证驱动下载链接正确且可正常访问,插件对链接有效性不做额外校验。 gpu-device-plugin插件仅提供驱动的下载及安装脚本执行功能,插件的状态仅代表插件本身功能正常,与驱动是否安装成功无关。 gpu型号只支持T4、V100。 本地集群只支持华为云欧拉操作系统 2.0 x86系统架构类型。
期更新。NodeStatus和NodeLease都被视为来自节点的心跳,在v1.13之前的版本中,节点的心跳只有NodeStatus,NodeLease特性从v1.13开始引入。NodeLease比NodeStatus更轻量级,该特性在集群规模扩展性和性能上有明显提升。 用户创建
的特性说明。 联邦升级流程包括升级前检查、升级和失败后回退几个步骤,如集群联邦升级流程所示,您可以通过UCS控制台可视化升级联邦版本。 图1 联邦升级流程 升级前检查 升级集群联邦前,UCS会对联邦运行状态、集群运行状态、集群接入状态三方面进行检查,尽可能避免升级失败。如有检查异常项,请按控制台提示排查并修复。
keeper-controller-manager、gatekeeper-audit这两个Deployment是否为就绪状态,如果不是,请自行排查未就绪原因。 如果这两个Deployment被删除,则可以先将策略中心功能停用后再重新启用。 父主题: 策略中心
动态修改服务间访问的负载均衡策略,比如配置一致性哈希将流量转发到特定的服务实例上; 同一个服务有两个版本在线,将一部分流量切到某个版本上; 服务保护,如限制并发连接数、限制请求数、隔离有故障的服务实例等; 动态修改服务中的内容,或者模拟一个服务运行故障等。 应用服务网格ASM当前
集群类别,填写需要与provider和type对应,具体请参见集群类别与类型说明。 type 是 String 集群类型,填写需要与category和provider对应,具体请参见集群类别与类型说明。 provider 是 String 供应商,填写需要与category和type对应,具体请参见集群类别与类型说明。
}, "spec" : { "country" : "AL", "city" : "AL" } } 响应示例 无 状态码 状态码 描述 200 集群信息更新成功 400 客户端请求错误,服务器无法执行请求 403 服务器拒绝执行请求 500 服务器内部错误 错误码
为多云集群开启监控 为伙伴云集群开启监控 插件状态说明 kube-prometheus-stack和log-agent插件的状态说明如表1所示。部分状态将影响集群进行监控开启、监控配置修改和监控关闭操作,详见后续章节的约束与限制部分。 表1 插件状态说明 状态 说明 插件未安装 插件未安装 运行中
标采集配置和事件采集配置均支持修改。 当事件采集配置从开启置为关闭,系统将会删除log-agent插件。 约束与限制 kube-prometheus-stack插件处于“安装中”、“升级中”、“删除中”、“回滚中”、“回滚失败”、“不可用”、“安装失败”、“删除失败”和“未知”状态时,不允许修改集群监控配置。
升级集群联邦前,UCS会对联邦运行状态、集群运行状态、集群接入状态三方面进行检查,尽可能避免升级失败。如有检查异常项,请先参考本章节内容排查与修复问题。问题修复后,可以尝试再次升级集群联邦。 升级联邦前,请您对联邦运行状态、集群运行状态、集群接入状态三方面进行检查,以避免升级失败。
或在接入超时后提示“注册失败”。 如集群已处于“注册失败”状态,请单击右上角按钮重新注册集群,然后根据排查思路进行问题定位。 已接入的集群状态显示为“不可用”,请参考本文档中的排查思路解决。 排查思路 集群处于异常状态的排查思路大致可根据报错信息进行定位,如表1所示。 表1 报错信息说明
查看集群内节点列表 节点列表中包含节点名称、状态、IP地址、Pod(已分配/总额度)、CPU申请比率/限制比率/使用率,以及内存申请比率/限制比率/使用率等信息。 图1 节点列表页面 您可以通过在列表上方按照节点名称、状态、私有地址和公网地址进行筛选,快速找到需要的节点。在列表的
集群开启监控时,接口返回报错,报错信息中含有gatekeeper字段。 集群开启监控请求下发成功,但是监控状态一直显示“安装中”,超时后显示“安装失败”,前往集群中检查插件的Pod状态,Pod的事件中含有gatekeeper字段。 原因分析 如果开启监控的集群在策略中心配置了拦截级别的策略规则,则可能导致开启监控失败。
auth.json”,该文件中的两个对象分别为源镜像仓库和目标镜像仓库(即Registry)的账号和密码;另一个为镜像列表文件“images.json”,文件内容由多条镜像同步规则组成,每一条规则包括一个源镜像仓库(键)和一个目标镜像仓库(值)。将这两个文件准备好以后,放在ima
或在接入超时后提示“注册失败”。 如集群已处于“注册失败”状态,请单击右上角按钮重新注册集群,然后根据排查思路进行问题定位。 已接入的集群状态显示为“不可用”,请参考本文档中的排查思路解决。 排查思路 集群处于异常状态的排查思路大致可根据报错信息进行定位,如表1所示。 表1 报错信息说明
ainerd等)和数据(包括容器、镜像等)全部清理,一旦执行清理操作节点状态将不可恢复。因此,执行之前请确认节点是否已经不再被本地集群使用。 使用场景 本地集群ucs-ctl delete cluster和ucs-ctl delete node命令执行失败时,需要参考本文档手动清理节点。
目标节点数/1000 * 2.4G + 目标Pod规模/1w * 1G。 例如2000节点和2w个Pod的场景下,内存申请值 = 2 * 2.4G + 2 * 1G = 6.8G 表1 volcano-controller和volcano-scheduler的建议值 集群节点数/Pod规模 CPU
"iamUserIDs" : [ "xxxxx" ] } } 响应示例 状态码: 201 返回新建权限策略的UID信息。 { "uid" : "xxxx-xxxx-xxxx-xxxx" } 状态码 状态码 描述 201 返回新建权限策略的UID信息。 400 客户端请求错误,服务器无法执行请求