检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
80% kube-prometheus-stack插件状态 kube-prometheus-stack近24小时CPU使用率最大值是否超过80% kube-prometheus-stack近24小时内存使用率最大值是否超过80% kube-prometheus-status插件状态
现,精心打造云原生应用的良好可观测性能力。 将云原生基础设施监控和应用负载监控进行关联,提供全栈监控,使用户能够随时随地清晰地感知基础设施和应用负载状态。 能够对Kubernetes集群、容器组(Pod)等进行详细监控,对业务提供端到端追踪和可视化,提供集群健康诊断能力,大大缩短问题分析定位时间。
容器洞察概述 容器洞察提供基于Kubernetes原生类型的容器监控能力,全面监控集群的健康状态和负荷程度。 支持集群、节点、工作负载的资源全景。 支持节点的资源占用、工作负载的资源消耗。 展示近一小时的CPU/内存指标。 父主题: 容器洞察
集群因策略拦截开启监控失败怎么办? 问题现象 集群开启监控时,接口返回报错,报错信息中含有gatekeeper字段。 集群开启监控请求下发成功,但是监控状态一直显示“安装中”,超时后显示“安装失败”,前往集群中检查插件的Pod状态,Pod的事件中含有gatekeeper字段。 原因分析
系统指标 安装Kubernetes Metrics Server或kube-prometheus-stack。 若您选择安装kube-prometheus-stack插件,在安装该插件后,需要将Prometheus注册为Metrics API的服务,具体操作请参见通过Metrics API提供资源指标。
访问日志各字段解读 sidercar会在标准输出中打印访问日志,istio 1.18及以上版本的访问日志提供JSON格式的内容,下面以如下istio日志为例对每个字段的含义进行解读,解读内容见下表。 { "start_time": "%START_TIME%", "route_name":
容器智能分析仪表盘提供了预置视图,您可单击视图名称边上的“切换视图”按钮,选择需要的视图查看监控数据。系统预置视图如表1所示。 表1 预置视图 视图名称 视图参数 视图中包含的监控指标 集群视图(默认视图) 集群 节点数/磁盘不可用节点数/不可用节点数 CPU/内存使用率 CPU/内存Requests水位
您也可安装对应厂商所提供的metric-server插件。 Prometheus:Prometheus是一套开源的系统监控报警框架,能够采集丰富的Metrics(度量数据),因此除基础资源指标外,Prometheus还支持提供自定义指标。 约束与限制 需要创建弹性扩缩容策略的集群至少有一个实例,
单击需要查询的实例名称,进入实例的基本信息页面。 单击“业务监控”或“日志”选项卡,查看具体的监控指标以及日志详情。各服务提供的展示内容可能存在差异,请根据页面提示进行操作。 业务监控:云原生服务中心内置了Prometheus监控能力,服务提供商可以按照自身业务情况,配置所需要展示的服
访问日志的响应标记解读 UH(没有健康后端) 含义 UH(NoHealthyUpstream)表示上游服务没有健康的后端实例。 典型现象 目标服务的后端实例都不可用,如构造将目标服务的实例数设置为0。 典型日志 客户端日志。 应对建议 检查目标服务的负载配置,确认服务的实例均正常运行。
查看集群详情 集群详情页面提供了单个集群的监控情况,包含资源概况、资源消耗TOP统计和用量统计多维度的信息概况。通过集群监控您可以及时了解集群的资源使用情况和趋势,快速响应可能存在的风险项,保证集群流畅运行。 您可以将鼠标悬停在图表上,以便查看每分钟的监控数据。 图1 集群详情页面 表1 集群详情页面
el-collector组件提供了一系列指标,您可以使用AOM或Prometheus来监控这些指标,以便及时了解log-agent插件的运行情况,具体操作可参考使用AOM监控自定义指标或使用Prometheus监控自定义指标。详细的指标如下所述: log-operator组件(仅华为云集群)
插件管理 kube-prometheus-stack插件 log-agent插件 metrics-server volcano huawei-npu插件 gpu-device-plugin e-backup插件 父主题: 单集群管理
由于业务部署分散,往往中心Region、IDC、边缘节点等各个区域的资源需要单独进行监控,对于运维来说都要付出比较大的人力和精力。 立体化监控运维 华为云UCS支持立体化的监控运维,支持开源Prometheus和OpenTelemetry生态,可以统一监控所有区域的集群资源,大幅提升运维效率。
支持多云多集群配置策略的统一管理,支持企业级项目租户的权限管理,可以通过统一的策略管理中心完成多云多集群的合规性审计。 可视化监控洞察,运维更简单 支持立体化监控运维,并且兼容开源Prometheus和OpenTelemetry生态,拥有灵活的Dashboard,支持智能巡检、容器洞察、服务网格洞察。 算力统一调度,部署最优,运行最佳
od列表”和“监控”页签查看相应内容。 表1 节点详情页面 词条 词条描述 概览 单击节点名称,可以进入节点概览页。在这里,您可以方便地查看: 资源健康概况:包括节点状态、Pod数量以及异常事件。 节点监控:包括近1小时、近8小时、近24小时以及自定义时间段内的监控概览,其中包括
为了保证负载伸缩的稳定性,HPA controller设置了以下功能: 稳定窗口 在监控到指标数据达到期待值(即满足伸缩标准)时,HPA controller会在所设定的稳定窗口期内持续检测,如果检测结果显示该时间段内的指标数据持续达到期待值,才会进行伸缩。默认扩容稳定窗口时长为0秒,缩容稳定窗口时长
表”和“监控”页签查看相应内容。 表1 Pod详情页面 词条 词条描述 概览 单击实例名称,进入实例概览页。 资源概况:Pod状态、容器数量(异常/总数)以及异常事件。 监控概览:包括CPU使用率、内存使用率和网络流入/流出速率这些常见的监控指标。 图2 资源概况和监控概览 容器
d列表”和“监控”页签查看相应内容。 表1 工作负载详情页面 词条 词条描述 概览 单击工作负载名称,进入工作负载的“概览”页面。 资源概况:包括负载状态、Pod数量(异常/总数)以及异常事件。 监控概览:包括CPU使用率、内存使用率和网络流入/流出速率这些常见的监控指标。 图2
以资源的到期日计算第一次自动续费日期和计费周期。 资源自动续费周期以您选择的续费时长为准。例如,您选择了3个月,即在每次到期前自动续费3个月。 在资源到期前均可开通自动续费,到期前7日凌晨3:00首次尝试自动续费,如果扣款失败,每天凌晨3:00尝试一次,直至资源到期或者续费成功。