检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开启多集群健康监控 您可以使用UCS的容器智能分析能力为集群开启监控,以实时监控与守护集群的健康状态。 本小节将指导您如何快速为附着集群开启监控。 前提条件 准备一个云上虚拟私有云(VPC),并将集群的第三方云厂商网络环境与该VPC连通,具体可以选用如下两种方案: 虚拟专用网络(
访问日志各字段解读 sidercar会在标准输出中打印访问日志,istio 1.18及以上版本的访问日志提供JSON格式的内容,下面以如下istio日志为例对每个字段的含义进行解读,解读内容见下表。 { "start_time": "%START_TIME%", "route_name":
监控GPU虚拟化资源 本章介绍如何在UCS控制台界面查看GPU虚拟化资源的全局监控指标。 前提条件 完成GPU虚拟化资源准备。 当前本地集群内存在节点开启GPU虚拟化能力。 当前本地集群开启了监控能力。 GPU虚拟化监控 登录UCS控制台,在左侧导航栏选择“容器智能分析”。 选择
访问日志的响应标记解读 UH(没有健康后端) 含义 UH(NoHealthyUpstream)表示上游服务没有健康的后端实例。 典型现象 目标服务的后端实例都不可用,如构造将目标服务的实例数设置为0。 典型日志 客户端日志。 应对建议 检查目标服务的负载配置,确认服务的实例均正常运行。
现,精心打造云原生应用的良好可观测性能力。 将云原生基础设施监控和应用负载监控进行关联,提供全栈监控,使用户能够随时随地清晰地感知基础设施和应用负载状态。 能够对Kubernetes集群、容器组(Pod)等进行详细监控,对业务提供端到端追踪和可视化,提供集群健康诊断能力,大大缩短问题分析定位时间。
容器洞察概述 容器洞察提供基于Kubernetes原生类型的容器监控能力,全面监控集群的健康状态和负荷程度。 支持集群、节点、工作负载的资源全景。 支持节点的资源占用、工作负载的资源消耗。 展示近一小时的CPU/内存指标。 父主题: 容器洞察
集群因策略拦截开启监控失败怎么办? 问题现象 集群开启监控时,接口返回报错,报错信息中含有gatekeeper字段。 集群开启监控请求下发成功,但是监控状态一直显示“安装中”,超时后显示“安装失败”,前往集群中检查插件的Pod状态,Pod的事件中含有gatekeeper字段。 原因分析
系统指标 安装Kubernetes Metrics Server或kube-prometheus-stack。 若您选择安装kube-prometheus-stack插件,在安装该插件后,需要将Prometheus注册为Metrics API的服务,具体操作请参见通过Metrics API提供资源指标。
单击需要查询的实例名称,进入实例的基本信息页面。 单击“业务监控”或“日志”选项卡,查看具体的监控指标以及日志详情。各服务提供的展示内容可能存在差异,请根据页面提示进行操作。 业务监控:云原生服务中心内置了Prometheus监控能力,服务提供商可以按照自身业务情况,配置所需要展示的服
您也可安装对应厂商所提供的metric-server插件。 Prometheus:Prometheus是一套开源的系统监控报警框架,能够采集丰富的Metrics(度量数据),因此除基础资源指标外,Prometheus还支持提供自定义指标。 约束与限制 需要创建弹性扩缩容策略的集群至少有一个实例,
查看集群详情 集群详情页面提供了单个集群的监控情况,包含资源概况、资源消耗TOP统计和用量统计多维度的信息概况。通过集群监控您可以及时了解集群的资源使用情况和趋势,快速响应可能存在的风险项,保证集群流畅运行。 您可以将鼠标悬停在图表上,以便查看每分钟的监控数据。 图1 集群详情页面 表1 集群详情页面
常的情况。 Kubernetes提供了三种健康检查的探针: 存活探针:livenessProbe,用于检测容器是否正常,类似于执行ps命令检查进程是否存在。如果容器的存活检查失败,集群会对该容器执行重启操作;若容器的存活检查成功则不执行任何操作。 就绪探针:readinessPr
支持多云多集群配置策略的统一管理,支持企业级项目租户的权限管理,可以通过统一的策略管理中心完成多云多集群的合规性审计。 可视化监控洞察,运维更简单 支持立体化监控运维,并且兼容开源Prometheus和OpenTelemetry生态,拥有灵活的Dashboard,支持智能巡检、容器洞察、服务网格洞察。 算力统一调度,部署最优,运行最佳
服务网格 网格管理 服务管理 灰度发布 流量治理 服务安全 服务网关 监控中心
el-collector组件提供了一系列指标,您可以使用AOM或Prometheus来监控这些指标,以便及时了解log-agent插件的运行情况,具体操作可参考使用AOM监控自定义指标或使用Prometheus监控自定义指标。详细的指标如下所述: log-operator组件(仅华为云集群)
插件管理 kube-prometheus-stack插件 log-agent插件 metrics-server volcano gpu-device-plugin e-backup插件 父主题: 单集群管理
常的情况。 Kubernetes提供了两种健康检查的探针: 存活探针:livenessProbe,用于检测容器是否正常,类似于执行ps命令检查进程是否存在。如果容器的存活检查失败,集群会对该容器执行重启操作;若容器的存活检查成功则不执行任何操作。 就绪探针:readinessPr
由于业务部署分散,往往中心Region、IDC、边缘节点等各个区域的资源需要单独进行监控,对于运维来说都要付出比较大的人力和精力。 立体化监控运维 华为云UCS支持立体化的监控运维,支持开源Prometheus和OpenTelemetry生态,可以统一监控所有区域的集群资源,大幅提升运维效率。
TCP监听器:3个,端口分别为80、443、5443。 TCP后端服务器组:3个,分别对应三台Master节点的80、443、5444端口。 监听器关联的TCP后端服务器组关系,请参见表8。 表8 监听器与后端服务器组 监听器(协议/端口) 后端服务器组名称 后端服务器组节点映射和端口 TCP/80 ingress-http
服务运维系统插件由云原生服务中心提供,当部署的服务声明了诸如日志、监控运维能力配置时,集群中如果没有对应的运维能力插件,将会自动安装,您可通过“服务插件”页面查看各个集群中部署的运维能力插件。 背景知识 服务运维系统插件分别用于提供服务日志和监控能力。 ops-operator插件用于提供日志功