检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在左侧导航栏中选择“指标浏览”。 从下拉列表选择需要监控的Prometheus实例。 通过“全量指标”或“按普罗语句添加”方式选择一个或多个关注的指标。 通过“全量指标”方式选择指标 图1 通过“全量指标”方式选择指标 监控条件设置的详细说明请参见添加指标图表详情填写说明。 选择某个关注
深入了解。 巡检与问题定界 日常运维中,遇到异常难定位、日志难获取等问题,需要一个监控平台对资源、日志、应用性能进行全方位的监控。 AOM深度对接应用服务,一站式收集基础设施、中间件和应用实例的运维数据,通过指标监控、日志分析、服务异常报警等功能,支持日常巡检资源、应用整体运行情况,及时发现并定界应用与资源的问题。
维服务。对于云上应用的运维也提出了新的挑战。 图1 运维现有问题 运维人员技能要求高,配置繁杂,同时需要维护多套系统。对于分布式追踪系统,学习和使用成本高,并且稳定性差。 云化场景下的分布式应用问题分析困难主要表现在如何可视化微服务间的依赖关系、如何提高应用性能体验、如何将散落的日志进行关联分析、如何快速追踪问题。
按照配置方式的不同,创建指标告警规则可分为两种:按全量指标创建、按Prometheus命令创建。 注意事项 指标告警规则的状态(正常、超限阈值、生效中、停用中)发生变化时,如需使用邮件或短信等方式发送通知,请参考创建告警行动规则设置告警行动规则。 按全量指标和按Prometheus命令创建指标
控制。 2018-9-5 云应用立体运维,提供资源、应用、应用体验的全链路、多层次、一站式运维平台。 智能运维,提供智能阈值机制,基于机器学习动态阈值告警,提升监控效率。 端侧分析,支持移动APP和Browser性能指标分析和崩溃分析等,实现应用全端掌控。 事务洞察,支持自动发现事务性能问题,智能筛选,完成根因探究。
在组件层,主要监控组件的告警信息。支持从组件层面查询活动告警与历史告警,快速修复告警问题。 图1 组件监控 环境监控 在环境页面,以环境概览、日志、性能、调用链、告警的形式,深度的监控和分析环境的核心指标。针对预发环境、生产环境按环境进行指标观测,监控环境的进程状况、应用性能(错误数、请求数、平均响应时间)、告警分
云容器引擎服务(Cloud Container Engine,简称CCE)是提供高性能可扩展的容器服务,基于云服务器快速构建高可靠的容器集群,深度整合网络和存储能力,兼容Kubernetes及Docker容器生态。帮助您轻松创建和管理多样化的容器工作负载,并提供容器故障自愈,监控日志采集,自动弹性扩容等高效运维能力。
云容器引擎服务(Cloud Container Engine,简称CCE)是提供高性能可扩展的容器服务,基于云服务器快速构建高可靠的容器集群,深度整合网络和存储能力,兼容Kubernetes及Docker容器生态。帮助您轻松创建和管理多样化的容器工作负载,并提供容器故障自愈,监控日志采集,自动弹性扩容等高效运维能力。
rest_client_requests_total REST请求数量 workqueue_adds_total 工作队列Add次数 workqueue_depth 工作队列深度 workqueue_queue_duration_seconds_bucket 任务在工作队列中存在的时长 aggregator_una
(¥)、美元 ($)、欧元 (€)、英镑 (£)、卢布 (₽) 速度 m/s、km/h、m/h、knot、ft/s 温度 C、K、F、R 吞吐量 ops、reqps、readps、wps、opm、readpm、wpm 时间间隔 ns、μs、ms、s、min、h、d、week、month、year
实例“test-aom”。 单击“全量指标”,选择一个指标并复制指标名称。 单击“按普罗语句添加”,输入普罗表达式:sum(指标名称) by (aom_source_account_name),即可查看指标是否接入。 图7 查看指标 单击“全量指标”,选择需要监控的指标,即可查看
新建消息模板。 - 设置完成后,单击“确定”。 配置告警 按照配置方式的不同,创建指标告警规则可分为:按全量指标创建和按Prometheus命令创建。 下面的操作以按全量指标创建告警规则为例说明。 在左侧导航栏选择“告警管理 > 告警规则”,单击“创建”。 设置告警规则基本信息,具体的参数说明如表2所示。
时产生阈值告警,当没有指标数据上报时产生数据不足事件。 按照配置方式的不同,创建指标告警规则可分为两种:按全量指标创建和按Prometheus命令创建。下面的操作以按全量指标创建为例说明。 登录AOM 2.0控制台。 在左侧导航栏中选择“告警管理 > 告警规则”。 在“指标或事件”页签单击“创建”。
及两个以上的指标时,需要同时满足以下条件才会触发告警: 指标的指标数据满足设置的检测规则。 指标的指标维度中除名称外的其余参数一致。 按全量指标创建告警规则 登录AOM 2.0控制台。 在左侧导航栏中选择“告警管理 > 告警规则”。 单击“创建”。 设置告警规则基本信息,具体的参数说明如表1所示。
Agent的详情操作请参见安装UniAgent。 配置告警 按照配置方式的不同,创建指标告警规则可分为:按全量指标创建和按Prometheus命令创建。 下面的操作以按全量指标创建告警规则为例说明。 在“总览”页面切换为“应用视角”。 在快速入门区域,单击“配置告警”,进入“告警规则”页面。
按照需要添加指标数据。添加指标数据的方式有两种: 全量指标:展示所有的指标数据,选择需要的指标。通过该方式选择指标时,仅支持英文展示和英文搜索;同时支持直接输入指标名称,然后单击下方的“生成”即可在没有上报指标的时候,配置指标数据(仅在华东-上海一区域支持直接输入,其他区域只可以选择指标名称)。以全量指标方式添加指标数据时,最多支持添加100指标数据。
lobytes 磁盘读取速率 该指标用于统计每秒从磁盘读出的数据量。 ≥0 千字节/秒(kB/s) ma_container_disk_write_kilobytes 磁盘写入速率 该指标用于统计每秒写入磁盘的数据量。 ≥0 千字节/秒(kB/s) GPU显存 ma_contai
恢复该主机应用指标采集,并清除“ICAgent停止采集应用指标”告警 。 由于JOB在完成任务之后,会自动退出。如果您需要监控JOB指标,要保证存活时间大于90秒才能采集到指标数据。 采集器资源消耗 采集器在采集基础指标时的资源消耗情况和容器、进程数等因素有关,在未运行任何业务的VM上,采集器将消耗30M内存、1%
恢复该主机应用指标采集,并清除“ICAgent停止采集应用指标”告警 。 由于JOB在完成任务之后,会自动退出。如果您需要监控JOB指标,要保证存活时间大于90秒才能采集到指标数据。 采集器资源消耗 采集器在采集基础指标时的资源消耗情况和容器、进程数等因素有关,在未运行任何业务的VM上,采集器将消耗30M内存、1%
恢复该主机应用指标采集,并清除“ICAgent停止采集应用指标”告警 。 由于JOB在完成任务之后,会自动退出。如果您需要监控JOB指标,要保证存活时间大于90秒才能采集到指标数据。 采集器资源消耗 采集器在采集基础指标时的资源消耗情况和容器、进程数等因素有关,在未运行任何业务的VM上,采集器将消耗30M内存、1%