检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查询缓存,ETCD用来存储AOM的配置数据,ElasticSearch用来存储资源、日志、告警和事件。 业务计算层 AOM提供告警、日志、监控、指标等基础运维服务,同时也提供异常检测与分析等AI服务。
NPU名称。 npuID NPU ID。 进程指标 appName 服务名称。 clusterId 集群ID。 clusterName 集群名称。 nameSpace 集群的命名空间。 processID 进程ID。 processName 进程名称。 serviceID 存量ID。
monitor_object_templates Array of strings 监控对象模板(创建告警时需要补齐里面的内容)。 monitor_objects Array of Map<String,String> objects 监控对象列表。键值对形式,键值为: “event_type”:通知类型
足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件。 告警规则分为阈值规则和事件类告警规则两种。通常情况下,通过阈值规则,实时监控环境中主机、组件等资源使用情况。当资源使用告警过多,告警通知过于频繁时,通过事件类告警规则,简化告警通知,快速识别服务的某一类资源使用问题并及时解决。
M提供指令下发,如脚本下发和执行。它自身不提供数据采集能力,运维由不同的插件分工采集,插件按需安装、升级和卸载。后续逐步上线其它插件(如云监控和主机安全),统一规范管理。 AK/SK 访问密钥。通过提供租户级别的AK/SK来安装ICAgent,以便于采集日志数据。 ICAgent
aom:metric:list 查询时序数据 查询时序数据 aom:metric:get 查询指标 查询指标 aom:metric:get 查询监控数据 查询监控数据 相关链接 《IAM产品介绍》 创建用户并授权使用AOM 策略支持的授权项
击文本框,选择对应的统计规则及其关键词,即可自动输入。同时,统计规则创建成功后,AOM会对关键词进行统计并生成指标,您可在“指标监控”页面对其进行监控。 查看搜索结果。 通过柱状图查看统计数据 柱状图展示了满足2中已设查询条件的日志条数在时间上的分布。横轴显示时间,并对横轴进行3
一站式运维平台 应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,实时监控您的应用及相关云资源,分析应用健康状态,提供灵活丰富的数据可视化功能,帮助您及时发现故障,全面掌握应用、资源及业务的实时运行状况。 AOM有哪些优势
otal 读取花费的总时长 process_cpu_seconds_total 该指标计算使用到utime(Go进程执行在用户态模式下的滴答数)和stime(Go进程执行在内核态时候的滴答数,例如系统调用时),参数的单位为jiffies,jiffy描述了两次系统定时器中断之间的滴
主机的操作系统满足AOM支持的操作系统(AOM支持的操作系统详见操作系统使用限制)且主机已安装ICAgent,即可将主机接入到AOM中进行监控。 ICAgent ICAgent是AOM的采集器,分别运行在每台主机上用于实时采集指标、日志和应用性能数据。安装ICAgent是使用AOM的前提,否则将无法正常使用AOM。
应用资源管理 表1 应用资源管理基本概念 术语 说明 应用资源管理 简称CMDB,在AOM2.0中管理应用与云资源的关系,并为AOM的监控、自动化运维、APM服务提供统一、及时的资源环境管理服务。 应用TOPO结构 资源与应用关系的层次结构。CMDB遵循“应用 + 子应用(可选)+
5系统的磁盘分区指标 5.12.133 容器的标准输出日志支持多行采集。 5.12.130 支持将CCE日志直接接入LTS。 5.12.120 增加进程的最大句柄数指标。 支持LTS的podlb域名的切换能力。 5.12.111 新增线程指标、修复“获取lvs磁盘分区指标失败”问题。 5.12
在“采集任务”页签中,您可以对该中间件或自定义插件已创建的采集任务进行管理。具体操作如下: 您还可以在左侧导航栏选择“Prometheus监控 > 实例列表”,进入目标Prometheus实例详情页面查看或删除该Prometheus实例相关的中间件采集任务。 表1 相关操作 操作
该指标用于统计主机本地时间与NTP服务器时间是否同步。 0、1 0表示同步 1表示未同步 无 aom_node_process_number 进程数量 该指标用于统计测量对象上的进程数量。 ≥0 无 aom_node_gpu_temperature_centigrade 显卡温度 该指标用于统计显卡的温度。
user_id String 用户id。 表6 MetricAlarmSpec 参数 参数类型 描述 monitor_type String 监控类型。 “all_metric”:全量指标 “promql”:PromQL “resource”:(日落)资源类型 枚举值: all_metric
基础指标:Flink指标 介绍通过Flink服务上报到AOM的指标的类别、名称、含义等信息。 表1 Flink服务监控指标 分类 指标 指标含义 单位 CPU flink_jobmanager_Status_JVM_CPU_Load JobManager中JVM的CPU负载。 无
集群指标的命名空间。 PAAS.NODE 主机指标、网络指标、磁盘指标和文件系统指标的命名空间。 PAAS.CONTAINER 组件指标、实例指标、进程指标和容器指标的命名空间。 PAAS.SLA SLA指标的命名空间。 自定义指标的命名空间:用户自定义,自定义时命名空间必须以字母开头,但不能以“PAAS
用于DNS解析域名,下载UniAgent包时解析OBS地址、解析UniAgent服务端地址。 1 允许 IPv4 TCP 443 100.125.0.0/16 采集监控数据上报到AOM服务端。 父主题: 采集管理
详细说明请参见基础指标-虚机指标。 如需通过Prometheus采集CCE集群指标数据上报到AOM,具体操作请参见使用Prometheus监控CCE集群指标。 云容器实例 CCI 云容器实例CCI服务默认自动将指标上报到AOM,其指标数据开箱即用。用户无需手动接入。 单击“云容器实例
资源添加方式选择“动态资源”才会显示。 最多可以添加100条资源匹配规则。 - 资源类型 根据实际选择资源类型:集群、主机、应用、组件、实例、进程和容器。 说明: 资源添加方式选择“指定资源”才会显示。 集群 资源名称 展示勾选的资源名称。 说明: 资源添加方式选择“指定资源”才会显示。