应用平台 APPSTAGE-ALARM类型插件说明:alarmmonitor
alarmmonitor
周期性执行脚本,将指定文件中的业务告警数据,上报给HCW监控系统。
业务文件中写入的告警数据的站点site需要为cn_product_cbu,否则上报到监控服务后告警列表不会显示该告警。
参数配置
为插件配置业务文件采集路径:
collect_file_path:${ALARM_HOME}/*.dat,/opt/huawei/alarm/hispace/*.dat
该配置为绝对路径,可以配置变量,并且能够把识别到的环境变量展开,可以配置通配符(*.),并将识别到的路径展开,可以配置多个路径,按逗号分隔。
如果使用了环境变量,要求在~/.bashrc中添加export命令进行配置。如export ALARM_HOME=/opt/huawei/alarm,在配置生效后,可通过source ~/.bashrc或重启机器,再启动agent进行数据采集。
消息样例及含义说明
插件按行上报业务文件中的监控告警数据,告警上报的数据会根据产品ID、服务ID、level等信息生成一个唯一标识,该标识为告警的指纹信息,监控服务会依据指纹信息进行告警的判重,不同的上报源指纹信息不同,具体如下:
- CES 上报:产品id、服务id、'alarm_id'_'metric_name'、'dimension'、告警级别,其中单引号内字段均为CES上报告警体中的原始字段,alarm_id为CES告警id,metric_name为指标名称,dimension一般为资源id。
- AOM 上报:产品id、服务id、'id'、'cluster_name'、告警级别,其中单引号内字段均为AOM上报告警体中的原始字段,id为AOM告警id,cluster_name一般为资源id。
- 监控服务上报:产品id、服务id、'id'、'source_tag'、告警级别,其中单引号内字段均为监控服务上报告警体中的原始字段。
- aiops上报:租户id、产品id、服务id、'id',其中单引号内字段为aiops上报告警体中的原始字段。
监控告警数据样例如下:
#上报告警 { "id":"q20934uii2uss8i7", #单位: | 类型:string | 说明:告警ID "name":"The IF getxxx is abnormal", #单位: | 类型:string | 说明:告警名称 "level":"major", #单位: | 类型:string | 说明:告警级别 "site": "cn_product_cbu", #单位: | 类型:string | 说明:站点 "tenant_id": "T006", #单位: | 类型:string | 说明:租户ID "application_id": "com.huawei.wiseeye", #单位: | 类型:string | 说明:产品ID "service_id": "com.huawei.wiseeyewatchservice", #单位: | 类型:string | 说明:服务ID "env_id": "6132b864b7c6437691fa55c1f44dec4e", #单位: | 类型:string | 说明:可选, 环境ID "source_tag":"host-10-22-0-36", #单位: | 类型:string | 说明:告警产生来源 "op_type":"firing", #单位: | 类型:string | 说明:告警操作类型(firing 产生告警、resolved 清除告警) "details":"DownloadSuccess is less than 90% for 5m", #单位:| 类型:string | 说明:告警详情 "clear_type":"ADAC", #单位: | 类型:string | 说明:清除类型,固定写为ADAC,无具体逻辑含义 "start_timestamp":1514942958000, #单位: | 类型:long | 说明:告警开始时间戳 "end_timestamp":0 #单位: | 类型:long | 说明:告警结束时间戳 "receive":"xx8000000", #单位: | 类型:string | 说明:可选, 告警接收人名单 } #清除告警 { "id":"qjxswr8ge2no5mat", #单位: | 类型:string | 说明:告警ID "name":"The IF getxxx is abnormal", #单位: | 类型:string | 说明:告警名称 "level":"critical", #单位: | 类型:string | 说明:告警级别 "site": "cn_dev_default", #单位: | 类型:string | 说明:站点 "tenant_id": "T006", #单位: | 类型:string | 说明:租户ID "application_id": "com.huawei.wiseeye", #单位: | 类型:string | 说明:产品ID "service_id": "com.huawei.wiseeyewatchservice", #单位: | 类型:string | 说明:服务ID "env_id": "6132b864b7c6437691fa55c1f44dec4e", #单位: | 类型:string | 说明:可选, 环境ID "source_tag":"host-10-22-0-36", #单位: | 类型:string | 说明:告警产生来源 "op_type":"resolved ", #单位: | 类型:string | 说明:告警操作类型(firing 产生告警、resolved 清除告警) "start_timestamp":0, #单位: | 类型:long | 说明:告警开始时间戳 "end_timestamp":1515242958000 #单位: | 类型:long | 说明:告警结束时间戳 "receive":"xx8000000", #单位: | 类型:string | 说明:可选, 告警接收人名单 }