华为云用户手册

  • ICAgent版本说明 表1 ICAgent版本说明 版本号 说明 5.12.135 解决CPU使用率为0的问题 解决CCE1.23版本集群containerd节点容器网络指标缺失问题 支持采集EulerOS 2.5系统的磁盘分区指标 5.12.133 容器的标准输出日志支持多行采集。 5.12.130 支持将CCE日志直接接入LTS。 5.12.120 增加进程的最大句柄数指标。 支持LTS的podlb 域名 的切换能力。 5.12.111 新增线程指标、修复“获取lvs磁盘分区指标失败”问题。 5.12.100 上报内存指标增加内存workingset使用量、内存workingset使用率 容器采集支持通过标签区分stderr.log和stdout.log 容器上报增加Pod_ip的tag **配置匹配当前目录文件 5.12.98 增加LTS日志黑名单功能,更改容器指标来源为working_set 5.12.96 新增云资源发现类型 5.12.90 更新gpu指标来源 5.12.87 新增磁盘支持类型 5.12.75 适配安全容器场景 父主题: 资源接入 AOM
  • 标准输出配置 通过添加指定采集容器标准输出标签,用户可以指定采集pod下的对应容器名的标准输出日志。用户在pod的yaml中spec:template:metadata:annotations:字段增加以下字段来实现指定要采集的容器名称。 kubernetes.AOM.log.stdout: '["container_name0", "container_name1"]' 规则如下: 如果没有kubernetes.AOM.log.stdout:字段,默认采集该pod下全部容器的标准输出日志,兼容原有场景。 如果存在该字段,值为空,即kubernetes.AOM.log.stdout: '[]'则不采集该pod下容器的标准输出日志。 示例: spec: replicas: 1 selector: matchLabels: app: als729 version: v1 template: metadata: creationTimestamp: null labels: app: als729 version: v1 annotations: kubernetes.AOM.log.relabel: '{"key1":"value1","key2":"value2","key3":"value3","key4":"value4","key5":"value5","key6":"value6","key7":"value7","key8":"value8","key9":"value9","key10":"value10","key11":"value11","key12":"value12","key13":"value13","key14":"value14","key15":"value16"}' kubernetes.AOM.log.stdout: '["container-0","container_name1"]' 父主题: 容器日志采集配置
  • 数据订阅格式说明 AOM格式的指标JSON格式代码片断 package metrictype MetricDatas struct { Metrics []Metrics `json:"metrics"` ProjectId string `json:"project_id"`}type Metrics struct { Metric Metric `json:"metric"` Values []Value `json:"values"` CollectTime int64 `json:"collect_time"`}type Metric struct { Namespace string `json:"namespace"` Dimensions []Dimension `json:"dimensions"`}type Value struct { Value interface{} `json:"value"` Type string `json:"type"` Unit string `json:"unit"` StatisticValues string `json:"statisticvalues"` MetricName string `json:"metric_name"`}type Dimension struct { Name string `json:"name"` Value string `json:"value"`} kafka消息示例 key:,value:{"metrics":[{"metric":{"namespace":"PAAS.NODE","dimensions":[{"name":"nodeName","value":"test-vss-cop-master-1"},{"name":"nodeIP","value":"1.1.1.1"},{"name":"hostID","value":"75d97111-4734-4c6c-ae9e-f6111111111"},{"name":"nameSpace","value":"default"},{"name":"clusterId","value":"46a7bc0d-1d8b-11ea-9b04-333333333333333"},{"name":"clusterName","value":"test-vss-111"},{"name":"diskDevice","value":"vda"},{"name":"master","value":"true"}]},"values":[{"value":0,"type":"","unit":"Kilobytes/Second","statisticvalues":"","metric_name":"diskReadRate"},{"value":30.267,"type":"","unit":"Kilobytes/Second","statisticvalues":"","metric_name":"diskWriteRate"}],"collect_time":1597821030037}],"project_id":"111111111111111111111"} 告警数据格式说明 示例: { "events": [{ "id": "4346299651651991683", "starts_at": 1597822250194, "ends_at": 0, "arrives_at": 1597822250194, "timeout": 300000, "resource_group_id": "312313123112222222222232131312131", "metadata": { "kind": "Pod", "event_severity": "Major", "resource_type": "service", "clusterId": "6add4ef5-1358-11ea-a5bf-111111111", "event_type": "alarm", "clusterName": "cce-ief-4516140c-96ca-4a5f-8d85-1111111", "namespace": "PAAS.NODE", "name": "test15769793809553052-f5557bd7f-qnfkm", "event_name": "调度失败##FailedScheduling", "resource_id": "clusterName=cce-ief-4516140c-96ca-4a5f-8d85-111111;clusterID=6add4ef5-1358-11ea-a5bf-11111111111;kind=Pod;namespace=30d5758f166947c6b164af604a654b09;name=test15769793809553052-f5557bd7f-qnfkm;uid=589fc746-245d-11ea-a465-fa163e5fc15d", "nameSpace": "30d5758f166947c6b164af604a654b09", "resource_provider": "CCE", "nodeID": "589fc746-245d-11ea-a465-fa163e5fc15d" }, "annotations": { "alarm_probableCause_zh_cn": "FailedScheduling", "alarm_probableCause_en_us": "FailedScheduling", "message": "0/110 nodes are available: 1 node(s) had taints that the pod didn't tolerate, 109 node(s) didn't match node selector." }, "attach_rule": { } }], "project_id": "312313123112222222222232131312131"} 参数说明: 表4 告警参数 参数 参数类型 描述 events Array ofobjects,详见 表5。 事件或者告警详情。 project_id String 租户从 IAM 申请到的projectid,一般为32位字符串。 表5 EventModel 参数 参数类型 描述 id String 事件或者告警id,系统自动生成。 starts_at Long 事件或者告警产生的时间, CS T毫秒级时间戳。 ends_at Long 事件或者告警清除的时间,CST毫秒级时间戳,为0时表示未删除。 arrives_at Long 事件或者告警到达AOM的时间,CST毫秒级时间戳。 timeout Long 告警自动清除时间。毫秒数,例如一分钟则填写为60000。默认清除时间为3天。 resource_group_id String 资源组预留字段,当前默认和projectid的值一样。 metadata Object 事件或者告警的详细信息,为键值对形式。必须字段为: event_name:事件或者告警名称,类型为String; event_severity:事件级别枚举值。类型为String,四种类型 "Critical", "Major", "Minor", "Info"; event_type:事件类别枚举值。类型为String,event为普通告警,alarm为告警事件; resource_provider:事件对应云服务名称。类型为String; resource_type:事件对应资源类型。类型为String; resource_id:事件对应资源信息。类型为String。 annotations Object 事件或者告警附加字段,可以为空。 attach_rule Object 事件或者告警预留字段,为空。
  • 概述 本功能当前在华北-北京一、华北-北京四、华东-上海一、华东-上海二、华南-广州、西南-贵阳一、中国-香港、华南-深圳、华南-广州-友好用户环境、华北-乌兰察布一、亚太-曼谷和亚太-新加坡区域开放,如有需求可以通过提交工单,联系工程师为您开放此功能。 AOM提供告警降噪功能,您可以在发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,避免产生告警风暴。 告警降噪功能分为分组、去重、抑制、静默四部分。 去重为内置策略,服务后台会自动检验告警内容是否一致实现去重的效果,用户无需手动创建规则。 图1 告警降噪流程图 分组、抑制、静默需手动创建规则,创建方式见下方文档说明。 此模块只作用于 消息通知 部分,所有触发的告警和事件都可在告警、事件页面查看。 告警降噪中所有的规则条件均取自告警结构体中的"metadata"字段,可采用系统默认字段,也可根据需要自定义字段。 { "starts_at" : 1579420868000, "ends_at" : 1579420868000, "timeout" : 60000, "resource_group_id" : "5680587ab6*******755c543c1f", "metadata" : { "event_name" : "test", "event_severity" : "Major", "event_type" : "alarm", "resource_provider" : "ecs", "resource_type" : "vm", "resource_id" : "ecs123" , "key1" : "value1" // 创建告警规则时配置的告警标签 }, "annotations" : { "alarm_probableCause_zh_cn" : "可能原因", "alarm_fix_suggestion_zh_cn" : "修复建议" }} 父主题: 告警降噪
  • 概述 接入管理提供监控数据上报的网络通道建立和解除,以及监控数据上报使用的认证凭据生成和吊销等功能,帮助您快速的将监控数据接入到AOM。 本功能当前开放区域为:华北-北京一、华北-北京二、华东-上海一、华南-广州、中国-香港、亚太-新加坡,华东-上海二,华北-北京四,西南-贵阳一,乌兰察布一,其他区域暂未开放,敬请期待。 您可通过接入管理生成的认证凭据access_code,将原生Prometheus的指标通过remote write上报到AOM服务端,参见将Prometheus的数据上报到AOM,实现时序数据的长期存储;也可以通过access_code作为认证凭据来查询AOM中的数据,参见通过grafana查看AOM中的指标数据,AOM支持以下原生Prometheus的API: 查询普罗(Prometheus)接口URL: GET /v1/:project_id/api/v1/query GET /v1/:project_id/api/v1/query_range GET /v1/:project_id/api/v1/labels GET /v1/:project_id/api/v1/label/:label_name/values POST /v1/:project_id/api/v1/query POST /v1/:project_id/api/v1/query_range POST /v1/:project_id/api/v1/labels 调用以上API接口时,在请求header的Authorization字段加access_code。 示例:"Authorization: Bearer {access_code}" 或者 "Authorization: Basic base64Encode("aom_access_code:{access_code}")" 上报时序数据接口:POST /v1/:project_id/push base64Encode指的是将参数进行base64编码。 父主题: 接入管理
  • Agent包下载配置 表1 Agent包下载配置 区域 Agent包下载地址 SHA-256 华北-北京一 http://icagent-cn-north-1.obs.cn-north-1.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 华北-北京四 http://icagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 4cd070a00331cf4302043ce3e90625561b55ba245ff224922c01aa1fc0234a56 华北-北京二 http://icagent-cn-north-2.obs.cn-north-2.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 华北-乌兰察布一 http://icagent-cn-north-9.obs.cn-north-9.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 9426da2f8a60d54ab33aa9057c2100237b6781bf02ab9cbe0bc7849fa2a2c1f2 华东-上海一 http://icagent-cn-east-3.obs.cn-east-3.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 4cd070a00331cf4302043ce3e90625561b55ba245ff224922c01aa1fc0234a56 华东-上海二 http://icagent-cn-east-2.obs.cn-east-2.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 华南-广州 http://icagent-cn-south-1.obs.cn-south-1.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 4cd070a00331cf4302043ce3e90625561b55ba245ff224922c01aa1fc0234a56 华南-广州-友好用户环境 http://icagent-cn-south-4.obs.cn-south-4.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 85d2ea6a7ccc6a2fccd130ecda02cb191a95524d097c7137856e9392498b9256 西南-贵阳一 http://icagent-cn-southwest-2.obs.cn-southwest-2.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 中国-香港 http://icagent-ap-southeast-1.obs.ap-southeast-1.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 亚太-曼谷 http://icagent-ap-southeast-2.obs.ap-southeast-2.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 亚太-新加坡 http://icagent-ap-southeast-3.obs.ap-southeast-3.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 非洲-约翰内斯堡 http://icagent-af-south-1.obs.af-south-1.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 拉美-墨西哥城一 http://icagent-na-mexico-1.obs.na-mexico-1.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 1743365593a3d5a5704d070a645de3eaaa3b2f621967e2132d31dfc23f943d01 拉美-墨西哥城二 http://icagent-la-north-2.obs.la-north-2.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 509da7ad5405254d317645e6ff6da65be74ee7f08bd447d1cefc7ed192f676fd 拉美-圣保罗一 http://icagent-sa-brazil-1.obs.sa-brazil-1.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz c7b149e28795abbec906a650ed7e166a6839726ffc0873ecb3ebfee0048c0dc9 拉美-圣地亚哥 http://icagent-la-south-2.obs.la-south-2.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 023c83d91102ffc08b9a4500583c785e3905ccd3eb082f7326269a625fb8a6d2 父主题: 参考信息
  • 云审计 服务支持的AOM操作列表 AOM为运维人员提供一站式立体运维平台,实时监控应用、资源运行状态,通过数十种指标、告警与日志关联分析,快速锁定问题根源,保障业务顺畅运行。 AOM作为应用运维环境的多层次一站式运维监控平台,可以实现对云主机、 存储、网络、WEB容器、docker、kubernetes等应用运行环境的深入监控并进行集中统一的可视化管理,能够有效预防问题的产生及快速帮助应用运维人员定位故障,降低运维成本。同时,AOM开放统一API,支撑对接自研监控系统或者报表系统。AOM并非传统监控,它通过应用的角度看业务,满足企业对业务的高效和快速迭代的需求,可帮助企业实现 IT 对业务的有效支撑,保护、优化IT资产投资,使企业更好的达到其战略目标并实现IT资产价值的最大化。通过云审计服务,您可以记录与AOM服务相关的操作事件,便于日后的查询、审计和回溯。 资源类型为pe的事件,其实际执行服务为AOM,但操作入口位于云容器引擎(CCE)或应用管理与运维平台(ServiceStage)。 表1 云审计服务支持的AOM操作列表 操作名称 资源类型 事件名称 创建仪表盘 ams add-view-action 修改仪表盘 ams update-view-action 删除仪表盘 ams deleteDashboard 创建阈值 ams addThreshold 修改阈值 ams updateThreshold 删除阈值 ams deleteThreshold 删除订阅规则 apminventory deleteSubscribeRule 修改订阅规则名称 apminventory updateSubscribeName 创建订阅规则 apminventory createSubscribeRule 开启按需版 OpenOrCloseProService openProBillingService 关闭按需版 OpenOrCloseProService closeProBillingService 删除一条阈值规则 threshold_rules_v2 deleteOneAlarmById 批量删除阈值规则 threshold_rules_v2 deleteAlarmRules 修改阈值规则 threshold_rules_v2 updateAlarm 创建阈值规则 threshold_rules_v2 addAlarmForDT 修改事件类告警规则 event2alarm_rule updateEvent2AlarmRule 创建事件类告警规则 event2alarm_rule addEvent2AlarmRule 删除事件类告警规则 event2alarm_rule deleteEvent2AlarmRule 安装采集器 icmgr icagentInstall 升级采集器 icmgr icagentUpgrade 升级探针 icmgr pinPointUpgrade 卸载采集器 icmgr IcagentUninstall 指标和日志采集开关 icmgr metricAndLogSwitches 创建接入码 icmgr icmgrAddAccessCode 删除接入码 icmgr icmgrDelAccessCode 下发配置事件 icmgr webIcAgentEvent 清除告警 pushEvents clearEvents 创建告警行动规则 actionRule addActionRule 修改告警行动规则 actionRule updateActionRule 删除告警行动规则 actionRule delActionRule 创建消息模板 notificationTemplate addNotificationTemplate 修改消息模板 notificationTemplate updateTemplate 删除消息模板 notificationTemplate delTemplate 创建分组规则 groupRule addGroupRule 修改分组规则 groupRule updateGroupRule 删除分组规则 groupRule delGroupRule 创建抑制规则 inhibitRule addInhibitRule 修改抑制规则 inhibitRule updateInhibitRule 删除抑制规则 inhibitRule delInhibitRule 创建静默规则 muteRule addMuteRule 修改静默规则 muteRule updateMuteRule 删除静默规则 muteRule delMuteRule 创建或修改应用发现规则 apminventory addOrUpdateAppRules 删除应用发现规则 apminventory deleteAppRules 修改应用/主机/组件的别名/标签 apminventory updateInventoryTag 创建策略组 pe createPolicyGroup 删除策略组 pe deletePolicyGroup 更新策略组 pe updatePolicyGroup 启用策略组 pe enablePolicyGroup 停用策略组 pe disablePolicyGroup 创建策略 pe createPolicy 删除策略 pe deletePolicy 更新策略 pe updatePolicy 启用策略 pe enablePolicy 停用策略 pe disablePolicy 更新老化周期 als updateLogStorgeSetting 父主题: 云审计服务支持的关键操作
  • 告警标签特征 告警标签可应用于告警降噪模块的分组规则、抑制规则和静默规则,告警管理系统根据标签属性进行告警管理和通知。 告警标签为key:value键值对格式,支持用户自定义。key 和value只能由字母、数字和下划线组成,且不能以下划线开头,您最多可创建10个自定义标签。 如果在创建告警规则时设置了告警标签,触发的告警会自动添加该标签为告警属性。 消息模板中通过$event.metadata.key1变量获取告警标签信息,具体请参见消息模板变量说明。
  • AOM自定义策略样例 示例1:授权用户创建阈值规则的权限 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "aom:alarmRule:create" ] } ]} 示例2:拒绝用户删除应用发现规则 拒绝策略需要同时配合其他策略使用,否则没有实际作用。用户被授予的策略中,一个授权项的作用如果同时存在Allow和Deny,则遵循Deny优先。 如果您给用户授予AOM FullAccess的系统策略,但不希望用户拥有AOM FullAccess中定义的删除应用发现规则权限,您可以创建一条拒绝删除应用发现规则的自定义策略,然后同时将AOM FullAccess和拒绝策略授予用户,根据Deny优先原则,则用户可以对AOM执行除了删除应用发现规则外的所有操作。拒绝策略示例如下: { "Version": "1.1", "Statement": [ { "Effect": "Deny", "Action": [ "aom:discoveryRule:delete" ] } ]} 示例3:多个授权项策略 一个自定义策略中可以包含多个授权项,且除了可以包含本服务的授权项外,还可以包含其他服务的授权项,可以包含的其他服务必须跟本服务同属性,即都是项目级服务。多个授权语句策略描述如下: { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "aom:*:list", "aom:*:get", "apm:*:list", "apm:*:get" ] }, { "Effect": "Allow", "Action": [ "cce:cluster:get", "cce:cluster:list", "cce:node:get", "cce:node:list" ] } ]}
  • 创建资源分组 在左侧导航栏中选择“资源分组”,可查看资源分组的信息。 单击右上角的“创建资源分组”。 根据界面提示配置参数,具体如表1所示。 表1 配置参数 参数 说明 示例 分组名称 输入分组名称。 AOM 企业项目 选择企业项目,若没有企业项目,需要单击“创建企业项目”创建企业项目。 default 描述 输入描述信息。 - 组标签 输入标签键和标签值。 说明: 最多可添加10个组标签。 - 资源列表 添加资源 单击“添加资源”,可以添加资源。 - 资源添加方式 根据实际需求,选择“动态资源”或“指定资源”。 如果您需要删除添加的全部资源,可在资源添加方式右侧,单击删除。 动态资源 资源匹配规则 根据界面提示,选择所需的资源匹配规则。 如果您需要配置多条规则,可单击“添加规则”。 如果您需要删除单条资源匹配规则,可单击。 说明: 资源添加方式选择“动态资源”才会显示。 最多可以添加100条资源匹配规则。 - 资源类型 根据实际选择资源类型:集群、主机、应用、组件、实例、进程和容器。 说明: 资源添加方式选择“指定资源”才会显示。 集群 资源名称 展示勾选的资源名称。 说明: 资源添加方式选择“指定资源”才会显示。 arm-test-77169 资源列表 勾选资源名称。 说明: 资源添加方式选择“指定资源”才会显示。 arm-test-77169 参数配置后,单击“确定”。
  • 更多事件类告警规则操作 事件类告警规则创建完成后,您还可以执行表2中的操作。 表2 相关操作 操作 说明 修改事件类告警规则 单击“操作”列的“修改”。 删除事件类告警规则 删除一个事件类告警规则:单击“操作”列的“删除”。 删除一个或多个事件类告警规则:选中一个或多个事件类告警规则前的复选框,在规则列表上方单击“删除”。 迁移事件类告警规则 选中一个或多个事件类告警规则前的复选框,在规则列表上方单击“一键迁移至2.0”,可将选中的事件类告警规则批量迁移至AOM 2.0。 须知: 迁移操作无法恢复,请谨慎操作。 启、停事件类告警规则 单击“操作”列的“启用”或“停用”。 搜索事件类告警规则 支持规则名称、描述和指标名称搜索,可在右上角的搜索框中输入关键字,单击后显示匹配对象。
  • 健康状态类图表(包括阈值状态、主机状态、组件状态图表) 支持阈值、主机、组件状态的展示。可将关注的一个或多个阈值规则、主机或组件的状态信息分别置于同一图表中进行监控。 阈值状态图表:实时监控阈值规则的状态。 图3 阈值状态图表 添加阈值状态图表前请先创建阈值规则,否则将无法添加阈值状态图表。 主机状态图表:实时监控主机的状态。 图4 主机状态图表 组件状态图表:实时监控组件的状态。 图5 组件状态图表
  • 更多仪表盘操作 仪表盘创建完成后,您还可以执行表1中的操作。 表1 相关操作 操作对象 操作 说明 仪表盘 另存为 保存仪表盘后,通过页面右侧的“更多”下拉列表框,可另存、重命名或删除仪表盘。 重命名 删除 导出监控报告 单击“导出监控报告”,可将仪表盘中的曲线图以CSV格式导出,以便进行本地存储及进一步分析。 设置全屏模式在线时长 选择待操作的仪表盘,在“仪表盘”页面右上角单击。 在弹出的对话框中设置全屏模式在线时长。 图8 设置在线时长 说明: 自定义在线时长:默认在线时长为1小时,您可在文本框中输入1~24小时。 例如,在文本框中输入2,则2小时后自动退出到登录界面。 保持在线:表示不限制,即全屏界面永远不会自动退出到登录界面,可持续在全屏模式下进行监控。 轮播周期:开启仪表盘轮播才需设置对应的“轮播周期”和“仪表盘”信息。取值范围:10~120秒,默认轮播周期为10秒。 单击“确认”,进入仪表盘全屏模式。 设置插值方式 单击“插值方式”,将指标数据按照所设置的插值方式进行聚合。当指标图表出现断点时,AOM默认使用null(即空值)表示断点。当您需要使用指标图表做汇报或展示时,出现断点的指标图表不太美观,您可通过切换插值为0或null的方式,对缺失的指标数据进行断点插值,进而规避掉断点。 插值方式您可以选择null、0。 null:默认设置,断点处使用空值表示。如下图所示: 图9 插值方式为null 0 :断点处使用0表示。如下图所示: 图10 插值方式为0 图表 添加 单击“添加指标图表”,可在仪表盘中添加曲线图、数字图、阈值状态图表、主机状态图表、组件状态图表。 编辑 通过图表右上角的“操作”下拉列表框,可对图表进行编辑、复制、删除、放大(仅可放大曲线图)等操作。其中“时间选择”按钮仅在曲线图中存在,通过该按钮您可以设置临时的时间范围和统计周期,方便您查看某一时间范围的资源数据。 图11 图表操作 说明: 当主机、组件等资源被删除后,在仪表盘中针对这些资源创建的图表不会自动删除,为提高系统性能,您需要手动删除不需要的图表。 复制 删除 放大 时间选择 刷新 调整大小 将鼠标指针移至图表右下角,当鼠标指针变为时按住鼠标左键并进行拖动。 调整位置 在图表上方或下方的空白区域按住鼠标左键拖动至目标位置。
  • 资源TopN图表 资源TopN图表的统计单位为集群,统计对象为集群下的资源(这里的资源指主机、组件和实例)。资源TopN图表可视化地展示了集群中资源占用最高的N个资源,支持资源Top5、Top15数据的汇报展示,其中默认展示资源Top5,放大图表后展示资源Top15。 当资源数量很多时,您想快速了解资源占用最高的资源,可在仪表盘中添加TopN图表,您只需要选择资源类型和指标,例如主机的CPU使用率,那么AOM将自动将TopN的主机挑选出来展示,如果不超过N个资源,则按照实际资源展示。如下图所示,展示了主机CPU使用率Top5: 图6 资源TopN图表 默认展示资源Top5图表,通过单击“显示Top15”、在图表任意处双击或在“操作”列选择“放大”,均可查看资源Top15图表。 如果您需监控所有集群下的所有资源的Top5数据,可在“监控概览”界面查看,也可将“监控概览”界面的资源Top5数据添加到仪表盘。 资源TopN图表的标题支持您自定义,标题默认命名为资源类型(集群名称)。
  • 概述 该功能对华北-北京一、华北-北京四、华东-上海一、华东-上海二、华南-广州、西南-贵阳一、中国-香港、华南-深圳、华南-广州-友好用户环境、华北-乌兰察布一、亚太-曼谷和亚太-新加坡区域生效。 通过告警规则可对服务设置事件条件或者对资源的指标设置阈值条件。当服务的资源数据满足事件条件时产生事件类告警。当资源的指标数据满足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件。 告警规则分为阈值规则和事件类告警规则两种。通常情况下,通过阈值规则,实时监控环境中主机、组件等资源使用情况。当资源使用告警过多,告警通知过于频繁时,通过事件类告警规则,简化告警通知,快速识别服务的某一类资源使用问题并及时解决。 系统支持创建的阈值规则和事件类告警规则总计不能超过1000条,即创建的告警规则数量不能超过1000条。如果系统中的告警规则数量已达到上限,请删除不需要的告警规则后重新创建。 父主题: 告警规则(新版)
  • 监控IoTDA服务 单击IoTDA服务名称,可在右侧区域查看当前用户IOTDA服务下全部实例及全部实例的资源空间。 监控IoTDA服务某一实例: 单击任一实例名称,然后单击“仪表盘”页签,可查看当前实例下需要重点关注的关键资源或指标。 单击任一实例名称,然后单击“指标”页签,可查看当前实例下IOTDA上报的全量指标数据曲线。 单击任一实例名称,然后单击“资源空间”页签,可查看当前实例下的资源空间。
  • 注意事项 若日志采集路径配置的是目录,则默认采集目录下的日志(只采集*.log、*.trace和*.out类型的文本日志文件);若配置的为具体某个文件,则直接采集该文件。指定文件必须为文本类型文件,不支持其他类型(例如二进制日志文件)的日志文件。 请确保配置的路径是日志目录或文件的绝对路径,且该路径是实际存在的。例如,/opt/yilu/work/xig或/opt/yilu/work/xig/debug_cpu.log。 ICAgent不支持采集下级目录的日志文件。例如,/opt/yilu/work/xig的下级目录为/opt/yilu/work/xig/debug,则ICAgent不采集/opt/yilu/work/xig/debug中的日志文件。 一个虚机最多可配置20条日志采集路径。 若配置的日志文件的最后修改时间和当前时间的时间差已超过12小时,则不会采集。 同一资源集下的所有ECS主机,无法同时使用AOM和LTS的日志采集功能,只能匹配系统中最新的日志采集配置。例如,当前在AOM中配置了ECS主机的日志采集路径,则之前在该资源集下,LTS中所有ECS主机的采集配置都失效。
  • 应用监控卡片 图2 应用监控 此卡片主要展示应用监控的指标数据。 应用、组件、容器和实例的运行状态。 选择一个应用,可呈现该应用的如下信息: 近30分钟网络流量数据的趋势图,趋势图每1分钟一个点,趋势图每一个点的值表示1分钟内所选应用的接收Bps、发送Bps。趋势图上方的值为最新时间点所选应用的接收Bps、发送Bps。 近30分钟CPU及内存使用率数据的趋势图,趋势图的每一个点分别表示1分钟内所选应用的CPU使用率以及内存使用率。趋势图上方的值为最新时间点所选应用的CPU使用率和内存使用率。
  • 更多监控概览界面操作 您还可以执行表1中的操作。 表1 相关操作 操作 说明 将卡片移至收藏夹 如果不需要关注某个卡片时,可单击卡片右上角的并选择“移至收藏夹”。卡片移至收藏夹后将在“监控概览”界面隐藏。若后续又需使用时,您可从收藏夹中快速获取。 将卡片添加到仪表盘 可单击卡片右上角的并选择“添加至仪表盘”。 放大指标图表 单击指标图表右上角的。 蓝色字体下钻 单击界面中的“主机”“应用”、“组件”等蓝色字体可下钻到具体详情页面,查看更详细的数据。
  • 基础设施监控卡片 图1 基础设施监控 此卡片主要展示基础设施的指标数据。可通过选择集群,呈现某一个集群或者所有集群中的信息。如图选择所有集群,即该基础设施监控卡片呈现所有集群的如下信息: 主机运行状态,CPU、物理内存的使用量。 近30分钟网络流量数据的趋势图,趋势图每1分钟一个点,趋势图每一个点的值表示1分钟内所有集群的接收Bps之和、发送Bps之和。趋势图上方的值为最新时间点所有集群的接收Bps之和、发送Bps之和。 近30分钟CPU及内存使用率数据的趋势图,趋势图的每一个点分别表示1分钟内所有集群的CPU使用率的平均值以及所有集群的内存使用率的平均值。趋势图上方的值为最新时间点所有集群的CPU使用率的平均值和所有集群的内存使用率的平均值。
  • 组件监控(CPU&内存)卡片 图4 组件监控(CPU&内存)卡片 此卡片主要展示了4种信息: 统计最新时间前1分钟内的组件的CPU使用率、内存使用率在TOP5的组件信息。 最近1小时内的所选组件的CPU使用率、内存使用率的趋势图,趋势图的每一个点分别表示1分钟内组件CPU&内存使用率的值。 趋势图上方的值为所选组件下监控的最新时间点CPU&内存使用率的值。 在卡片左下角通过勾选“隐藏系统组件”可隐藏系统组件。
  • 容器实例监控(CPU&内存)卡片 图6 容器实例监控(CPU&内存) 此卡片主要展示了4种信息: 统计最新时间前1分钟内的容器实例的CPU使用率、内存使用率在TOP5的实例信息。 最近1小时内的所选容器实例的CPU使用率、内存使用率的趋势图,趋势图的每一个点分别表示1分钟内容器实例CPU&内存使用率的值。 趋势图上方的值为所选容器实例下监控的最新时间点CPU&内存使用率的值。 在卡片左下角通过勾选“隐藏系统实例”可隐藏系统实例。
  • 内置发现规则 AOM提供了Sys_Rule和Default_Rule两个内置的发现规则,内置的发现规则会在所有主机上执行,包括后续新增的主机。其中Sys_Rule优先级大于Default_Rule,即优先在主机上执行Sys_Rule,如果满足Sys_Rule,则不执行Default_Rule,如果不满足Sys_Rule,则执行Default_Rule。规则内容如下: Sys_Rule(不能停用) 使用Sys_Rule规则的场景下,组件名和应用名配对使用,必须同时设置组件名和应用名信息,取值优先级如下: 应用名称取值优先级: 取进程的启动命令中“Dapm_application”字段的值。 如果1为空,则取环境变量“JAVA_TOOL_OPTIONS”中“Dapm_application”字段的值。 如果2为空,则取环境变量“PAAS_MONITORING_GROUP”的值。 如果3为空,则取进程的启动命令中“DAOM.APPN”字段的值。 组件名称取值优先级: 取进程的启动命令中“DAOM.PROCN”字段的值,如果为空则取“Dapm_tier”字段的值。 如果1为空,则取环境变量“JAVA_TOOL_OPTIONS”中“Dapm_tier”字段的值。 如果2为空,则取环境变量“PAAS_APP_NAME”的值。 如下示例所示,则组件名为atps-demo,应用名为atpd-test。 PAAS_MONITORING_GROUP=atpd-testPAAS_APP_NAME=atps-demoJAVA_TOOL_OPTIONS=-javaagent:/opt/oss/servicemgr/ICAgent/pinpoint/pinpoint-bootstrap.jar -Dapm_application=atpd-test -Dapm_tier=atps-demo Default_Rule(可停用) 如果进程的“COMMAND”列的值为“java”,则组件名依次按照优先级从命令行中的jar包名、命令行中主类名、命令行中第一个非-开头的关键字获取,应用名使用默认值unknownapplicationname。 如果进程的“COMMAND”列的值为“python”,则组件名取命令行中第一个py/pyc脚本名,应用名使用默认值unknownapplicationname。 如果进程的“COMMAND”列的值为“node”,则组件名取命令行中第一个js脚本名,应用名使用默认值unknownapplicationname。
  • 更多应用发现规则操作 应用发现规则添加完成后,您还可以执行表2中的操作。 表2 相关操作 操作 说明 查看规则详情 在“名称”列单击规则的名称。 启、停规则 单击“操作”列的“启用”。 单击“操作”列的“停用”。停用后,AOM将不采集进程的指标数据。 删除规则 删除一个发现规则:在“操作”列选择“删除”。 删除一个或多个发现规则:选中一个或多个发现规则前的复选框,单击页面上方的“删除”。 说明: 内置发现规则不支持删除操作。 修改规则 在“操作”列选择“修改”。 说明: 内置发现规则不支持修改操作。
  • 过滤规则 ICAgent会在目标主机上进行周期性探测,类似ps -e -o pid,comm,lstart,cmd | grep -v defunct命令的效果,查出目标主机的所有进程。然后将每一个进程分别与过滤规则(过滤规则详见表1)进行匹配。如果进程满足过滤规则,则进程会被过滤掉,不会被AOM发现;如果进程不满足过滤规则,则进程不会被过滤,会被AOM发现。 探测结果类似如下回显信息: PID COMMAND STARTED CMD 1 systemd Tue Oct 2 21:12:06 2018 /usr/lib/systemd/systemd --switched-root --system --deserialize 20 2 kthreadd Tue Oct 2 21:12:06 2018 [kthreadd] 3 ksoftirqd/0 Tue Oct 2 21:12:06 2018 (ksoftirqd/0) 1140 tuned Tue Oct 2 21:12:27 2018 /usr/bin/python -Es /usr/sbin/tuned -l -P 1144 sshd Tue Oct 2 21:12:27 2018 /usr/sbin/sshd -D 1148 agetty Tue Oct 2 21:12:27 2018 /sbin/agetty --keep-baud 115200 38400 9600 hvc0 vt220 1154 docker-containe Tue Oct 2 21:12:29 2018 docker-containerd -l unix:///var/run/docker/libcontainerd/docker-containerd.sock --shim docker-containerd-shim --start-timeout 2m --state-dir /var/run/docker/libcontainerd/containerd --runtime docker-runc --metrics-interval=0 表1 过滤规则 过滤规则 举例 如果进程的“COMMAND”列的值为“docker-containe”、“vi”、“vim”、“pause”、“sshd”、“ps”、“sleep”、“grep”、“tailf”、“tail”或“systemd-udevd”,且为非容器内的进程,则该类进程会被过滤掉,不会被AOM发现。 例如,上面信息中“PID”为“1154”的进程,因为其“COMMAND”列的值为“docker-containe”,所以该进程不会被AOM发现。 如果进程的“CMD”列的值以“[”开头,且以“]”结尾,则该类进程会被过滤掉,不会被AOM发现。 例如,上面信息中“PID”为“2”的进程,因为其“CMD”列的值为“[kthreadd]”,所以该进程不会被AOM发现。 如果进程的“CMD”列的值以“(”开头,且以“)”结尾,则该类进程会被过滤掉,不会被AOM发现。 例如,上面信息中“PID”为“3”的进程,因为其“CMD”列的值为“(ksoftirqd/0)”,所以该进程不会被AOM发现。 如果进程的“CMD”列的值以“/sbin/”开头,则该类进程会被过滤掉,不会被AOM发现。 例如,上面信息中“PID”为“1148”的进程,因为其“CMD”列的值以“/sbin/”开头,所以该进程不会被AOM发现。
  • 更多设置 华北-北京一、华北-北京四、华东-上海一、华东-上海二、华南-广州、西南-贵阳一、中国-香港、华南-深圳、华南-广州-友好用户环境、华北-乌兰察布一、亚太-曼谷和亚太-新加坡区域请参见表2,其他区域请参见表3。 表2 相关操作 操作 说明 隐藏/显示指标数据 选择指标后,在“操作”列中单击,可将该指标数据在当前图表中隐藏。在“操作”列中单击,可将该指标数据在当前图表中展示。或显示的是指标数据的实时状态。 为指标添加告警规则 选择指标后,在“操作”列中单击,可为该指标创建告警规则。 复制指标数据 选择指标后,在“操作”列中单击,可复制该指标数据。 删除指标 删除一个指标:在“操作”列中单击。 删除一个或多个指标:选中一个或多个指标前的复选框,单击页面上方的“删除”。 导出监控报告 单击“导出报告”,可将该指标图表以CSV格式导出,以便进行本地存储及进一步分析。 表3 相关操作 操作 说明 添加指标图表到仪表盘 选择指标后,单击“添加到仪表盘”,可将该指标图表添加到仪表盘中。 为指标添加阈值规则 选择指标后,在“操作”列中单击,可为该指标创建阈值规则。 导出监控报告 单击“导出报告”,可将该指标图表以CSV格式导出,以便进行本地存储及进一步分析。 设置插值方式 单击“插值方式”,将指标数据按照所设置的插值方式进行聚合。当指标图表出现断点时,AOM默认使用null(即空值)表示断点。当您需要使用指标图表做汇报或展示时,出现断点的指标图表不太美观,您可通过切换插值为0或null的方式,对缺失的指标数据进行断点插值,进而规避掉断点。 插值方式您可以选择null、0。 null:默认设置,断点处使用空值表示。如下图所示: 图1 插值方式为null 0 :断点处使用0表示。如下图所示: 图2 插值方式为0 删除指标 在该指标所在行中单击。
  • 注意事项 EXPLAIN PLAN不支持在DN上执行。 对于执行错误的SQL语句无法进行计划信息的收集。 PLAN_TABLE中的数据是session级生命周期并且session隔离和用户隔离,用户只能看到当前session、当前用户的数据。 PLAN_TABLE无法与GDS外表进行关联查询。 对于不能下推的查询,无法收集到具体的object信息,object只能收集到REMOTE_QUERY或CTE等信息。详见示例 2。
  • 参数说明 EXPLAIN中的PLAN选项表示需要将计划信息存储于PLAN_TABLE中,存储成功将返回“EXPLAIN SUC CES S”。 用户可通过STATEMENT_ID对查询设置标签,输入的标签信息也将存储于PLAN_TABLE中。 用户在执行EXPLAIN PLAN时,如果没有设置STATEMENT_ID,则默认为空值。同时,用户可输入的STATEMENT_ID最大长度为30个字节,超过长度将会产生报错。
  • 示例 1 2 3 4 5 6 7 8 910111213141516171819202122232425 --查询当前集群的节点分布状态。openGauss=# SELECT * FROM pgxc_node; node_name | node_type | node_port | node_host | node_port1 | node_host1 | hostis_primary | nodeis_primary | nodeis_preferred | node_id | sctp_port | control_port | sctp_port1 | control_port1 --------------+-----------+-----------+----------------+------------+----------------+----------------+----------------+------------------+-------------+-----------+--------------+------------+--------------- cn_5001 | C | 8050 | 10.180.155.74 | 8050 | 10.180.155.74 | t | f | f | 1120683504 | 0 | 0 | 0 | 0 cn_5003 | C | 8050 | 10.180.157.130 | 8050 | 10.180.157.130 | t | f | f | -125853378 | 0 | 0 | 0 | 0 dn_6001_6002 | D | 40050 | 10.180.155.74 | 45050 | 10.146.187.231 | t | f | f | 1644780306 | 40052 | 40052 | 45052 | 45052 dn_6003_6004 | D | 40050 | 10.146.187.231 | 45050 | 10.180.157.130 | t | f | f | -966646068 | 40052 | 40052 | 45052 | 45052 dn_6005_6006 | D | 40050 | 10.180.157.130 | 45050 | 10.180.155.74 | t | f | f | 868850011 | 40052 | 40052 | 45052 | 45052 cn_5002 | C | 8050 | localhost | 8050 | localhost | t | f | f | -1736975100 | 0 | 0 | 0 | 0(6 rows)--查询dn_6001_6002上tpcds.customer_address记录。openGauss=# EXECUTE DIRECT ON(dn_6001_6002) 'select count(*) from tpcds.customer_address'; count ------- 16922(1 row)--查询tpcds.customer_address所有记录。openGauss=# SELECT count(*) FROM tpcds.customer_address; count ------- 50000(1 row)
  • 注意事项 当enable_nonsysadmin_execute_direct=off时,只有系统管理员和监控管理员才能执行EXECUTE DIRECT。 为了各个节点上数据的一致性,SQL语句仅支持SELECT,不允许执行事务语句、DDL、DML。 使用此类型语句在指定的DN执行stddev聚集计算时,返回结果集是以三元数组形式返回,如{3, 8, 30},表示count结果为3,sum结果为8,平方和为30。使用此类型语句在指定的DN执行AVG聚集计算时,返回结果集以二元组形式返回,如{4,2},表示count结果为4,sum结果为2。注意,当数据为列存时,调用avg函数结果未定义,请使用stddev_samp函数。 当指定多个节点时,不支持agg函数,当query中包含agg函数时,会返回“EXECUTE DIRECT on multinode not support agg functions.” 由于CN节点不存储用户表数据,不允许指定CN节点执行用户表上的SELECT查询。 不允许执行嵌套的EXECUTE DIRECT语句,即执行的SQL语句不能同样是EXECUTE DIRECT语句,此时可直接执行最内层EXECUTE DIRECT语句代替。 agg函数查询结果与直接在CN上查询不一致,会返回多个信息,不支持array_avg函数。
共100000条