检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
xx' 检查内网域名配置 由于上述配置中的数据上报是通过内网进行数据传输,因此需要确保您的Prometheus所在的主机能够解析内网域名,请参考配置内网DNS。 重新启动Prometheus。 可通过通过grafana查看AOM中的指标数据中grafana查询指标数据的方法,来验证上述配置修改后数据上报是否成功。
/var/opt/oss/servicemgr/ICAgent/bin/manual/icagent_mgr.sh 修改脚本文件。 在文件中增加一行:export IC_NET_CARD="虚拟网卡名称",如图3所示。 图3 修改脚本文件 根据ICAgent版本,选择合适的命令,重启ICAgent。
指标命名空间是对一组资源和对象产生的指标的抽象整合,不同命名空间中的指标彼此独立,因此来自不同应用程序的指标不会被错误地汇聚到相同的统计信息中。 系统指标的命名空间:命名空间是固定不变的,均以“PAAS.”开头,如表1所示。 表1 系统指标命名空间 命名空间名称 说明 PAAS.AGGR
CE间接购买的主机,ICAgent会自动安装。 安装机 在AOM界面上,安装机支持批量下发安装UniAgent指令到主机,因此需要将VPC中某一台主机设置为安装机,该VPC其它主机均可通过界面远程安装。 代理区/代理机 为解决多云之间网络互通,需要在华为云购买和配置ECS主机为代
概述 传统ITIL流程中面向基础设施资源的管理方式,易造成各运维服务之间数据割裂、信息不一致等问题。应用资源管理将所有资源对象与应用统一管理,为AOM和LTS、APM等运维服务提供准确、及时、一致的资源配置数据,并通过开放配置数据接口,辅助第三方系统运维场景建设。 注意事项 如需
图1 告警降噪流程图 此模块只作用于消息通知部分,所有触发的告警和事件都可在“告警列表”页面查看。 告警降噪中所有的规则条件均取自告警结构体中的"metadata"字段,可采用系统默认字段,也可根据需要自定义字段。 { "starts_at" : 1579420868000
JobManager 中JVM的CPU使用率。 无 flink_taskmanager_Status_JVM_CPU_Load TaskManager 中JVM的CPU负载。 无 flink_taskmanager_Status_JVM_CPU_Time TaskManager中JVM使用的CPU时间。
如果跳板机ECS掉电重启,请重新执行如上命令。 获取AK/SK,请参考获取AK/SK。 生成ICAgent安装命令,并复制该命令。 在文本框中输入DC和跳板机连接IP,生成ICAgent安装命令。 DC:自定义节点所属数据中心名称,便于分类查看主机。 跳板机连接IP:使用EIP方式
如果跳板机ECS掉电重启,请重新执行如上命令。 获取AK/SK,请参考获取AK/SK。 生成ICAgent安装命令,并复制该命令。 在文本框中输入DC和跳板机连接IP,生成ICAgent安装命令。 DC:自定义节点所属数据中心名称,便于分类查看主机。 跳板机连接IP:使用EIP方式
Prometheus实例 for 多账号聚合实例 操作步骤 登录AOM 2.0控制台。 在左侧导航栏选择“Prometheus监控 > 实例列表”,在实例列表中单击已创建的Prometheus实例的实例名称。 在实例详情页面左侧导航栏选择“设置”页签,获取当前实例的服务地址。 下面的操作以获取CCE
ey 和value只能包含中文、字母、数字和下划线。 如果在创建告警规则时设置了告警标签,触发的告警会自动添加该标签为告警属性。 消息模板中通过$event.metadata.key1变量获取告警标签信息,具体请参见消息模板变量说明。 如您的组织已经设定AOM服务的相关标签策略,
基本概念 本文汇总使用Prometheus监控过程中涉及的基本概念,方便您查询和了解相关概念。 表1 基本概念 概念 说明 Exporter 一个采集监控数据并通过Prometheus监控功能规范对外提供数据的组件。目前有上百个官方或者第三方 Exporter可供使用,具体请参见Exporter详情。
内存总量的百分比。 0~100 百分比(%) 当前线程数量(aom_node_current_threads_num) 该指标用于统计主机中当前创建的线程数量。 ≥0 无 最大线程数量(aom_node_sys_max_threads_num) 该指标用于统计主机最大可创建的线程数量。
助您及时发现故障,全面掌握应用、资源及业务的实时运行状况。 图1 AOM使用流程 开通AOM(必选) 创建子账号并设置权限(可选) 给企业中不同职能部门的员工创建IAM用户,还可以根据企业用户的职能设置不同的访问权限。 购买云主机(必选) 每一台主机对应云上的一台虚拟机(例如:弹
ls/security/seccomp/。 6 Profiler为目标进程的每个线程分配8kB perf_event缓冲区,Linux内核中限制了进程perf_event相关的MMap的总内存大小, 在非特权用户下运行时,确保/proc/sys/kernel/perf_event
11及其更高版本的kubernetes集群中驱动模式为devicemapper的容器。 ≥0 兆字节(MB) aom_container_filesystem_capacity_megabytes 文件系统容量 该指标用于统计测量对象文件系统的容量。仅支持1.11及其更高版本的kubernetes集群中驱动模式为devicemapper的容器。
根因。 故障传播链分析:提供基于应用性能管理APM平台的调用链和平均RT、错误率等分析关键指标数据,找出异常调用在调用链追踪链路trace中的传播关系,并展示服务及其关联服务的关键指标数据,可以更有效地定位根因。 优势 从周期性、稳定性和自相关性等多维度对数据进行特征提取,自动检测指标异常。
OM 2.0控制台界面操作,也可登录APM控制台界面操作。 当前仅华东-上海一区域可以直接使用APM配置功能,其余区域需提前在“菜单开关”中开启应用监控和配置的开关,详细操作请参见菜单开关,才可以使用AOM 2.0控制台中应用性能管理的相关功能。 表1 功能说明 功能名称 功能说明
/proc/vmstat中的pgmajfault node_vmstat_pgpgout /proc/vmstat中的pgpgout node_vmstat_pgfault /proc/vmstat中的pgfault node_vmstat_pgpgin /proc/vmstat中的pgpgin
普罗语句语法详情可登录prometheus官网查看。 普罗语句查询举例说明 示例一:集群下指定pod占所在节点(不含控制节点)的内存使用率 定义变量: pod中容器内存实际占用量(同一个Pod下可能会有多个容器/实例):aom_container_memory_used_megabytes node