检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
告警管理使用说明 告警是指AOM自身或外部服务在异常情况或在可能导致异常情况下上报的信息,并且您需采取相应措施清除故障,否则会由于AOM自身或外部服务的功能异常而引起业务的异常。 告警管理使用前提条件:已在主机安装ICagent,详情请参考安装ICAgent,安装之后使用流程请参见图1。
告警管理使用说明 告警是指AOM自身或外部服务在异常情况、可能导致异常情况下上报的信息,并且您需采取相应措施清除故障,否则会由于AOM自身或外部服务的功能异常而引起业务的异常。 告警管理使用前提条件:已在主机安装UniAgent,详情请参考“安装UniAgent”,安装之后使用流程请参见图1。
通信协议 通信协议监控项可以对通信协议的访问进行监控,可以监控的通信协议包含Websocket类型。本章节主要对查看Websocket监控进行介绍。 操作步骤 登录AOM 2.0控制台。 在左侧导航栏选择“应用监控 > 组件列表”,进入组件列表页面。 在左侧“快速筛选”栏中,选择“区域”、“应用”以及“技术栈”。
没有消息通知服务的访问权限? 以IAM用户登录AOM,当创建或修改阈值规则、通知规则、静态阈值模板时,“选择主题”参数下提示:“抱歉,您没有消息通知服务的访问权限”,如下图所示。 问题分析 原因:该问题是由于您是以IAM用户登录AOM,但IAM用户没有消息通知服务的访问权限导致的。
接入调用链(APM) 钉钉小程序 获取钉钉小程序的指标、链路追踪和日志信息。具体操作请参见: 接入日志(LTS) 接入调用链(APM) 百度小程序 获取百度小程序的指标、链路追踪和日志信息。具体操作请参见: 接入日志(LTS) 接入调用链(APM) 快应用小程序 获取快应用小程序的指标、
指标浏览 指标浏览展示了各资源的指标数据,您可实时监控指标值及趋势,还可对关注的指标进行创建告警规则等操作,以便实时查看及分析业务数据。 监控指标 登录AOM 2.0控制台。 在左侧导航栏中选择“指标浏览”。 从下拉列表选择需要监控的Prometheus实例。 通过“全量指标”或
创建日志告警规则 AOM支持通过关键词统计、搜索分析以及SQL统计创建告警规则,实时监控日志数据并上报告警信息。 前提条件 已创建需要映射的日志组和日志流。创建方法请参见:创建日志组和日志流。 已使用新版结构化功能。结构化配置请参见:日志结构化配置。 已创建相关日志流的图表。创建方法请参见:日志可视化。
查看告警 告警是指AOM自身或外部服务在异常情况、可能导致异常情况下上报的信息,并且您需采取相应措施清除故障,否则会由于AOM自身或外部服务的功能异常而引起业务的异常。“告警列表”页面提供告警查询和处理功能,便于您更快地发现、定位并恢复故障。 功能介绍 在告警列表中,有以下关键功能:
创建分组规则 使用分组规则,可以从告警中筛选出满足条件的告警子集,然后按分组条件对告警子集分组,告警触发时同组告警会被汇聚在一起发送一条通知。 如图1所示,当分组条件设为“告警级别等于紧急”时,表示系统会先根据分组条件从告警中过滤出满足告警级别为紧急的告警子集,然后根据通知合并方
创建分组规则 使用分组规则,您可以从告警中筛选出满足条件的告警子集,然后按分组条件对告警子集分组,告警触发时同组告警会被汇聚在一起发送一条通知。 如图1所示,当分组条件设为“告警级别等于紧急”时,表示系统会先根据分组条件从告警中过滤出满足告警级别为紧急的告警子集,然后根据通知合并
故障传播链分析 故障传播链图谱基于服务的调用链和平均RT、错误率等分析关键指标数据,找出异常调用在调用链追踪链路trace中的传播关系,并展示服务及其关联服务的关键指标数据,可以更有效地定位根因。 功能入口 登录AOM 2.0控制台。 在菜单栏选择“监控中心”,进入“监控中心”界面。
基础监控 基础监控主要针对应用的JVM信息、JVM监控、GC监控、线程、JAVA方法进行监控。 操作步骤 登录AOM 2.0控制台。 在左侧导航栏选择“应用监控 > 组件列表”,进入组件列表页面。 在左侧“快速筛选”栏中,选择“区域”、“应用”以及“技术栈”。 单击“组件”列,某
igrade node_temperature 节点温度 Atlas 500小站节点温度,由用户调用edgecore接口上报。 ≥0 摄氏度(℃) node_power node_power 节点功率 Atlas 500小站节点功率,由用户调用edgecore接口上报。 ≥0 瓦(W)
责任共担 华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的云安全挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。
责任共担 华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的云安全挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。
DCGM_FI_DEV_GPU_TEMP GPU温度 表示GPU温度。 >0 摄氏度(℃) DCGM_FI_DEV_POWER_USAGE GPU功率 表示功率。 >0 瓦(W) DCGM_FI_DEV_MEMORY_TEMP 内存温度 表示内存温度。 >0 摄氏度(℃) DCGM_FI_PROF_GR_ENGINE_ACTIVE
监控概览 “监控概览”界面提供了资源、应用、应用用户体验的全链路、多层次、一站式运维界面。分别展示了基础设施监控、应用监控、告警统计、主机监控(CPU&内存)、组件监控(CPU&内存)、容器实例监控(CPU&内存)、主机监控(磁盘)、主机监控(网络)、集群监控(CPU&内存)和集
应用监控 应用是您根据业务需要,对相同或者相近业务的一组组件进行逻辑划分。应用的类型包括系统应用和自定义应用。应用的类型包括系统应用和自定义应用,通过内置发现规则发现的是系统应用,通过自定义规则发现的是自定义应用。 在AOM的应用发现界面配置应用发现规则,可自动发现符合规则的应用
事件巡检 事件巡检服务会定时巡检已开通智能洞察的应用服务,基于应用历史数据的平均RT、错误率等关键指标看护服务质量,全局分析问题。 功能说明 事件巡检基于应用的历史数据,形成动态上界,以比对服务近期时间的数据是否有异常。 获取基础数据时间范围如下: 基于应用3小时内的历史数据,形
建设完整指标体系,实现立体化监控 本文档介绍如何建设完整的指标体系和统一监控大盘,实现资源和应用的全方位、立体化、可视化监控。 实践场景 用户体验至上的互联网时代,页面的响应速度、访问时延和页面的访问成功率常常会影响用户的体验,如果无法及时获知,就会导致流失大量用户,某商城的运维