检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
示。 为了方便查看组件列表,可以在组件列表上方设置运行状态、所属应用、集群名称、部署方式、组件名称等过滤条件,实现组件列表过滤显示。 通过开启或关闭“隐藏系统组件”开关,自定义系统组件的展示与隐藏。系统默认隐藏系统组件。 在页面右上角单击,通过选中/取消选中各展示项后的复选框,自定义列表项的展示/隐藏。
“智能洞察”根因分析方法是一种基于调用链下钻的根因分析方法,分为离线训练和在线推理两个阶段: 离线训练阶段:在用户开通“智能洞察”功能后,后台会自动开启基于调用链的根因分析模型的离线训练任务,并自动获取应用接口发生调用时产生的调用链数据,然后根据应用近7天的调用链数据来训练调用链模型。默认
告警灵活通知:提供多种异常检测策略并支持丰富的异常告警触发方式及API。 图1 巡检与问题定界 立体化运维 您需全方位掌控系统的运行状态,并快速响应各类问题。 AOM提供从云平台到资源,再到应用的监控和微服务调用链的立体化运维分析能力。 优势 体验保障:实时掌控业务KPI健康状态,对异常事务根因分析。 故障快速诊
将CCE的工作负载上报到AOM中,并挂载到“应用监控”页面左侧的应用树中以组件形式体现。 如需使用“关联应用”功能,需提前在“菜单开关”中开启应用洞察的开关,详细操作请参见菜单开关。 操作步骤 登录AOM 2.0控制台。 在左侧导航栏中选择“基础设施监控 > 工作负载”。 在页面右上角设置工作负载信息的统计条件。
后“标签值”自动同步。如果现有标签无法满足需要,可单击“前往标签管理服务(TMS)”进行添加,详细操作请参见添加资源标签。 标签自动同步 开启后,标签值的新增和修改都将同步。 设置完成,单击“立即接入”,则将云服务接入到新创建的云服务类型Prometheus实例中。 云服务接入的其他相关操作
您可以跳过本章节,不影响您使用AOM服务的其它功能。 通过IAM,您可以通过授权控制主体(IAM用户、用户组、IAM委托或信任委托)对华为云资源的访问范围。目前IAM支持两类授权,一类是角色与策略授权,另一类为身份策略授权。 两者有如下的区别和关系: 表1 两类授权的区别 名称 核心关系
L 108 l 13 CR(归位键) 45 - 77 M 109 m 14 SO(取消变换) 46 . 78 N 110 n 15 SI(启用变换) 47 / 79 O 111 o 16 DLE(跳出数据通讯) 48 0 80 P 112 p 17 DC1(设备控制1) 49 1
AOM会产生阈值告警。 日志管理 AOM提供强大的日志管理能力。日志检索功能可帮您快速在海量日志中查询到所需的日志;日志转储帮您实现长期存储;通过创建日志统计规则实现关键词周期性统计,并生成指标数据,实时了解系统性能及业务等信息;通过配置分词可将日志内容按照分词符切分为多个单词
同时监控主机、进程、容器、云服务、性能监控、日志分析等信息。 图2 环境监控 注意事项 如需使用“应用监控”功能,需提前在“菜单开关”中开启应用洞察的开关,详细操作请参见菜单开关。 如果需要将CCE的工作负载上报到AOM中,并挂载到“应用监控”页面左侧的应用树中以组件形式体现,需要先升级工作负载。具体操作如下:
rviceMonitor或PodMonitor采集规则详情。 启用/停用采集规则 在“指标管理”页面的“配置”页签下,单击列表中“启停状态”列的,可以启用/停用采集规则。表示采集规则处于停用状态,表示采集规则处于启用状态。 删除指标管理 单击“操作”列的。 父主题: 指标管理
方便用户分析资源使用情况。 前提条件 服务已接入可观测Prometheus 监控。具体操作,请参见: Prometheus实例 for ECS Prometheus实例 for CCE Prometheus 通用实例 注意事项 “资源消耗”页面暂不支持查看实例类型为“Prometheus
执行脚本任务失败,提示 :agent not found 问题现象 在ECS执行脚本任务时失败,系统提示“agent not found”。 可能原因 没有正确安装UniAgent。 UniAgent为非“运行中”状态。 解决方法 检查UniAgent的状态,UniAgent状态
前“指标浏览”界面的配置。 删除指标 在需要删除的指标项后单击。 添加指标图表到仪表盘 选择指标后,在指标列表右上方单击。 是否显示区域 开启该功能后,使用折线图监控指标时,指标数据在图表中显示背景色。 监控日志 AOM可以对日志数据进行监控分析,首先您需要对日志进行结构化配置,具体请参考结构化配置。
云服务场景 云服务场景展现启动ECS实例、关闭ECS实例、重启RDS实例、修改ECS非管理员密码、重启CCE工作负载已上架的工具卡片。可以使用卡片快速创建任务,也可以对卡片进行收藏或下架操作,具体操作参见启动ECS实例、关闭ECS实例、重启RDS实例、修改ECS非管理员密码、重启CCE工作负载。
计费云服务:除Modelarts/IotDA/IEF/CSE以外,其它云服务接入Prometheus实例后均会产生计费。 ECS场景 在ECS场景自建中间件,会产生计费。 在ECS场景安装Node Exporter,部分指标会产生计费。 其它可能场景 除几类基础指标以外,其它指标上报到AOM均可能产生计费。
场景描述 本章以查询一个节点的CPU使用率时间序列为例。 涉及的基本信息 查询时间序列前,需要确定节点的ID和集群ID的值,节点ID值可以在ECS的dimensions中查看,集群ID值可以在CCE的“集群管理”页面,基本信息的dimensions中查看。 CPU使用率metric_
参数库 “参数库”页面展示现有所有参数信息,您可以在这里创建参数,也可以修改、删除已创建的参数。修改ECS非管理员密码,创建作业等多种场景下,可应用已创建的参数来快速设置用户密码、全局参数等信息。每个用户最多创建25个参数。 创建参数 登录AOM 2.0控制台。 在左侧导航栏单击
图2 设置告警规则 设置告警通知策略。告警通知策略有两种方式,请根据需要选择: 直接告警:满足告警条件,直接发送告警。 需要设置是否启用告警行动规则。启用后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有的告警行动规则无法满足需要,可单击“新建告警行动规则”添加。设置告警行动规则的操作详见创建告警行动规则。
"alarm", "resource_provider" : "ecs", "resource_type" : "vm", "resource_id" : "ecs123" , "key1" : "value1" // 创建告警规则时配置的告警标签
场景描述 本章以查询一个节点的CPU使用率时序数据为例。 涉及的基本信息 查询时序数据前,需要确定节点的ID和集群ID的值,节点ID值可以在ECS的dimensions中查看,集群ID值可以在CCE的“集群管理”页面,基本信息的dimensions中查看。 因指标格式统一,部分指标被