检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
快速管理应用 本章节介绍在“总览”页面的应用视角下,如何通过AOM快速管理应用,包括应用创建到发现、监控等操作。主要操作如下: 创建应用:通过CMDB创建应用和资源关系树,在应用所在主机安装采集器。 配置告警:创建指标告警规则,应用异常时发送通知。 配置告警行动规则:配置告警处理策略,如应用异常时自动重启。
ent状态”为“离线”。 问题分析 原因:AK/SK配置不正确或30200、30201端口未连通。 影响:ICAgent无法正常使用。 解决办法 以root用户登录安装ICAgent的服务器。 执行以下命令,检查AK/SK配置是否正确。 cat /var/ICAgent/oss.icAgent
基础指标:Modelarts指标 介绍Modelarts通过Agent上报到AOM的指标。 表1 Modelarts通过Agent上报到AOM的指标 指标类别 指标 指标名称 指标含义 取值范围 单位 CPU ma_container_cpu_util CPU使用率 该指标用于统计测量对象的CPU使用率。
ent状态”为“离线”。 问题分析 原因:AK/SK配置不正确或30200、30201端口未连通。 影响:ICAgent无法正常使用。 解决方法 以root用户登录安装ICAgent的服务器。 执行以下命令,检查AK/SK配置是否正确。 cat /var/ICAgent/oss.icAgent
配置指标存储时长 本节介绍如何配置云服务、ECS、CCE、 多账号聚合实例、APM、通用实例与default类型Prometheus实例的指标存储时长。 前提条件 服务已接入可观测Prometheus 监控。具体操作,请参见:管理Prometheus实例。 约束与限制 当前配置指
的访问。 通过IAM,您可以在华为云账号中给员工创建IAM用户,并使用策略来控制其对AOM资源的访问范围。例如您的员工中有负责软件开发的人员,您希望人员拥有AOM的使用权限,但是不希望其拥有删除应用发现规则等高危操作的权限,那么您可以使用IAM为开发人员创建用户,通过授予仅能使用
Agent管理”,在列表的“ICAgent状态”列查看ICAgent状态,若状态不为“运行”,则说明ICAgent未安装或运行异常,可参考表1进行处理。 表1 ICAgent修复建议 状态 修复建议 未安装 主机未安装ICAgent,请安装ICAgent,操作详见安装ICAgent。 安装中 正在为主机
一和拉美-圣地亚哥区域生效。 通过阈值规则可对资源的指标设置阈值条件。当指标数据满足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件。 AOM已对接消息通知服务(Simple Message Notification,简称SMN),通过在SMN界面设置通知策略,当阈值
ICAgent安装成功后,AOM无法监控到CPU内存使用率等信息。 原因分析 8149端口未连通。 用户侧节点时间与所在时区当前时间不一致。 解决方法 以root用户登录安装ICAgent的服务器。 执行以下命令,检查ICAgent是否可成功上报指标。 cat /var/ICAgent/oss
查看CCE类型Prometheus实例的指标:可以通过集群名称、Job名称或指标类型筛选指标,也可以通过输入指标名称中的关键字进行模糊搜索指标。 查看云服务类型Prometheus实例的指标:可以通过指标类型或资源类型过滤显示指标,也可通过输入指标名称中的关键字进行模糊搜索指标。 查看ECS类型Promethe
AOM架构 采用三层架构 数据采集接入层 ICAgent采集数据 给主机安装ICAgent(插件式的数据采集器)并通过ICAgent上报相关的运维数据。 API接入数据 通过AOM提供的OpenAPI接口或者Exporter接口,将业务指标作为自定义指标,接入到AOM。 传输存储层 数据传输:AOM
待。 安装失败:表示主机安装UniAgent失败,请重新安装。 未安装:表示主机未安装UniAgent。安装UniAgent,详细操作请参见安装UniAgent。 UniAgent的状态变为“运行中”后,重新在ECS执行脚本任务。 父主题: 运维管理(即将下线)
亚哥区域生效。 告警作为AOM应用运维管理中一项基础功能,在日常运维中发挥着重要作用。AOM告警可以对接华为云租户虚机、组件等数十种指标,通过短信、邮件等多种方式通知客户当前系统存在的问题。 支持的指标 AOM可以支持设置阈值告警的指标类型如下。 类型 指标举例 组件(进程) C
AOM提供告警规则和事件规则设置功能。通过创建指标、日志、云监控和应用性能监控告警规则,实时监控环境中主机、组件等资源使用情况,便于您更快地发现、定位并恢复故障。通过创建事件告警规则,简化告警通知,快速识别服务的某一类资源使用问题并及时解决。 功能说明 指标告警规则 通过指标告警规则可对资源的指
Exporter,并创建采集任务。详情请参考:安装UniAgent。 创建ECS类型Prometheus实例,采集任务通过关联ECS Prometheus实例,对采集数据进行标记分类。详情请参考:创建ECS类型Prometheus实例。 配置中间件接入AOM。详情请参考:中间件接入AOM。
下行Bps(aom_cluster_network_receive_bytes) 该指标用于统计测试对象的入方向网络流速。 ≥0 字节/秒(Byte/s) 上行Bps(aom_cluster_network_transmit_bytes) 该指标用于统计测试对象的出方向网络流速。 ≥0 字节/秒(Byte/s) 物理
您可以创建一个插件,在插件中通过脚本自定义需要上报到AOM的指标数据,并通过该自定义插件创建采集任务,即可采集自定义的指标数据到AOM,以监控该指标数据。 前提条件 主机已安装UniAgent,且状态为运行中。 已创建ECS Prometheus实例。 创建自定义插件 AOM支持用户按需求通过自定义脚
Exporter,并创建采集任务。详情请参考:安装UniAgent。 创建ECS类型Prometheus实例,采集任务通过关联ECS Prometheus实例,对采集数据进行标记分类。详情请参考:创建ECS Prometheus实例。 配置中间件及自定义插件接入AOM。详情请参考
选择接入云服务指标的云服务Prometheus实例。 企业项目: 通过Prometheus实例详情页的“云服务接入”页面配置云服务接入AOM:“企业项目”默认与创建云服务Prometheus实例选择的Prometheus实例的企业项目一致,此处灰化不可选。 通过接入中心配置云服务接入AOM:在下拉列表中选择需要的“企业项目”。
天”“近30天”或自定义时间段。 说明: 更新时间默认不展示在列表中,可通过单击列表右上角,勾选下拉框中的“更新时间”查看。 任务管理最多保存最近一年的执行记录。 自定义时间最大跨度为30天。 执行任务 对未执行的任务单击“操作”列的“去执行”。 对已执行的任务单击“操作”列的“重新执行”。