检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。将ECS接入AOM后,可以通过AOM实时监控ECS主机状态,并提供告警通知。 本文以监控ECS主
0目标版本,单击“确定”。 ICAgent开始升级,升级ICAgent预计需要1分钟左右,请耐心等待。待ICAgent的状态由“升级中”变为“运行”时,表示升级成功。 如果升级后,界面显示ICAgent状态异常或者其它升级失败场景,请直接登录节点使用安装命令重新安装ICAgent即可(覆盖式安装,无需卸载操作)。
中进行监控。 ICAgent ICAgent是AOM的采集器,分别运行在每台主机上用于实时采集指标、日志和应用性能数据。安装ICAgent是使用AOM的前提,否则将无法正常使用AOM。 日志 AOM提供了海量运行日志的检索和分析功能,支持日志采集、下载、转储、搜索,并提供报表分析
pu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz(每秒滴答数)得到就是操作系统运行该进程的总时间(以秒为单位)。 node_disk_read_bytes_total 读取成功的字节总数 node_disk_io_tim
AOM的日志绕接能力是使用copytruncate方式实现的,如果选择了设置,请务必保证您写日志文件的方式是append(追加模式),否则可能出现文件空洞问题。 当前主流的日志组件例如Log4j、Logback等均已经具备日志文件的绕接能力,如果您的日志文件已经实现了绕接能力,则无需设置。否则可能出现冲突。
gent对资源的消耗和容器、进程个数相关。 正常业务量情况下,采集器ICAgent消耗内存约30M、单核CPU约3%。 使用限制:单节点上运行容器个数小于1000个。 保护机制: 采集器ICAgent对CPU资源的消耗最大不超过2核。 当采集器ICAgent对内存的消耗超过min
授权项:自定义策略中支持的Action,在自定义策略中的Action中写入授权项,可以实现授权项对应的权限功能。 依赖的授权项:部分Action存在对其他Action的依赖,需要将依赖的Action同时写入授权项,才能实现对应的权限功能。 IAM项目(Project)/企业项目(Enterprise
页面安装3.9.0以上的云原生监控插件(kube-prometheus-stack),且kube-prometheus-stack处于“运行中”状态时,才能成功启用/停用采集规则。 查看kube-prometheus-stack插件状态的方法:登录CCE控制台,单击集群名称进入
-广州、华北-北京四、华北-乌兰察布二零一、华北-乌兰察布一、华东-上海一、华东-上海二、中国-香港、亚太-曼谷、亚太-新加坡,支持部分白名单用户使用的局点有:华北-北京一、西南-贵阳一、亚太-曼谷、华南-深圳、华北-乌兰察布一、华北-乌兰察布二零二,其他局点暂不支持该功能。 当
多个服务器的时区、时间都一致。否则,可能会导致安装后不能在界面上准确查看应用、服务器的指标数据。 ICAgent进程需要root用户安装和运行。 安装方式说明 ICAgent有两种安装方式,您可以按照您的场景进行选择。您需要注意的是,下述两种安装方式,都不适用于容器节点(通过Se
技术方案,保障服务的持久性和可靠性。 表1 AOM服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,AOM实例通过多实例方式实现实例容灾,快速剔除故障节点,保障实例持续提供服务。 多AZ容灾 AOM支持跨AZ容灾,当一个AZ异常时,不影响其他AZ下的实例持续提供服务。
技术方案,保障服务的持久性和可靠性。 表1 AOM服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,AOM实例通过多实例方式实现实例容灾,快速剔除故障节点,保障实例持续提供服务。 多AZ容灾 AOM支持跨AZ容灾,当一个AZ异常时,不影响其他AZ下的实例持续提供服务。
资源集下,LTS中所有ECS主机的采集配置都失效。 ICAgent状态说明详见下表。 表1 ICAgent状态 状态 说明 运行 该主机ICAgent运行正常。 未安装 该主机未安装ICAgent。安装ICAgent,详细操作请参见安装ICAgent。 安装中 正在为该主机安装I
此卡片主要展示基础设施的指标数据。可通过选择集群,呈现某一个集群或者所有集群中的信息。如图选择所有集群,即该基础设施监控卡片呈现所有集群的如下信息: 主机运行状态,CPU、物理内存的使用量。 近30分钟网络流量数据的趋势图,趋势图每1分钟一个点,趋势图每一个点的值表示1分钟内所有集群的接收Bps
阈值规则和告警通知:依赖消息通知服务(简称SMN),将阈值规则状态变更信息和告警信息以邮件或短信的方式发送给相关人员,以便及时获取资源运行状态等信息并采取相应措施,避免因资源问题造成业务损失。SMN-价格说明 日志转储:依赖对象存储服务(简称OBS),将日志文件转储到OBS桶中,以便进行长期存储。OBS-价格说明
安装与配置”页面在查看目标主机的UniAgent状态。详细请参见表9 UniAgent状态说明。 表5 UniAgent状态 状态 说明 运行中 表示主机安装的UniAgent运行正常。 异常 表示主机安装的UniAgent功能异常,请联系技术支持。 安装中 表示该主机正在安装UniAgent。安装
提供一站式可观测性分析和自动化运维方案,支持快速从云端、本地采集指标、日志和性能数据,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。 您可以使用本文档提供的API对应用运维管理服务进行相关操作,例如创建、删除、查询等。支持的全部操作请参见API概览。
MS)。只要主机的操作系统满足AOM支持的操作系统,且主机已安装ICAgent,即可将主机接入到AOM中进行监控。 日志 AOM提供了海量运行日志的检索和分析功能,支持日志采集、下载、转储、搜索,并提供报表分析、SQL查询、实时监控、关键词告警等能力。 AOM的基础版和按需版所对
安装与配置”页面在查看目标主机的UniAgent状态。详细请参见表9 UniAgent状态说明。 表5 UniAgent状态 状态 说明 运行中 表示主机安装的UniAgent运行正常。 异常 表示主机安装的UniAgent功能异常,请联系技术支持。 安装中 表示该主机正在安装UniAgent。安装
指标数据。 采集器资源消耗 采集器在采集基础指标时的资源消耗情况和容器、进程数等因素有关,在未运行任何业务的VM上,采集器将消耗30M内存、1% CPU。为保证采集可靠性,单节点上运行的容器个数应小于1000。 指标维度格式 指标的维度标签必须符合AOM标准格式或普罗标准格式,才能将指标上报到AOM: