检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
AOM告警规则中,资源项有时会出现数据不足的情况,如下图所示。 图1 查看规则状态 可能的原因如下: 数据上报延迟过大(曲线图最新数据上报时间和当前时间的时间差大于一个周期,阈值上报周期设定中可选1分钟和5分钟),上报周期内获取不到数据会报数据不足。 指标删除或指标所在的宿主已不存在,而阈值规则仍在,此时会报数据不足。
卸载托管Prometheus实例 DELETE /v1/{project_id}/aom/prometheus aom:metric:delete √ √ 查询Prometheus实例 GET /v1/{project_id}/aom/prometheus aom:metric:list √ √ 新增Prometheus实例
容器过去10秒内的CPU负载的平均值 container_cpu_usage_seconds_total 容器在所有CPU内核上的累积占用时间 container_file_descriptors 容器打开的文件描述符数量 container_fs_inodes_free 文件系统的可用inode数量
了解 AOM是云上应用的一站式立体化运维管理平台。 产品介绍 什么是AOM 应用场景 与其他服务的关系 约束与限制 指标总览 基本概念 03 入门 快速了解AOM服务在不同应用场景中的操作流程。 快速入门 监控云容器引擎 CCE的指标 05 实践 提供典型场景的最佳实践操作指导您更好地使用AOM。
选择需要的节点,或输入关键字搜索后选择。 设置完成后,单击“确认”。 更多操作 标签新增完成后,您可以在标签列表中查看标签的名称、描述、更新时间和创建时间,还可执行表2中的操作。 表2 相关操作 操作 说明 修改标签 单击“操作”列的“编辑”。 删除标签 单击“操作”列的“删除”。
/v1/{project_id}/uniagent-console/upgrade/batch-upgrade aom:uniagentAgent:upgrade √ x 查询UniAgent主机列表信息 POST /v1/uniagent-console/agent-list/all aom:uniagentAgent:list
等数十种指标,通过短信、邮件等多种方式通知客户当前系统存在的问题。 应用发现最佳实践 应用发现是指AOM通过配置的规则发现和收集主机上部署的应用和关联的指标。可在“应用监控”界面和“监控概览”界面查看发现的应用和应用对应的指标数据。
通过cmdb树选择云服务资源执行任意任务时,会校验已选择的资源是否在当前用户所选择的子项目下,若资源不属于当前子项目下,将不会操作这些资源。 解决方法 检查需要操作的资源是否在当前用户所选择的子项目下,若资源不属于当前子项目下,重新选择子项目或将需要操作的资源添加到该子项目下。查看资源信息的详细操作请参考资源管理。
2.0控制台界面操作,也可登录LTS控制台界面操作。 需要先购买云日志服务的相关功能,才可以使用AOM 2.0控制台中“接入管理”功能。 如果需要在AOM控制台中使用LTS的功能,需要提前获取LTS的相关权限,详情请参见LTS权限管理。 表1 功能说明 功能名称 功能说明 AOM
资源、告警和事件等数据的立体运维服务。AOM从架构上主要分为数据采集接入层、传输存储层和业务计算层。 架构图 图1 AOM架构 采用三层架构 数据采集接入层 ICAgent采集数据 给主机安装ICAgent(插件式的数据采集器)并通过ICAgent上报相关的运维数据。 API接入数据
产品规格差异 应用运维管理服务(简称AOM)按计费方式不同分为基础版、按需版两种,其中按需版又分为专业版和企业版。 各版本的具体规格差异请参见表1。 表1 版本规格差异说明 规格项 基础版 专业版 企业版 日志读写流量 500MB 400GB 1TB 日志索引流量 500MB 400GB
费模式概述。 计费项 AOM的计费项由自定义指标上报量、指标存储时长、数据转储量的费用组成。了解每种计费项的计费因子、计费公式等信息,请参见计费项。 费用账单 您可以在“费用中心 > 账单管理”查看与AOM相关的流水和明细账单,以便了解您的消费情况。如需了解具体操作步骤,请参见费用账单。
去重为内置策略,服务后台会自动检验告警内容是否一致实现去重的效果,用户无需手动创建规则。 分组、抑制、静默需手动创建规则,具体的创建方式请参见创建分组规则、创建抑制规则和创建静默规则。 图1 告警降噪流程图 此模块只作用于消息通知部分,所有触发的告警和事件都可在“告警列表”页面查看。 告警降噪中所有的规则条件
什么是应用运维管理 运维遇到挑战 随着容器技术的普及,越来越多的企业通过微服务框架开发应用,业务实现更多使用云上服务,运维也转向云上的运维服务。对于云上应用的运维也提出了新的挑战。 图1 运维现有问题 运维人员技能要求高,配置繁杂,同时需要维护多套系统。对于分布式追踪系统,学习和使用成本高,并且稳定性差。
API模块、PromQL查询。 静态文件配置和动态发现机制发现监控对象,实现轻松迁移及接入。 数据规模无上限 凭借云存储能力,数据存储无上限,不再受限于本地容量。云端分布式存储保障数据可靠性。 通过Prometheus实例 for 多账号聚合实例将多个资源账号的指标数据汇聚到一个Prometheus实例,实现统一监控。
欠费说明 用户在使用云服务时,账户的可用额度小于待结算的账单,即被判定为账户欠费。欠费后,可能会影响云服务资源的正常运行,请及时充值。 欠费原因 按需计费模式下,您的账户的余额不足会导致欠费。 欠费影响 当您的账号因AOM按需资源自动扣费导致欠费后,账号将变成欠费状态。欠费后,按
Exporter是Prometheus的开源指标数据收集插件,负责从目标Jobs收集数据,并把收集到的数据转换为Prometheus支持的时序数据格式。通过接入弹性云服务器ECS,您可以为主机组安装Node Exporter并配置采集任务,采集到的指标会存储在ECS类型Prometheus实例中,方便您管理。
环境类型 环境的类型。目前支持环境类型有四种:开发、测试、预发布和生产。 主机类型 主机的类型。目前支持的主机类型有:LINUX和WINDOWS。 环境名称 环境的名称。 支持输入2~64个字符,只能由大小写字母、数字、下划线、中划线、点和中文字符组成。 区域 环境的区域,请从下拉列表中选择。
去重为内置策略,服务后台会自动检验告警内容是否一致实现去重的效果,用户无需手动创建规则。 图1 告警降噪流程图 分组、抑制、静默需手动创建规则,创建方式见下方文档说明。 此模块只作用于消息通知部分,所有触发的告警和事件都可在告警、事件页面查看。 告警降噪中所有的规则条件均取自告警结构体中的"metadata"字段
Management,简称AOM)是云上应用的一站式立体化运维管理平台,融合云监控、云日志、应用性能、真实用户体验、后台链接数据等多维度可观测性数据源,提供应用资源统一管理、一站式可观测性分析和自动化运维方案,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。