检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
单击任务列表右上角的按钮,可刷新列表信息。 查看任务信息 单击任务ID,可以查看该任务的具体信息,包括主机名、IP名、插件类型、任务类型、执行状态、执行失败的原因、执行事件、执行耗时和查看操作日志。 过滤任务信息 在任务列表的表头,单击各列的,可按特定类型过滤显示任务的信息。 切换任务排序
ent状态”为“离线”的问题。 异常 主机ICAgent功能异常,请联系技术人员处理。 可能原因二:AOM不支持监控当前资源类型 修复建议:请检查您的资源是否为AOM监控的类型,AOM当前支持监控的资源类型有:主机、K8s容器、用户进程(AOM不监控主机的系统进程)。 可能原因三:资源被删除或被停止
单击任务列表右上角的按钮,可刷新列表信息。 查看任务信息 单击任务ID,可以查看该任务的具体信息,包括主机名、IP名、插件类型、任务类型、执行状态、执行失败的原因、执行事件、执行耗时和查看操作日志。 过滤任务信息 在任务列表的表头,单击各列的,可按特定类型过滤显示任务的信息。 切换任务排序
运维通道的能力,提供批量脚本执行、文件分发、云服务变更等原子操作功能,支持自定义编排原子操作并组装成作业和标准化运维流程。自动化运维将日常运维操作沉淀并发布成服务,实现日常变更的标准化、自动化、无差异化运维,将运维工作从日常重复繁杂的应用变更操作中解脱出来,提升运维操作的质量和效率,帮助企业运维转型和运维价值提升。
术方案,保障服务的持久性和可靠性。 表1 AOM服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,AOM实例通过多实例方式实现实例容灾,快速剔除故障节点,保障实例持续提供服务。 多AZ容灾 AOM支持跨AZ容灾,当一个AZ异常时,不影响其他AZ下的实例持续提供服务。
Management,简称AOM)是云上应用的一站式立体化运维管理平台,提供一站式可观测性分析和自动化运维方案,支持快速从云端、本地采集指标、日志和性能数据,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。 您可以使用本文档提供的API对应用运维管理服
个矩形块表示的时间为已选择的时间范围/30,例如,时间范围选择近30分钟,则每个矩形块表示的时间为1分钟,若时间范围选择近60分钟,则每个矩形块表示的时间为2分钟,纵轴显示查询到的日志条数。 图1 通过柱状图查看统计数据 将鼠标移至矩形块,提示信息显示了该矩形块代表的时间范围(起
SQL分析语句,AOM会根据设置的语句对日志流中的日志进行监控。 校验规则 输入具体的条件表达式,当条件表达式返回为true的时候,产生告警,否则不产生告警。 触发告警级别包括“紧急”、“重要”、“次要”、“提示”,默认“紧急”。 统计周期指高级设置的统计周期;满足条件指设置的条件表达式。配置的统计周期
停止计费 对于以按需计费模式使用的AOM 2.0资源,相关指标和日志数据从上报之日起,在AOM 2.0上会自动存储一个月,一个月后系统自动删除数据,删除后相关数据将停止计费。如果用户需要继续使用相关指标和日志数据,建议采用以下方式存储: 日志数据:通过日志转储功能,将日志数据转储
告警模板是一组以云服务为单位的告警规则组合,通过告警模板用户可对同一个云服务下的多个指标批量创建阈值告警规则、事件告警规则和PromQL告警规则。 约束与限制 系统支持创建的指标告警规则、事件告警规则、应用性能监控告警规则总计不能超过3000条。如果系统中的告警规则数量已达到上限,请删除不需要的告警规则后重新创建。
术方案,保障服务的持久性和可靠性。 表1 AOM服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,AOM实例通过多实例方式实现实例容灾,快速剔除故障节点,保障实例持续提供服务。 多AZ容灾 AOM支持跨AZ容灾,当一个AZ异常时,不影响其他AZ下的实例持续提供服务。
产品规格差异 应用运维管理服务(简称AOM)按计费方式不同分为基础版、按需版两种,其中按需版又分为专业版和企业版。 各版本的具体规格差异请参见表1。 表1 版本规格差异说明 规格项 基础版 专业版 企业版 日志读写流量 500MB 400GB 1TB 日志索引流量 500MB 400GB
odMonitor的方式暴露采集目标。 预聚合 Prometheus监控的Recording Rule能力。可以通过PromQL将原始数据加工成新的指标,提升查询效率。 时间序列 由指标名和标签组成。属于同一指标和同一组标签维度的带时间戳的流。 远程存储 自研的时序数据存储组件。
PAAS_APP_NAME:应用名称,即要部署的工作负载名称。 PAAS_NAMESPACE:命名空间名称,即要部署的工作负载所在CCE集群的的命名空间。可进入CCE集的详情页的“命名空间”页面进行查询。 PAAS_PROJECT_ID:租户的项目ID。获取方法详情请参见:获取项目ID。 以上env相关参数的value请根据实际情况替换。
在左侧导航栏中选择“资源分组”,可查看资源分组的信息。 也可在右侧的搜索框中,输入“资源名称”,可搜索资源分组。 编辑资源分组 在左侧导航栏中选择“资源分组”,可查看资源分组的信息。 在资源分组名称后的操作列,单击“修改”。 在弹出的窗口,修改资源信息后,单击“确定”,修改资源信息。
终止任务执行 功能介绍 该接口可终止正在执行的任务,指定工作流ID和执行ID去终止对应的任务,返回终止操作状态。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/cms/workflow/{workflow_id}/executions/{e
持指标查看、新增和废弃功能。 在指标管理页面仅支持查询近3个小时内上报的指标。 default类型的Prometheus实例下,指标名以“aom_”、“apm_”开头以及资源类型为ICAgent的指标暂不支持废弃。 ECS类型的Prometheus实例仅支持展示和配置UniAgent插件采集的指标。
查询指标 功能介绍 该接口用于查询系统当前可监控的指标列表,可以指定指标命名空间、指标名称、维度、所属资源的编号(格式为:resType_resId),分页查询的起始位置和返回的最大记录条数。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/ams/metrics
通过Debugging诊断线程 线程分析支持显示该应用的所有线程和查看线程的堆栈信息。通过Debugging诊断线程,帮助用户快速定位耗时较高的线程。 约束与限制 由于线程分析获取方法以及对象的实时参数,因此线程的状态等相关信息可能会产生变化。 通过Debugging诊断线程 登录AOM
Prometheus实例的名称,进入实例的详情页面。 在左侧导航栏中单击“仪表盘”,即可查看当前Prometheus实例下系统预置的所有仪表盘模板。 根据需要,单击对应仪表盘模板名称,即可监控当前Prometheus实例的指标数据。 例如,需要监控主机的磁盘分区信息,则单击“di