检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开源监控系统接入AOM AOM作为华为云服务可观测性分析统一入口,提供接入中心,通过创建Prometheus 通用实例实现开源监控系统接入AOM。 应用场景 Prometheus 通用实例类型,适合已经自建了Prometheus服务器,但需要通过远端存储(Remote Write
选择某一应用,在右侧区域展示各层告警信息以及绑定当前应用的仪表盘信息。 单击“业务层”、应用层、中间件层或者基础设施层,展示对应层资源是否健康。健康时该资源层显示为绿色,当出现告警信息时,该资源层显示为红色。当出现告警信息时,单击告警信息,可查看当前告警的详细信息和处理建议信息。 仪表盘相关操作详见仪表盘监控。
文件系统指标及其维度 表1 文件系统指标 指标名称 指标含义 取值范围 单位 可用磁盘空间(aom_node_disk_available_capacity_megabytes) 还未经使用的磁盘空间。 ≥0 兆字节(MB) 磁盘空间容量(aom_node_disk_capacity_megabytes)
资源运行异常怎么办? 资源状态包括正常、亚健康、异常和通道静默。亚健康、异常或通道静默都可能导致资源运行异常,您可参考如下指导进行分析和修复。 亚健康 当有级别为次要或提示的告警时资源状态为亚健康。 修复建议:请在告警界面参考告警详细信息处理告警。 异常 当有级别为紧急或重要的告警时资源状态为异常。
主机(购买的主机操作系统需满足操作系统及版本,且购买后需要给主机安装ICAgent,安装操作详见安装ICAgent,否则AOM将无法监控)。同时,主机的IP地址支持IPv4、IPv6。 通过AOM您可监控主机的资源占用与健康状态,监控主机的磁盘、文件系统等常用系统设备,监控运行在
ReadOnlyAccess:企业项目管理服务只读权限 单击模板上的“编辑”可将AOM系统监控数据(如告警数据、Prometheus监控数据等),呈现在业务指标监控大屏页面上,详情请参见监控AOM系统指标数据。 根据自身实际业务的需求,您还可以自定义大屏页面呈现的内容,详情请参见自定义业务指标监控大屏。
创建统计规则 日志包含了系统性能及业务等信息,例如,关键词ERROR的多少反应了系统的健康度,关键词BUY的多少反应了业务的成交量等,当您需要了解这些信息时,可创建统计规则。统计规则创建成功后,AOM能够针对您配置的关键词周期性地进行统计,并生成指标数据,以便您实时了解系统性能及业务等信息。
查询系统中已有服务发现规则 功能介绍 该接口用于查询系统当前已存在的服务发现规则。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/inv/servicediscoveryrules 表1 路径参数 参数 是否必选 参数类型 描述 project_id
维也转向云上的运维服务。对于云上应用的运维也提出了新的挑战。 图1 运维现有问题 运维人员技能要求高,配置繁杂,同时需要维护多套系统。对于分布式追踪系统,学习和使用成本高,并且稳定性差。 云化场景下的分布式应用问题分析困难主要表现在如何可视化微服务间的依赖关系、如何提高应用性能体
安装ICAgent过程中,系统提示“no crontab for root”是什么原因? 问题描述 安装ICAgent过程中,系统提示“no crontab for root”。 图1 安装ICAgent 可能原因 安装ICAgent的脚本会同时安装crontab计划任务,该提示信息表示当前没有root的计划任务。
快速分析日志流中的日志 日志包含了系统性能及业务等信息,例如,关键词ERROR的多少反应了系统的健康度,关键词BUY的多少反应了业务的成交量等,当您需要了解这些信息时,可以通过快速分析功能,指定查询日志关键词,AOM能够针对您配置的关键词进行统计,并生成指标数据,以便您实时了解系统性能及业务等信息。
单击集群名称,进入集群监控的详情页面。 在左侧导航栏可以按照健康中心、监控中心、日志中心、告警中心实现集群的云原生观测。(当前仅非洲-约翰内斯堡区域不开放。) 健康中心 集群健康诊断基于容器运维专家经验对集群健康状况进行全面检查,能够及时发现集群故障与潜在风险并给出修复建议。详情请参见健康中心。 监控中心 监控中心
式及API。 图1 巡检与问题定界 立体化运维 您需全方位掌控系统的运行状态,并快速响应各类问题。 AOM提供从云平台到资源,再到应用的监控和微服务调用链的立体化运维分析能力。 优势 体验保障:实时掌控业务KPI健康状态,对异常事务根因分析。 故障快速诊断:分布式调用追踪,快速找到异常故障点。
应用运维管理(Application Operations Management,以下简称AOM)是云上应用的一站式立体化运维管理平台,实时监控您的应用及相关云资源,分析应用健康状态,提供灵活的告警及丰富的数据可视化功能,帮助您及时发现故障,全面掌握应用、资源及业务的实时运行状况。 图1 AOM使用流程 开通AOM(必选)
单击右上角的,可获取到设置的时间范围内实例的最新信息。 在“监控视图”页签下,可查看该主机的关键指标图表。 在“文件系统”页签下,可查看该主机文件系统的基本信息,单击磁盘文件分区名称,可在“监控视图”页面监控该文件系统的各种指标。 在“磁盘”页签下,可查看该主机磁盘的基本信息,单击磁盘名称,可在“监控视图”页面监控该磁盘的各种指标。
器。通过各层状态,您可完成对组件的立体监控。 主机监控 通过AOM您可监控主机的资源占用与健康状态,监控主机的磁盘、文件系统等常用系统设备,监控运行在主机上的业务进程或实例的资源占用与健康状态。 容器监控 容器监控的对象仅为通过CCE部署的工作负载、通过ServiceStage创建应用。
将AOM仪表盘图表页面嵌入用户自建系统 AOM支持将仪表盘图表页面嵌入到客户自建系统。通过统一身份认证服务IAM的联邦代理机制实现用户自定义身份代理,再将登录链接嵌入至用户自建系统实现无需在华为云官网登录就可在自建系统界面查看AOM仪表盘图表页面。 应用场景 该功能主要用于用户可以在自建系统免密登录AO
troCanvas(有效期为一个月)。自定义业务指标监控大屏前,需要先开通模板,模板开通后才能编辑该模板。 步骤二:监控AOM系统指标数据 将AOM系统监控数据(如告警数据、Prometheus监控数据等),呈现在业务指标监控大屏页面上。 步骤三:自定义业务指标监控大屏 根据自身
搜索应用时,系统提示“AOM.11007006: get policy list failed.” 问题描述 在应用资源管理的“首页”界面进行资源检索时,系统提示“AOM.11007006: get policy list failed.” 可能原因 当前用户账号已欠费或者被冻结,导致没有应用资源管理的操作权限。
500小站节点NPU卡温度,由用户调用edgecore接口上报。 ≥0 摄氏度(℃) npu_health npu_health 芯片健康状态 Atlas 500小站节点NPU卡的健康状态,由用户调用edgecore接口上报。 ≥0 无 ai_cpu_rate ai_cpu_rate AI cpu占用率