>0 兆字节(MB) NPU存储使用率(aom_container_npu_memory_usage) 该指标用于统计测量对象已使用的NPU存储占NPU存储容量的百分比。
>0 兆字节(MB) aom_node_npu_memory_usage NPU存储使用率 该指标用于统计测量对象已使用的NPU存储占NPU存储容量的百分比。 仅支持CCE类型主机的NPU指标采集。
>0 兆字节(MB) NPU存储使用率(aom_node_npu_memory_usage) 该指标用于统计测量对象已使用的NPU存储占NPU存储容量的百分比。
≥0 个/秒(Packet/s) NPU ma_container_npu_util NPU使用率 该指标用于统计测量对象的NPU使用率。
≥0 摄氏度(℃) npu_health npu_health 芯片健康状态 Atlas 500小站节点NPU卡的健康状态,由用户调用edgecore接口上报。
npuName NPU名称。 npuID NPU ID。 hostID 主机ID。 nameSpace 集群的命名空间。 nodeIP 主机IP。 hostName 主机名称。 集群指标 clusterId 集群ID。 clusterName 集群名称。
基础指标:容器指标 介绍通过CCE的kube-prometheus-stack插件或者自建K8s集群上报到AOM集群容器指标的类别、名称、含义等信息。 表1 CCE/自建K8s集群容器指标 Target名称 Job名称 指标 指标含义 serviceMonitor/monitoring
应用监控 应用是根据业务需要,对相同或者相近业务的一组组件进行逻辑划分。通过应用监控您可以及时了解应用的资源使用、状态和告警等信息,以便快速响应,保证系统顺畅运行。 功能介绍 应用监控基于应用资源管理对资源实行从应用、业务组件、到环境的分层监控,每一层对应的观测指标均不同。 应用层监控
适配容器npu指标采集,使用podIP进行指标获取。 2025-02-28 7.1.22 优化代码,减少获取pod信息时内存消耗。 2025-01-23 7.1.19 优化AgentId生成逻辑。 修改绕接文件过期时间为2小时。 优化日志打印。
主机和容器指标增加对NPU指标的支持。 2019-8-21 支持统计分析APP的用户运营数据,便于您更有针对性地开展运营活动。 支持统计分析APP的网络交互数据,便于您更好地有针对性地进行网络优化,提升APP使用体验。
应用场景 AOM应用广泛,下面介绍AOM的两个典型应用场景,以便您深入了解。 巡检与问题定界 日常运维中,遇到异常难定位、日志难获取等问题,需要一个监控平台对资源、日志、应用性能进行全方位的监控。 AOM深度对接应用服务,一站式收集基础设施、中间件和应用实例的运维数据,通过指标监控
什么是应用运维管理 运维遇到挑战 随着容器技术的普及,越来越多的企业通过微服务框架开发应用,业务实现更多使用云上服务,运维也转向云上的运维服务。对于云上应用的运维也提出了新的挑战。 图1 运维现有问题 运维人员技能要求高,配置繁杂,同时需要维护多套系统。对于分布式追踪系统,学习和使用成本高
与其他服务的关系 AOM可与消息通知服务、分布式消息服务、云审计等服务配合使用。例如,通过消息通知服务您可将AOM的阈值规则状态变更信息通过短信或电子邮件的方式发送给相关人员。同时AOM对接了虚拟私有云、弹性负载均衡等中间件服务,通过AOM您可对这些中间件服务进行监控。AOM还对接了云容器引擎
与其他服务的关系 AOM可与消息通知服务、分布式消息服务、云审计等服务配合使用。例如,通过消息通知服务您可将AOM的告警规则状态变更信息通过短信或电子邮件的方式发送给相关人员。同时AOM对接了虚拟私有云、弹性负载均衡等中间件服务,通过AOM您可对这些中间件服务进行监控。AOM还对接了云容器引擎
在CTS事件列表查看云审计事件 操作场景 用户进入云审计服务创建管理类追踪器后,系统开始记录云服务资源的操作。在创建数据类追踪器后,系统开始记录用户对OBS桶中数据的操作。云审计服务管理控制台会保存最近7天的操作记录。 本节介绍如何在云审计服务管理控制台查看或导出最近7天的操作记录
您即将访问非华为云网站,请注意账号财产安全