-
主机指标及其维度 - 应用运维管理 AOM
兆字节(MB) 显存容量(aom_node_gpu_memory_free_megabytes) 该指标用于统计测量对象的显存容量。 >0 兆字节(MB) 显存使用率(aom_node_gpu_memory_usage) 该指标用于统计测量对象已使用的显存占显存容量的百分比。 0~100
-
基础指标:虚机指标 - 应用运维管理 AOM
aom_node_gpu_memory_free_megabytes 显存容量 该指标用于统计测量对象的显存容量。 >0 兆字节(MB) aom_node_gpu_memory_usage 显存使用率 该指标用于统计测量对象已使用的显存占显存容量的百分比。 0~100 百分比(%) aom_no
-
基础指标:IEF指标 - 应用运维管理 AOM
gpuMemCapacity 显存容量 该指标用于统计测量对象的显存容量。 ≥0 兆字节(MB) gpuMemUsage gpuMemUsage 显存使用率 该指标用于统计测量对象已使用的显存占显存容量的百分比。 0~100 百分比(%) gpuMemUsed gpuMemUsed 显存使用量 该指标用于统计测量对象已使用的显存。
-
集群指标及其维度 - 应用运维管理 AOM
兆字节(MB) 显存可用量(aom_cluster_gpu_memory_free_megabytes) 该指标用于统计测量对象的显存可用量。 >0 兆字节(MB) 显存使用率(aom_cluster_gpu_memory_usage) 该指标用于统计测量对象已使用的显存占显存容量的百分比。
-
基础指标:Modelarts指标 - 应用运维管理 AOM
千字节/秒(kB/s) GPU显存 ma_container_gpu_mem_total_megabytes 显存容量 该指标用于统计训练任务的显存容量。 >0 兆字节(MB) ma_container_gpu_mem_util 显存使用率 该指标用于统计测量对象已使用的显存占显存容量的百分比。
-
容器组件指标及其维度 - 应用运维管理 AOM
百分比(%) 显存容量(aom_container_gpu_memory_free_megabytes) 该指标用于统计测量对象的显存容量。 >0 兆字节(MB) 显存使用率(aom_container_gpu_memory_usage) 该指标用于统计测量对象已使用的显存占显存容量的百分比。
-
基础指标:容器指标 - 应用运维管理 AOM
gpu各进程显存使用率 cce_gpu_encoder_utilization_process gpu各进程编码使用率 cce_gpu_decoder_utilization_process gpu各进程解码使用率 cce_gpu_memory_used gpu显存使用量 cce_gpu_memory_total
-
应用场景 - 应用运维管理 AOM
深入了解。 巡检与问题定界 日常运维中,遇到异常难定位、日志难获取等问题,需要一个监控平台对资源、日志、应用性能进行全方位的监控。 AOM深度对接应用服务,一站式收集基础设施、中间件和应用实例的运维数据,通过指标监控、日志分析、服务异常报警等功能,支持日常巡检资源、应用整体运行情况,及时发现并定界应用与资源的问题。
-
什么是应用运维管理 - 应用运维管理 AOM
维服务。对于云上应用的运维也提出了新的挑战。 图1 运维现有问题 运维人员技能要求高,配置繁杂,同时需要维护多套系统。对于分布式追踪系统,学习和使用成本高,并且稳定性差。 云化场景下的分布式应用问题分析困难主要表现在如何可视化微服务间的依赖关系、如何提高应用性能体验、如何将散落的日志进行关联分析、如何快速追踪问题。
-
应用监控 - 应用运维管理 AOM
在组件层,主要监控组件的告警信息。支持从组件层面查询活动告警与历史告警,快速修复告警问题。 图1 组件监控 环境监控 在环境页面,以环境概览、日志、性能、调用链、告警的形式,深度的监控和分析环境的核心指标。针对预发环境、生产环境按环境进行指标观测,监控环境的进程状况、应用性能(错误数、请求数、平均响应时间)、告警分
-
配置分词 - 应用运维管理 AOM
36 $ 68 D 100 d 5 ENQ(询问字符) 37 % 69 E 101 e 6 ACK(确认回应) 38 & 70 F 102 f 7 BEL(响铃) 39 ' 71 G 103 g 8 BS(退格) 40 ( 72 H 104 h 9 HT(水平定位符号,制表符) 41
-
修订记录 - 应用运维管理 AOM
控制。 2018-9-5 云应用立体运维,提供资源、应用、应用体验的全链路、多层次、一站式运维平台。 智能运维,提供智能阈值机制,基于机器学习动态阈值告警,提升监控效率。 端侧分析,支持移动APP和Browser性能指标分析和崩溃分析等,实现应用全端掌控。 事务洞察,支持自动发现事务性能问题,智能筛选,完成根因探究。
-
与其他服务的关系 - 应用运维管理 AOM
云容器引擎服务(Cloud Container Engine,简称CCE)是提供高性能可扩展的容器服务,基于云服务器快速构建高可靠的容器集群,深度整合网络和存储能力,兼容Kubernetes及Docker容器生态。帮助您轻松创建和管理多样化的容器工作负载,并提供容器故障自愈,监控日志采集,自动弹性扩容等高效运维能力。
-
(推荐)POST方法查询瞬时数据 - 应用运维管理 AOM
"00000000-0000-0000-0000-00000000", "hostID" : "g947xcxh-2xcxc-xxx-xxcd-f6xxx85", "nameSpace" : "default", "nodeIP"
-
与其他服务的关系 - 应用运维管理 AOM
云容器引擎服务(Cloud Container Engine,简称CCE)是提供高性能可扩展的容器服务,基于云服务器快速构建高可靠的容器集群,深度整合网络和存储能力,兼容Kubernetes及Docker容器生态。帮助您轻松创建和管理多样化的容器工作负载,并提供容器故障自愈,监控日志采集,自动弹性扩容等高效运维能力。