检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Thin pool 元数据空间使用率 (aom_host_diskpartition_thinpool_metadata_percent) 该指标用于统计CCE节点上thinpool元数据空间使用百分比。 0~100 百分比(%) Thin pool 数据空间使用率 (aom_host_
表示在一个时间间隔内,驻留在SM上的线程束与该SM最大可驻留线程束的比例。 该值表示一个时间间隔内的所有SM的平均值。 占用率越高不代表GPU使用率越高。只有在GPU内存带宽受限的工作负载(DCGM_FI_PROF_DRAM_ACTIVE)情况下,更高的占用率表示更有效的GPU使用率。 0~1.0
r”。 单击“新增PodMonitor”,在弹出的对话框中输入PodMonitor的相关参数信息,然后单击“确定”。 采集规则YAML配置样例如下,样例的指标采集的周期是30秒,所以等待大概30秒后才能在AOM的界面上查看到上报的指标: apiVersion: monitoring
_megabytes) 该指标用于统计测量对象上的尚未被使用的物理内存。 ≥0 兆字节(MB) 可用虚拟内存(aom_cluster_virtual_memory_free_megabytes) 该指标用于统计测量对象上的尚未被使用的虚拟内存。 ≥0 兆字节(MB) 显存可用量(
在监控指标页面上,您可以查看基于近1小时、近3小时 、近12小时、近 24小时、近7天和近30天收集的原始数据的图表。您可以自定义选择要查看的监控指标,数据可实现自动刷新。 创建告警规则 用户对云服务的核心监控指标设置告警规则,当监控指标触发用户设置的告警条件时,支持以邮箱、短信、HTTP、HTTPS等方式通知用户
您可以在“费用中心 > 账单管理”查看资源的费用账单,以了解该资源在某个时间段的使用量和计费信息。 账单上报周期 按需计费模式的资源按照固定周期上报使用量到计费系统进行结算。按需计费模式产品根据使用量类型的不同,分为按小时、按天、按月三种周期进行结算,应用运维管理的按需计费模式按天进行结算。具
调用凭证的APP密钥信息默认隐藏,单击可将该密钥信息在当前凭证页面中展示。或显示的是APP密钥信息的实时状态。 在“Grafana 数据源配置信息”区域,可以获取当前Prometheus实例下内网或公网的Grafana 数据源配置代码,在右侧单击可复制该代码到对应文件。 在“服
单击告警条件后的,可将对应行的指标数据在当前图表中隐藏。 单击告警条件后的,可将对应行的指标数据和告警条件转换为Prometheus命令。 单击告警条件后的,可快速复制对应行的指标数据及告警条件等信息,并根据需要修改。 单击告警条件后的,可删除对应行指标数据的监控。 图1 设置告警规则详情
是否为规则预探测场景(预探测场景不会保存规则,仅用于规则下发之前验证该规则能否有效发现节点上的进程)。true、false logFileFix 是 Array of strings 日志文件的后缀。 log、trace、out logPathRule 否 Array of LogPathRule
场景描述 本章以查询一个节点的CPU使用率时间序列为例。 涉及的基本信息 查询时间序列前,需要确定节点的ID和集群ID的值,节点ID值可以在ECS的dimensions中查看,集群ID值可以在CCE的“集群管理”页面,基本信息的dimensions中查看。 CPU使用率metric_na
改配置文件的方式修改上报阈值,但请做好性能开销的评估。 全采样功能在设置100%采样率后,在500TPS、1000TPS、2000TPS的情况下,CPU的消耗相对于智能采样分别增加约5%、10%、20%。 只支持对JAVA类型组件进行全采样设置。 在“自定义设置”页面下的“全采样设置”配置区域选择采样策略。
其对应用发现规则资源的使用范围。 如果华为云账号已经能满足您的使用需求,不需要创建独立的IAM用户进行权限管理,您可以跳过本章节,不影响您使用AOM的其它功能。 IAM是提供权限管理的基础服务,无需付费即可使用,您只需要为您账号中的资源进行付费。关于IAM的详细介绍,请参见IAM
String 用于对查询到的监控数据进行断点插值,默认值为-1。 -1:断点处使用-1进行表示。 0 :断点处使用0进行表示。 null:断点处使用null进行表示。 average:断点处使用前后邻近的有效数据的平均值进行表示,如果不存在有效数据则使用null进行表示。 缺省值:-1
SDK概述 本文介绍了AOM服务提供的SDK语言版本,列举了最新版本SDK的获取地址。 在线生成SDK代码 API Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 SDK列表 表1提供了AOM服务支持的SDK列表,您可以在GitHub仓库查看
该指标用于统计测量对象的显存容量。 ≥0 兆字节(MB) gpuMemUsage gpuMemUsage 显存使用率 该指标用于统计测量对象已使用的显存占显存容量的百分比。 0~100 百分比(%) gpuMemUsed gpuMemUsed 显存使用量 该指标用于统计测量对象已使用的显存。 ≥0
每个接口所需要的权限,与各个接口所对应的授权项相对应,只有发起请求的用户被授予授权项所对应的策略,该用户才能成功调用该接口。 例如,用户要调用接口来查询指标,那么在基于角色与策略授权的场景中,这个IAM用户被授予的策略中必须包含允许“aom:metric:get”的授权项,该接口
通过添加监控数据API上报的指标。 IoTDA、ModelArts、IEF、CCI等API上报的云服务指标。 通过ICAgent采集上报的指标。 提供通过API和ICAgent上报到AOM的指标的监控。 不区分使用场景,既适合作为自建Prometheus 的远程存储(Remote
查询时序数据 场景描述 本章以查询一个节点的CPU使用率时序数据为例。 涉及的基本信息 查询时序数据前,需要确定节点的ID和集群ID的值,节点ID值可以在ECS的dimensions中查看,集群ID值可以在CCE的“集群管理”页面,基本信息的dimensions中查看。 因指标格式
通过阅读本文,您可以快速了解应用运维管理AOM 2.0的计费模式、计费项、欠费等主要计费信息。如果已知资源使用情况,需了解价格预算和计费方式选择,可前往价格计算器预算价格。 计费模式 AOM当前提供按需计费模式,按需计费是一种后付费模式,即先使用再付费,按照云服务器实际使用时长计费。关于按需计费模式的详细介绍请参见计费模式概述。
入门实践 当您完成了应用管理、容器管理等基本操作后,可以根据自身的业务需求使用应用运维管理提供的一系列常用实践。 表1 常用最佳实践 实践 描述 通过告警降噪清除告警风暴 该实践介绍如何为告警规则配置告警降噪功能,在发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,避免产生告警风暴。