检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
一采集、存储和显示云服务的监控数据的场景。 Prometheus实例 通用实例 自建的Prometheus 提供Prometheus时序数据库的远端存储。 提供自研监控大盘进行数据的展示。 说明: 由于Prometheus服务器为用户自己运维,所以相应的指标管理、数据采集等需用户自行配置。
这些特征的类别。图1以集群指标为例,介绍了命名空间、维度和指标的关系。 图1 集群指标 AOM的基础版和按需版所对应的指标存储时长及计费方式不同,详见收费详情。 主机 AOM的每一台主机对应一台虚拟机或物理机。主机可以是您自己的虚拟机或物理机,也可以是您通过华为云购买的虚拟机(例
说明: AOM的日志绕接能力是使用copytruncate方式实现的,如果选择了设置,请务必保证您写日志文件的方式是append(追加模式),否则可能出现文件空洞问题。 当前主流的日志组件例如Log4j、Logback等均已经具备日志文件的绕接能力,如果您的日志文件已经实现了
单击右上角的,通过选中/取消选中各展示项前的复选框,自定义其展示/隐藏。 资源列表仅展示与应用企业项目相同的资源。 设置完成后,单击“关联”。 如果关联的资源为云服务器ECS资源,需要单击“关联资源&安装Agent”,在关联资源后继续完成Agent安装。安装Agent的详情操作请参见“安装UniAgent”。
如何处理界面“ICAgent状态”为“离线”的问题? ICAgent安装完成后,界面“ICAgent状态”为“离线”。 问题分析 原因:AK/SK配置不正确或30200、30201端口未连通。 影响:ICAgent无法正常使用。 解决办法 以root用户登录安装ICAgent的服务器。 执行以下命令,检查AK/SK配置是否正确。
示“全部实例”的“JVM监控”信息。 图1 基础监控 在“实例名称”和“监控项”下拉框中选择实例与监控项,可以查看该实例在对应采集器下不同指标集的基础监控项指标数据,具体指标及说明请参见:基础监控。 您还可以根据需要执行以下操作: 设置时间范围,查看已设时间范围内的数据。可通过如下两种方式设置时间范围:
定界应用与资源的问题。 优势 应用自动发现:自动部署采集器,针对应用的运行环境,主动发现应用并进行监控。 跨云服务的分布式应用监控:对于同时使用了多种云服务的分布式应用,提供统一的运维平台,便于您对业务进行立体排查。 告警灵活通知:提供多种异常检测策略并支持丰富的异常告警触发方式及API。
您可以在“费用中心 > 账单管理”查看资源的费用账单,以了解该资源在某个时间段的使用量和计费信息。 账单上报周期 按需计费模式的资源按照固定周期上报使用量到计费系统进行结算。按需计费模式产品根据使用量类型的不同,分为按小时、按天、按月三种周期进行结算,应用运维管理的按需计费模式按天进行结算。具
如何处理界面“ICAgent状态”为“离线”的问题? ICAgent安装完成后,界面“ICAgent状态”为“离线”。 问题分析 原因:AK/SK配置不正确或30200、30201端口未连通。 影响:ICAgent无法正常使用。 解决方法 以root用户登录安装ICAgent的服务器。 执行以下命令,检查AK/SK配置是否正确。
认展示“全部实例”的“GRPCServer监控”信息。 图1 查看远程过程调用 在下拉列表中选择您想要查看的“实例名称”和“监控项”,可以查看该实例在对应采集器下的不同指标集下的应用监控数据。 您还可以根据需要执行以下操作: 设置时间范围,查看已设时间范围内的数据。可通过如下两种方式设置时间范围:
接口调用”页签中“全部实例”的“URL监控”信息。 图1 接口调用 在接口调用页签选择您想要查看的“实例名称”和“监控项”,可以查看该实例在对应采集器下的不同指标集下的应用监控数据。 您还可以根据需要执行以下操作: 设置时间范围,查看已设时间范围内的数据。可通过如下两种方式设置时间范围:
方式一:使用AOM预定义好的时间标签,例如,近1小时、近6小时等,您可根据实际需要选择不同的时间粒度。 方式二:通过开始时间和结束时间,自定义时间范围,您最长可设置为30天。 单击列表右上角,在“表格设置”弹框中通过选中或取消选中可选列前的单选框,自定义可选列的展示与隐藏。 单击列表右上的,可以导
查询端口连通性。 执行以下命令,获取ACCESS的IP地址。 cat /opt/oss/servicemgr/ICAgent/envs/ICProbeAgent.properties | grep ACCESS_IP 依次执行以下命令,检查8149端口的连通性。 curl -k https://ACCESS_IP:8149
在主机页签,单击待移除主机所在行“操作”列的“移除”。 在弹出的移除主机页面,单击“确定”,将该主机移除。 说明: 自定义标识主机组下的主机不支持该操作。 批量移除主机 在主机组列表,单击待修改的主机组所在行前的。 在主机页签,勾选待移除的主机,单击“批量移除”。 单击“确定”。 说明: 自定义标识主机组下的主机不支持该操作。
以root用户登录已安装ICAgent的CCE集群的某个主机服务器。 执行以下命令,查看正在使用的hostIP地址,如图1所示。 netstat -nap | grep establish -i 图1 查看hostIP地址 执行以下命令,查看IP地址对应的网卡,如图2所示。 ifconfig
如何启用NGINX stub_status模块? Nginx Prometheus Exporter是通过Nginx的stub_status模块对其进行监控,需要确保Nginx服务启用了 stub_status模块。具体步骤如下: 登录到业务Nginx服务所在节点,以root权限
_total 传输时丢弃的累积计数 node_network_transmit_errs_total 传输时遇到的错误累积计数 node_network_up 网卡的状态 node_network_transmit_packets_total 传输数据包的累积计数 node_ne
2(20%),可能有如下情况: 在整个时间间隔内,有20%的SM的Tensor Core以100%的利用率运行。 在整个时间间隔内,有100%的SM的Tensor Core以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的SM上的Tensor Core以100%利用率运行。 其他组合模式。
当配置方式为全量指标时可选择的指标运算方式。 “single”:单个指标进行运算 “mix”:多个指标进行混合运算 枚举值: single mix expression 否 String 混合运算的表达式。 mix_promql 否 String 混合运算的promQL。 表13 CmdbInfo
该指标用于统计测量对象的NPU存储容量。 说明: 仅支持CCE类型主机的NPU指标采集。 >0 兆字节(MB) aom_node_npu_memory_usage NPU存储使用率 该指标用于统计测量对象已使用的NPU存储占NPU存储容量的百分比。 说明: 仅支持CCE类型主机的NPU指标采集。 0~100 百分比(%)