检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Management,简称AOM)是云上应用的一站式立体化运维管理平台,融合云监控、云日志、应用性能、真实用户体验、后台链接数据等多维度可观测性数据源,提供应用资源统一管理、一站式可观测性分析和自动化运维方案,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。
斯(自定义监控)。 指标命名空间 指标命名空间是对一组资源和对象产生的指标的抽象整合,不同命名空间中的指标彼此独立,因此来自不同应用程序的指标不会被错误地汇聚到相同的统计信息中。 系统指标的命名空间:命名空间是固定不变的,均以“PAAS.”开头,如表1所示。 表1 系统指标命名空间
添加检查项完成后,单击“开始探测”,查找符合的进程。 如果20s后未探测到符合条件的进程,您需要修改发现规则后继续探测;如果探测到符合的进程,将可进入下一步的操作,否则不能进入后续操作。 设置应用名称及组件名称。 设置应用名称。 设置应用名称。 在“应用名称设置”下单击“添加命名项”,为已发现的进程设置应用名。
指标存储位置 Prometheus实例 存储指标的Prometheus实例,日志生成的指标会作为自定义指标存储到该Prometheus实例中,请从下拉列表中选择。 如果下拉列表中没有合适的Prometheus实例,请单击“创建实例”去创建通用Prometheus实例。 日志生成指标的名称
组件状态图表 资源TopN图表 资源TopN图表的统计单位为集群,统计对象为集群下的资源(这里的资源指主机、组件和实例)。资源TopN图表可视化地展示了集群中资源占用最高的N个资源,支持资源Top5、Top15数据的汇报展示,其中默认展示资源Top5,放大图表后展示资源Top15。
多指标 按设置的多个指标数据和对应告警条件逐条计算,只要满足一个条件则触发告警。 多指标 指标 需要监控的指标。单击“指标”文本框,通过下列框右侧的资源树,可以按资源类型快速选择需监控的指标。 aom_container_cpu_usage 统计周期 指标数据按照所设置的统计周期进行聚合。
参数初始值,最多可输入1000个字符。 必填 参数被引用时,是否为必填参数,默认为点亮状态。 输入提示 参数被引用时的提示信息,最多可输入1000个字符。 参数描述 参数的描述信息,最多可输入1000个字符。 单击“保存”完成创建。 更多操作 参数创建完成后,您可以在参数列表页面查看参数的名称、类型、创建者等信息,还可执行表2中的操作。
后选择的资源序号越大)。 图1 选择资源 定义阈值:选择待监控的指标,设置阈值条件、连续周期、告警级别、统计方式等参数,选择是否发送通知。 阈值条件:阈值告警的触发条件,由判断条件(>=、<=、>、<)和阈值组成。例如,阈值条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成阈值告警。
登录AOM 2.0控制台。 在左侧导航栏选择“Prometheus监控 > 实例列表”。 在Prometheus实例列表中,单击Prometheus实例名称,进入该实例的详情界面。 在左侧导航栏单击“设置”,选择“存储时长”页签。 在“存储时长”页签下选择存储时长。包括:30天、60天、90天。
2(20%),可能有如下情况: 在整个时间间隔内,有20%的SM的Tensor Core以100%的利用率运行。 在整个时间间隔内,有100%的SM的Tensor Core以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的SM上的Tensor Core以100%利用率运行。 其他组合模式。
查看日志文件 您可快速查看组件实例的日志文件,以便定位问题。 查看日志文件 在左侧导航栏中选择“日志 > 日志文件”。 在“日志文件”页面选择“组件”或“主机”页签并单击名称,在页面右侧的日志文件列表中即可查看其实例的日志文件名称、最新写入时间。 单击该实例“操作”列的“查看”,可参考表1查看该实例日志文件详情,如图2所示。
统计方式:指标数据按照所设置的统计方式进行聚合。 阈值条件:阈值告警的触发条件,由判断条件(≥、≤、>、<)和阈值组成。例如,阈值条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成阈值告警。 连续周期:连续多少个周期满足阈值条件后,发送阈值告警。 统计周期:指标数据按照所设置的统计周期进行聚合。
0控制台。 在左侧导航栏选择“设置 > 采集设置 > UniAgent 安装与配置”。当前部分区域的菜单路径修改为:在左侧导航栏选择“全局设置”,在全局设置页面选择“采集设置 > UniAgent管理”。 勾选一个或多个待升级UniAgent服务器前的复选框,然后执行如下操作: 旧
0控制台。 在左侧导航栏选择“设置 > 采集设置 > UniAgent 安装与配置”。当前部分区域的菜单路径修改为:在左侧导航栏选择“全局设置”,在全局设置页面选择“采集设置 > UniAgent管理”。 勾选一个或多个待升级UniAgent服务器前的复选框,然后执行如下操作: 旧
”,其余参数采用默认设置。该指标用于统计测量对象已经使用的CPU核个数。 告警条件b的指标设置为“aom_node_cpu_limit_core”,其余参数采用默认设置。该指标用于统计测量对象申请的CPU核总量。 表达式设置为“a/b”,最终计算结果即为主机的CPU内核占用率。 检测规则设置为“最大值>0
输入搜索条件或关键字,从CMDB服务中选取实例。当前节点类型支持两种选择方式,静态IP和动态节点。 静态IP:可选中指定CMDB应用下的CCE实例。 动态节点:选择CMDB应用中的节点,从而动态获取节点下的CCE实例。该方式对节点下未来新增的实例也生效。 如需设置审批配置、执行策略,可展开“更多设置”进行配置,配置参数如表3。
服务指标及其维度 服务指标是由实例指标汇聚而来的,其指标维度与实例指标维度相同。 实例指标详见:实例指标及其维度。 父主题: 指标总览
监控。具体操作请参见:管理Prometheus实例。 配置Remote Read地址 推荐配置自建Prometheus的prometheus.yml。具体操作如下: 登录AOM 2.0控制台。 在左侧导航栏选择“Prometheus监控 > 实例列表”,在实例列表中单击目标Prometheus实例的实例名称,进入Prometheus实例详情页面。
插件批量操作有六种操作类型:安装、升级、卸载、启动、停止和重启。 服务器上的ICAgent被卸载后,会影响该服务器的运维能力,导致AOM无法采集到客户相关的指标信息,请谨慎操作。 选择插件 选择待操作的插件,目前支持安装最新版本的ICAgent。 ak/sk 基于所选的插件,和插件版本,输入所需ak/sk(Access
下行Bps(aom_node_network_receive_bytes) 该指标用于统计测试对象的入方向网络流速。 ≥0 字节/秒(Byte/s) 下行Pps(aom_node_network_receive_packets) 每秒网卡接收的数据包个数。 ≥0 个/秒(Packet/s) 下行错包率(aom