检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
功百分比,HiveQL成功百分比由一个周期内Hive执行成功的HiveQL数/Hive执行HiveQL总数计算得到。该指标可在Hive服务监控界面查看。执行的HiveQL成功百分比指标默认提供一个阈值范围(90%),当检测到百分比指标低于阈值范围产生该告警。在该告警的定位信息可查
访问MRS集群Manager 访问MRS集群Manager场景 MRS集群提供Manager对集群进行监控、配置和管理,用户在集群安装后可使用admin用户登录Manager页面。 当前支持以下几种方式访问Manager,请根据实际情况进行选择: 通过弹性IP访问FusionInsight
主机详情页面的右侧展示图表区,包含该主机的各个关键监控指标报表。 用户可以单击右上角的“ > 定制”,自定义在图表区展示的监控报表。选择时间区间后,单击“ > 导出”,可以导出指定时间区间内的详细监控指标数据。 单击监控指标标题后的可以打开监控指标的解释说明。 查看主机图表,进程和资源信息。
ALM-12004 OLdap资源异常 告警解释 系统按60秒周期检测Ldap资源,当连续6次监控到Manager中的Ldap资源异常时,系统产生此告警。 当Manager中的Ldap资源恢复,且告警处理完成时,告警恢复。 MRS 3.3.1及之后版本,告警名称从“Oldap资源异常”变成“Manager
的审计日志。 PMS 性能监控模块,搜集每一个OMA上的性能监控数据并提供查询。 CEP 汇聚功能模块。比如将所有OMA上的磁盘已用空间汇总成一个性能指标。 FMS 告警模块,收集每一个OMA上的告警并提供查询。 OMM Agent OMA上面性能监控和告警的Agent,负责收集该Agent
在HMaster主备倒换或启动期间,HMaster为先前失败/停用的RegionServer执行WAL splitting及region恢复。 在后台运行有多个监控HMaster启动进程的线程: TableNamespaceManager 这是一个帮助类,用于在HMaster主备倒换或启
访问集群Manager 操作场景 MRS集群使用FusionInsight Manager对集群进行监控、配置和管理,用户在集群安装完成后即可登录FusionInsight Manager。 通过弹性IP访问FusionInsight Manager 登录MRS管理控制台页面。
对系统的影响 如果数据库异常,所有Manager的核心业务和相关业务进程(例如告警和监控入库、查询的功能)都会受影响。 可能原因 数据库异常。 处理步骤 检查主备管理节点的数据库状态。 以root用户分别登录主备管理节点,用户密码为安装前用户自定义,请咨询系统管理员,执行su - omm
Broker的分区数量超过阈值 告警解释 系统每30秒周期性检测Kafka服务每个Broker实例的分区数量。该指标可以在Broker实例监控中查看Partition数目,当检测到某个Broker上的分区数量超过阈值时产生告警。用户可在Manager上选择“运维 > 告警 > 阈值设置>
策略,使集群在不同的时间段自动调整参数值,从而更有效地利用资源。 系统管理员可以在Manager查看静态服务池各个服务使用资源的监控指标结果,包含监控指标如下: 服务总体CPU使用率 服务总体磁盘IO读速率 服务总体磁盘IO写速率 服务总体内存使用大小 查看静态资源(3.x及之后版本)
%”),如果超过该阈值,则触发告警。 当发出告警的目录的子目录/文件数所占百分比低于阈值后,该告警将自动恢复。当监控开关关闭,所有目录对应的该告警都将自动恢复。当从监控列表中移除指定目录时,该目录对应的告警也会自动恢复。 HDFS目录的子文件/目录最大个数由参数“dfs.namenode
Kafka是一个分布式的消息发布-订阅系统。它采用独特的设计提供了类似JMS的特性,主要用于处理活跃的流式数据。 Kafka有很多适用的场景:消息队列、行为跟踪、运维数据监控、日志收集、流处理、事件溯源、持久化日志等。 Kafka有如下几个特点: 高吞吐量 消息持久化到磁盘 分布式系统易扩展 容错性好 支持online和offline场景
Kafka是一个分布式的消息发布-订阅系统。它采用独特的设计提供了类似JMS的特性,主要用于处理活跃的流式数据。 Kafka有很多适用的场景:消息队列、行为跟踪、运维数据监控、日志收集、流处理、事件溯源、持久化日志等。 Kafka有如下几个特点: 高吞吐量 消息持久化到磁盘 分布式系统易扩展 容错性好 支持online和offline场景
ALM-12005 OKerberos资源异常(2.x及以前版本) 告警解释 告警模块对Manager中的Kerberos资源的状态进行监控,当Kerberos资源异常时,系统产生此告警。 当Kerberos资源恢复时,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除
Kafka是一个分布式的消息发布-订阅系统。它采用独特的设计提供了类似JMS的特性,主要用于处理活跃的流式数据。 Kafka有很多适用的场景:消息队列、行为跟踪、运维数据监控、日志收集、流处理、事件溯源、持久化日志等。 Kafka有如下几个特点: 高吞吐量 消息持久化到磁盘 分布式系统易扩展 容错性好 支持online和offline场景
查看“Yarn上运行失败的任务数超过阈值”告警详情中的“附加信息”,确认监控阈值是否设置过小。 是,执行3。 否,执行4。 选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Yarn > 其它 > root队列下失败的任务数”,修改该监控的阈值。执行6。 选择“集群 > 待操作集群的名称 >
Kafka是一个分布式的消息发布-订阅系统。它采用独特的设计提供了类似JMS的特性,主要用于处理活跃的流式数据。 Kafka有很多适用的场景:消息队列、行为跟踪、运维数据监控、日志收集、流处理、事件溯源、持久化日志等。 Kafka有如下几个特点: 高吞吐量 消息持久化到磁盘 分布式系统易扩展 容错性好 支持online和offline场景
查看“Yarn被终止的任务数超过阈值”告警详情中的“附加信息”,确认监控阈值是否设置过小。 是,执行3。 否,执行4。 选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Yarn > 其它 > root队列下被杀死的任务数”,修改该监控的阈值。执行6。 选择“集群 > 待操作集群的名称
是,告警处理完毕。 否,执行5。 检查第三方AD服务器及网络。 以root用户登录主管理节点,用户密码为安装前用户自定义,请咨询系统管理员。管理节点的主备状态及对应IP地址可在FusionInsight Manager主机管理界面查看。 在登录的主机节点上ping第三方AD服务器IP,确认是否能ping通第三方AD服务器。
DataNode角色。 选择“图表 > 性能”,查看监控图表“每秒出现慢Flush或Sync的次数”、“每秒出现慢SyncWriterOsCache的次数”、“每秒出现慢WriteDataToDisk的次数”是否存在数值高的监控指标。 是,执行4。 否,执行8。 在FusionInsight