检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
分布式数据查询:利用Spark实现海量数据的分析查询。 实时数据处理 实时数据处理通常用于异常检测、欺诈识别、基于规则告警、业务流程监控等场景,在数据输入系统的过程中,对数据进行处理。 例如在梯联网行业,智能电梯的数据,实时传入到MRS的流式集群中进行实时告警。 图3 梯联网行业低时延流式处理场景 该场景下MRS的优势如下所示。
Spark是内存计算框架,计算过程中内存不够对Spark的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存中RDD的大小来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的GC情况(在客户端的conf/spark-default.conf配置文件中,在spark
Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container GC日志,如果频繁出现Full GC,需要优化GC。
ALM-24001 Flume Agent异常(2.x及以前版本) 告警解释 Flume Agent监控模块对Flume Agent状态进行监控,当Flume Agent进程故障时,系统产生此告警。 当检测到Flume Agent进程故障恢复,且告警处理完成时,告警恢复。 告警属性
Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container GC日志,如果频繁出现Full GC,需要优化GC。
系统每30秒周期性检测每个HBase服务实例中每个RegionServer的Region数。该指标可以在HBase服务监控界面和RegionServer角色监控界面查看,当检测到某个RegionServer上的Region数超出阈值(默认连续20次超过默认阈值2000)时产生该告警。用户可通过“运维
ALM-12005 OKerberos资源异常 告警解释 告警模块对Manager中的Kerberos资源的状态按80秒周期进行监控,当连续6次监控到Kerberos资源异常时,系统产生此告警。 当Kerberos资源恢复时,且告警处理完成时,告警恢复。 MRS 3.3.1及之后
OpenTSDB是一个基于HBase的分布式、可伸缩的时间序列数据库。OpenTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性。 OpenTSDB由时间序列守护进程(TSD)和一组命令行实用程序组成。与Op
如果服务右侧显示则表示该服务配置已过期。 监控状态报表: 主页界面的右侧为图表区,包含关键监控状态的报表,例如集群中所有主机的状态、主机CPU使用率、主机内存使用率等。用户可以自定义在图表区展示的监控报表,请参考查看MRS集群资源监控指标。 监控图表的数据来源可在图表的左下方查看,每个监控报表可以放大查看具体数值,也可以关闭不再显示。
策略,使集群在不同的时间段自动调整参数值,从而更有效地利用资源。 系统管理员可以在Manager查看静态服务池各个服务使用资源的监控指标结果,包含监控指标如下: 服务总体CPU使用率 服务总体磁盘IO读速率 服务总体磁盘IO写速率 服务总体内存使用大小 查看静态资源(3.x及之后版本)
%”),如果超过该阈值,则触发告警。 当发出告警的目录的子目录/文件数所占百分比低于阈值后,该告警将自动恢复。当监控开关关闭,所有目录对应的该告警都将自动恢复。当从监控列表中移除指定目录时,该目录对应的告警也会自动恢复。 HDFS目录的子文件/目录最大个数由参数“dfs.namenode
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Pending Compaction请求数持续达到flush/compaction线程数的n倍,则发送告警。当作业RocksDB的Pending
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的MemTable大小持续超过用户配置的阈值(metrics.reporter.alarm.job.alarm
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB持续出现is-write-stopped,则发送告警。当作业RocksDB在同一个告警周期内不再或不连续出现i
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Write P95耗时达到用户配置的阈值(metrics.reporter.alarm.job.alarm.rocksdb
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Pending Flush请求数持续达到flush/compaction线程数的n倍,则发送告警。当作业RocksDB的Pending
查看MRS集群基本信息 集群创建完成后,可对集群进行监控和管理。选择“现有集群”,选中一集群并单击集群名,进入集群详情页面,查看集群的基本配置信息、网络信息和部署的节点信息等。 ECS集群和BMS集群在管理控制台操作基本一致,本文档主要以ECS集群描述为例,如有操作区别则分开描述。
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Pending Compaction预估总大小持续达到用户配置的阈值,则发送告警。当作业RocksDB的Pending
户同步等功能,集群的运行状态也将无法监控。 注册华为云并实名认证 如果用户已注册华为云,可直接登录管理控制台,访问MRS服务。如果用户没有登录管理控制台的账号,请先注册华为云。注册成功后,该账号可访问华为云的所有服务,包括MRS服务。 打开华为云网站。 单击“注册”,根据提示信息完成注册。
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Get P95耗时达到用户配置的阈值(metrics.reporter.alarm.job.alarm.rocksdb