检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
员获取日志进行分析。 MRS具有开放的生态,支持无缝对接周边服务,快速构建统一大数据平台。 以全栈大数据MRS服务为基础,企业可以一键式构筑数据接入、数据存储、数据分析和价值挖掘的统一大数据平台,并且与数据治理中心DataArts Studio及数据可视化等服务对接,为用户轻松解
re节点、Task节点。 表1 集群节点分类 节点类型 功能 Master节点 MRS集群管理节点,节点上部署OMSServer负责管理和监控集群。 在MRS集群创建成功后,集群内的节点名称中包含“master1”的节点为Master1节点,名称中包含“master2”的节点为Master2节点。
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Pending Compaction请求数持续达到flush/compaction线程数的n倍,则发送告警。当作业RocksDB的Pending
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的MemTable大小持续超过用户配置的阈值(metrics.reporter.alarm.job.alarm
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB持续出现is-write-stopped,则发送告警。当作业RocksDB在同一个告警周期内不再或不连续出现i
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Get P95耗时达到用户配置的阈值(metrics.reporter.alarm.job.alarm.rocksdb
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Pending Flush请求数持续达到flush/compaction线程数的n倍,则发送告警。当作业RocksDB的Pending
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Write P95耗时达到用户配置的阈值(metrics.reporter.alarm.job.alarm.rocksdb
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Level0层SST文件数持续达到用户配置的阈值(state.backend.rocksdb.level0_
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Pending Compaction预估总大小持续达到用户配置的阈值,则发送告警。当作业RocksDB的Pending
分布式数据查询:利用Spark实现海量数据的分析查询。 实时数据处理 实时数据处理通常用于异常检测、欺诈识别、基于规则告警、业务流程监控等场景,在数据输入系统的过程中,对数据进行处理。 例如在梯联网行业,智能电梯的数据,实时传入到MRS的流式集群中进行实时告警。 图3 梯联网行业低时延流式处理场景 该场景下MRS的优势如下所示。
具体的HiveServer实例”,找到“Background线程数”与“Background线程使用率”监控信息。 图1 Background监控信息 在Background线程数监控中,线程数目最近半小时时间内是否有异常偏高(默认队列数值为100,偏高数值>=90)。 是,执行3。
Storm集群信息较多超过系统默认Thrift传输大小的设置。 原因分析 查看Storm服务状态及监控指标: MRS Manager界面操作:登录MRS Manager,依次选择“服务管理 > Storm”,查看当前Storm状态,发现状态为良好,且监控指标内容显示正确。 FusionInsight Manager
Manager(MRS 3.x及之后版本) 操作场景 MRS 3.x及之后版本的集群使用FusionInsight Manager对集群进行监控、配置和管理。用户在集群安装后可使用账号登录FusionInsight Manager。 当前支持以下几种方式访问FusionInsight
Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。 FusionInsight Manager界面操作:登录FusionInsight Manager,选择“集群 > 服务 > Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。 查看SparkS
端口被占用导致RegionServer启动失败 问题现象 Manager页面监控发现RegionServer状态为Restoring。 原因分析 通过查看RegionServer日志(/var/log/Bigdata/hbase/rs/hbase-omm-xxx.log)。 使用lsof
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB持续触发写限流,即作业写RocksDB的速率不为0时则发送告警。当作业写RocksDB的速率为0时,则告警恢复。
足。 原因分析 在HBase长时间运行场景下,操作系统会把JVM创建的“/tmp/.java_pid*”文件定期清理。因为HBase的内存监控使用了JVM的jinfo命令,而jinfo依赖“/tmp/.java_pid*”文件,当该文件不存在时,jinfo会执行kill -3将jstack信息打印到
ALM-24005 Flume传输数据异常(2.x及以前版本) 告警解释 告警模块对Flume Channel的容量状态进行监控,当Channel满的时长超过阈值,或Source向Channel放数据失败的次数超过阈值后,系统发送告警。 用户可通过配置修改阈值:修改对应chann
间不足。 原因分析 在HDFS长时间运行场景下,操作系统会把JVM创建的“/tmp/.java_pid*”文件定期清理。因为HDFS的内存监控使用了JVM的jinfo命令,而jinfo依赖“/tmp/.java_pid*”文件,当该文件不存在时,jinfo会执行kill -3将jstack信息打印到