云服务器内容精选
-
MRS 集群常见事件列表 表3 MRS集群事件列表 事件ID 组件 事件名称 事件级别 12019 Manager 停止服务 提示 12021 Manager 停止实例 提示 12023 Manager 删除节点 提示 12024 Manager 重启服务 提示 12025 Manager 重启实例 提示 12026 Manager Manager主备倒换 次要 12065 Manager 进程重新启动 次要 12070 Manager 作业执行成功 提示 12071 Manager 作业执行失败 提示 12072 Manager 作业被终止 提示 12082 Manager 慢盘自动隔离中止 重要 12083 Manager 慢盘隔离成功 重要 12084 Manager 慢盘数据均衡失败 重要 12085 Manager 慢盘隔离恢复 重要 12086 Manager Agent进程重启 提示 12087 Manager 慢盘取消隔离失败 重要 12088 Manager 慢盘取消隔离成功 重要 12089 Manager 慢盘隔离失败 重要 12090 Manager 慢盘节点隔离成功 重要 12091 Manager 慢盘节点取消隔离成功 重要 12092 Manager 慢盘节点实例启动成功 重要 12093 Manager 慢盘节点隔离失败 重要 12094 Manager 慢盘节点实例启动失败 重要 12095 Manager 慢盘节点取消隔离失败 重要 12096 Manager 慢盘节点已恢复 重要 12152 Manager 启动周期性复制 次要 12153 Manager 周期性复制完成 次要 12154 Manager 启动流式复制 次要 12155 Manager 重启流式复制 次要 12156 Manager 停止流式复制 次要 12157 Manager 周期性同步跳过 次要 12158 Manager 主机信息丢失 次要 14005 HDFS NameNode主备倒换 次要 14028 HDFS HDFS磁盘均衡任务 次要 14029 HDFS 主NameNode进入安全模式并生成新的FSimage 次要 17001 Oozie Oozie工作流执行失败 重要 17002 Oozie Oozie定时任务执行失败 重要 18001 Yarn ResourceManager主备倒换 次要 18004 Mapreduce JobHistoryServer主备倒换 次要 18029 Yarn 作业占用存储资源过多 次要 19001 HBase HMaster主备倒换 次要 19027 HBase RegionServer级别热点转移 重要 19028 HBase 热点Region分裂 重要 19029 HBase 热点Region隔离 重要 20003 Hue Hue发生主备切换 次要 23002 Loader Loader主备倒换 重要 24002 Flume Flume Channel溢出 重要 25001 LdapServer LdapServer主备倒换 次要 27000 DBService DBServer主备倒换 次要 38003 Kafka Topic数据保存周期配置调整 提示 43014 Spark Spark 数据倾斜 提示 43015 Spark Spark SQL 超大查询结果 提示 43016 Spark Spark SQL执行超时 提示 43024 Spark 启动JD BCS erver 提示 43025 Spark 停止JDB CS erver 提示 43026 Spark ZooKeeper连接成功 提示 43027 Spark ZooKeeper连接异常 提示 43601 GraphBase GraphBase主备切换 次要 45002 HetuEngine QAS主备倒换 次要 45597 IoTDB Region 副本补齐事件 提示 45651 Flink FlinkServer主备切换 次要
-
监控指标参考(MRS 3.x及之后版本) FusionInsight Manager转告警监控指标可分为节点信息指标与集群服务指标。表3表示节点中可配置阈值的指标、表4表示组件可配置阈值的指标。 MRS 3.3.0及之后版本的Manager界面中,部分组件告警支持分级上报告警,不同告警级别对应阈值不同,具体以Manager实际配置界面为准。 表3 节点信息监控指标转告警列表 监控指标组名称 监控指标名称 指标含义 默认阈值 CPU 主机CPU使用率 描述周期内当前集群的运算和控制能力,可通过观察该统计值,了解集群整体资源的使用情况。 90.0% 磁盘 磁盘使用率 描述主机磁盘的使用率。 90.0% 磁盘inode使用率 统计采集周期内磁盘inode使用率。 80.0% 内存 主机内存使用率 统计当前时间点的内存平均使用率。 90.0% 主机状态 主机文件句柄使用率 统计采集周期内该主机的文件句柄使用率。 80.0% 主机PID使用率 主机PID使用率。 90% 网络状态 TCP临时端口使用率 统计采集周期内该主机的TCP临时端口使用率。 80.0% 网络读信息 读包错误率 统计采集周期内该主机上该网口的读包错误率。 0.5% 读包丢包率 统计采集周期内该主机上该网口的读包丢包率。 0.5% 读吞吐率 统计周期内网口的平均读吞吐率(MAC层)。 80% 网络写信息 写包错误率 统计采集周期内该主机上该网口的写包错误率。 0.5% 写包丢包率 统计采集周期内该主机上该网口的写包丢包率。 0.5% 写吞吐率 统计周期内网口的平均写吞吐率(MAC层)。 80% 进程 D状态进程总数 统计周期内主机上D状态进程数量。 0 omm进程使用率 统计周期内omm进程使用率。 90 表4 集群监控指标转告警列表 服务 监控指标组名称 监控指标名称 指标含义 默认阈值 DBService 数据库 数据库连接数使用率 数据库连接数使用率统计。 90% 数据目录磁盘空间使用率 数据目录磁盘空间使用率统计。 80% Flume Agent Flume堆内存使用率 Flume堆内存使用百分比统计。 95.0% Flume直接内存使用率 Flume直接内存使用百分比统计。 80.0% Flume非堆内存使用率 Flume非堆内存使用百分比统计。 80.0% Flume垃圾回收(GC)总时间 Flume垃圾回收(GC)总时间。 12000ms HBase GC GC中回收old区所花时长 RegionServer的总GC时间。 5000ms GC中回收old区所花时长 HMaster的总GC时间。 5000ms CPU和内存 RegionServer直接内存使用率统计 RegionServer直接内存使用率统计。 90% RegionServer堆内存使用率统计 RegionServer堆内存使用率统计。 90% HMaster直接内存使用率统计 HMaster直接内存使用率统计。 90% HMaster堆内存使用率统计 HMaster堆内存使用率统计。 90% 服务 单个RegionServer的region数目 单个RegionServer的Region数目。 2000 处在RIT状态达到阈值时长的region数 处在RIT状态达到阈值时长的region数。 1 容灾 容灾同步失败次数 同步容灾数据失败次数。 1 主集群等待同步的日志文件数量 主集群等待同步的日志文件数量。 128 主集群等待同步的HFile文件数量 主集群等待同步的HFile文件数量。 128 队列 Compaction操作队列大小 Compaction操作队列大小。 100 HDFS 文件和块 HDFS缺失的块数量 HDFS文件系统中缺少副本块数量。 0 需要复制副本的块总数 NameNode需要复制副本的块总数。 1000 RPC 主NameNode RPC处理平均时间 NameNode RPC处理平均时间。 100ms 主NameNode RPC队列平均时间 NameNode RPC队列平均时间。 200ms 磁盘 HDFS磁盘空间使用率 HDFS磁盘空间使用率。 80% DataNode磁盘空间使用率 HDFS文件系统中DataNode可以使用的磁盘空间率。 80% 总副本预留磁盘空间所占比率 总副本预留磁盘空间占DataNode总未使用磁盘空间的百分比。 90% 资源 故障的DataNode总数 出故障的DataNode节点数量。 3 NameNode非堆内存使用百分比统计 NameNode非堆内存使用百分比统计。 90% NameNode直接内存使用百分比统计 NameNode直接内存使用百分比统计。 90% NameNode堆内存使用百分比统计 NameNode堆内存使用百分比统计。 95% DataNode直接内存使用百分比统计 DataNode直接内存使用百分比统计。 90% DataNode堆内存使用百分比统计 DataNode堆内存使用百分比统计。 95% DataNode非堆内存使用百分比统计 DataNode非堆内存使用百分比统计。 90% 垃圾回收 垃圾回收时间统计(GC) NameNode每分钟的垃圾回收(GC)所占用的时间。 12000ms 垃圾回收时间统计(GC) DataNode每分钟的垃圾回收(GC)所占用的时间。 12000ms Hive HQL Hive执行成功的HQL百分比 Hive执行成功的HQL百分比。 90.0% Background Background线程使用率 Background线程使用率。 90% GC MetaStore的总GC时间 MetaStore的总GC时间。 12000ms HiveServer的总GC时间 HiveServer的总GC时间。 12000ms 容量 Hive已经使用的HDFS空间占可使用空间的百分比 Hive已经使用的HDFS空间占可使用空间的百分比。 85.0% CPU和内存 MetaStore直接内存使用率统计 MetaStore直接内存使用率统计。 95% MetaStore非堆内存使用率统计 MetaStore非堆内存使用率统计。 95% MetaStore堆内存使用率统计 MetaStore堆内存使用率统计。 95% HiveServer直接内存使用率统计 HiveServer直接内存使用率统计。 95% HiveServer非堆内存使用率统计 HiveServer非堆内存使用率统计。 95% HiveServer堆内存使用率统计 HiveServer堆内存使用率统计。 95% Session 连接到HiveServer的session数占最大允许session数的百分比 连接到HiveServer的session数占最大允许session数的百分比。 90.0% Kafka 分区 未完全同步的Partition百分比 未完全同步的Partition数占Partition总数的百分比。 50% 其他 Partition不可用百分比 Kafka各个Topic的Partition不可用占比。 40% broker上用户连接数使用率 broker上用户连接数使用率。 80% 磁盘 Broker磁盘使用率 Broker数据目录所在磁盘的磁盘使用率。 80.0% Broker磁盘IO使用率 Broker数据目录所在磁盘的磁盘IO使用率。 80% 进程 Broker每分钟的垃圾回收时间统计(GC) Broker进程每分钟垃圾回收(GC)所占用的时间。 12000ms Kafka堆内存使用率 Kafka堆内存使用百分比统计。 95% Kafka直接内存使用率 Kafka直接内存使用百分比统计。 95% Loader 内存 Loader堆内存使用率 Loader堆内存使用率。 95% Loader直接内存使用率统计 Loader直接内存使用率统计。 80.0% Loader非堆内存使用率 Loader非堆内存使用率。 80% GC Loader的总GC时间 Loader的总GC时间。 12000ms Mapreduce 垃圾回收 垃圾回收时间统计(GC) 垃圾回收时间统计(GC)。 12000ms 资源 JobHistoryServer直接内存使用百分比统计 JobHistoryServer直接内存使用百分比统计。 90% JobHistoryServer非堆内存使用百分比统计 JobHistoryServer非堆内存使用百分比统计。 90% JobHistoryServer堆内存使用百分比统计 JobHistoryServer堆内存使用百分比统计。 95% Oozie 内存 Oozie堆内存使用率 Oozie堆内存使用率。 95.0% Oozie直接内存使用率 Oozie直接内存使用率。 80.0% Oozie非堆内存使用率 Oozie非堆内存使用率。 80% GC Oozie垃圾回收(GC)总时间 Oozie垃圾回收(GC)总时间。 12000ms Spark/Spark2x 内存 JDBCServer2x堆内存使用率统计 JDBCServer2x堆内存使用率统计。 95% JDBCServer2x直接内存使用率统计 JDBCServer2x直接内存使用率统计。 95% JDBCServer2x非堆内存使用率统计 JDBCServer2x非堆内存使用率统计 95% JobHistory2x直接内存使用率统计 JobHistory2x直接内存使用率统计。 95% JobHistory2x非堆内存使用率统计 JobHistory2x非堆内存使用率统计。 95% JobHistory2x堆内存使用率统计 JobHistory2x堆内存使用率统计。 95% IndexServer2x直接内存使用率统计 IndexServer2x直接内存使用率统计。 95% IndexServer2x堆内存使用率统计 IndexServer2x堆内存使用率统计。 95% IndexServer2x非堆内存使用率统计 IndexServer2x非堆内存使用率统计。 95% GC次数 JDBCServer2x的Full GC次数 JDBCServer2x进程的Full GC次数。 12 JobHistory2x的Full GC次数 JobHistory2x进程的Full GC次数。 12 IndexServer2x的Full GC次数 IndexServer2x进程的Full GC次数。 12 GC时间 JDBCServer2x的总GC时间 JDBCServer2x的总GC时间。 12000ms JobHistory2x的总GC时间 JobHistory2x的总GC时间。 12000ms IndexServer2x的总GC时间 IndexServer2x的总GC时间。 12000ms Storm 集群 Supervisor数 统计周期内集群中可用的Supervisor数目。 1 已用Slot比率 统计周期内集群中可用的slot使用率。 80.0% Nimbus Nimbus堆内存使用率 Nimbus堆内存使用百分比统计。 80% Yarn 资源 NodeManager直接内存使用百分比统计 NodeManager直接内存使用百分比统计。 90% NodeManager堆内存使用百分比统计 NodeManager堆内存使用百分比统计。 95% NodeManager非堆内存使用百分比统计 NodeManager非堆内存使用百分比统计。 90% ResourceManager直接内存使用百分比统计 ResourceManager直接内存使用百分比统计。 90% ResourceManager堆内存使用百分比统计 ResourceManager堆内存使用百分比统计。 95% ResourceManager非堆内存使用百分比统计 ResourceManager非堆内存使用百分比统计。 90% 垃圾回收 垃圾回收时间统计(GC) NodeManager每分钟的垃圾回收(GC)所占用的时间。 12000ms 垃圾回收时间统计(GC) ResourceManager每分钟的垃圾回收(GC)所占用的时间。 12000ms 其他 root队列下失败的任务数 root队列下失败的任务数。 50 root队列下被杀死的任务数 root队列下被杀死的任务数。 50 CPU和内存 挂起的内存量 挂起的内存量。 83886080MB 任务 正在挂起的任务 正在挂起的任务。 60 ZooKeeper 连接 ZooKeeper连接数使用率 ZooKeeper连接数使用百分比统计。 80% CPU和内存 ZooKeeper堆内存使用率 ZooKeeper堆内存使用百分比统计。 95% ZooKeeper直接内存使用率 ZooKeeper直接内存使用百分比统计。 80% GC ZooKeeper每分钟的垃圾回收时间统计(GC) ZooKeeper每分钟的垃圾回收时间统计(GC)。 12000ms Ranger GC UserSync垃圾回收(GC)时间 UserSync垃圾回收(GC)时间。 12000ms RangerAdmin垃圾回收(GC)时间 RangerAdmin垃圾回收(GC)时间。 12000ms TagSync垃圾回收(GC)时间 TagSync垃圾回收(GC)时间。 12000ms CPU和内存 UserSync非堆内存使用率 UserSync非堆内存使用百分比统计。 80.0% UserSync直接内存使用率 UserSync直接内存使用百分比统计。 80.0% UserSync堆内存使用率 UserSync堆内存使用百分比统计。 95.0% RangerAdmin非堆内存使用率 RangerAdmin非堆内存使用百分比统计。 80.0% RangerAdmin堆内存使用率 RangerAdmin堆内存使用百分比统计。 95.0% RangerAdmin直接内存使用率 RangerAdmin直接内存使用百分比统计。 80.0% TagSync直接内存使用率 TagSync直接内存使用百分比统计。 80.0% TagSync非堆内存使用率 TagSync非堆内存使用百分比统计。 80.0% TagSync堆内存使用率 TagSync堆内存使用百分比统计。 95.0% ClickHouse 集群配额 Clickhouse服务在ZooKeeper的数量配额使用率 ClickHouse服务在ZooKeeper上目录的数量配额使用百分比。 90% Clickhouse服务在ZooKeeper的容量配额使用率 ClickHouse服务在ZooKeeper上目录的容量配额使用百分比。 90% IoTDB GC IoTDBServer垃圾回收时间 IoTDBServer垃圾回收所占用的时间 12000ms CPU和内存 IoTDBServer堆内存使用率 IoTDBServer堆内存使用百分比统计 90% IoTDBServer直接内存使用率 IoTDBServer直接内存使用百分比统计 90%
-
配置MRS集群告警阈值(MRS 2.x及之前版本) 在MRS Manager,单击“系统设置”。 在“配置”区域“监控和告警配置”下,单击“阈值配置”,依据规划选择监控指标并设置其基线。 单击某一指标例如“CPU使用率”,单击“添加规则”。 在“配置”对话框中填写监控指标规则参数。 表2 监控指标规则参数 参数名 参数解释 参数值 规则名称 规则名称 CPU_MAX(举例) 参考日期 查看某指标的历史参考数据 2014/11/06(举例) 阈值类型 选择某指标的最大值或最小值,类型为“最大值”表示指标的实际值大于设置的阈值时系统将产生告警,类型为“最小值”表示指标的实际值小于设置的阈值时系统将产生告警。 最大值 最小值 告警级别 告警级别 致命 严重 一般 提示 时间范围 设置规则生效时监控指标的具体时间段 从00:00到23:59(举例) 阈值 设置规则监控指标的阈值 设置数值 80(举例) 日期 设置规则生效的日期类型 工作日 周末 其它 添加日期 日期选择“其他”时该参数生效。可选择多个日期。 11/30(举例) 单击“确定”。界面右上角弹出提示“模板保存成功。”。 “发送告警”默认已勾选。Manager会检查监控指标数值是否满足阈值条件,若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警,支持自定义。“检查周期(秒)”表示Manager检查监控指标的时间间隔。 在新添加规则所在的行,单击“操作”下的“应用”,界面右上角弹出提示规则xx应用成功,完成添加。单击“操作”下的“取消应用”,界面右上角弹出提示规则xx取消成功。
-
配置定时备份告警与审计信息 用户通过修改配置文件,实现定时备份FusionInsight Manager的告警信息、Manager审计信息以及所有服务的审计信息到指定的存储位置。 备份支持使用SFTP协议或FTP协议,FTP协议未加密数据可能存在安全风险,建议使用SFTP。 本章节适用于MRS 3.x及以后版本。 以omm用户登录主管理节点。 用户只需在主管理节点执行此操作,不支持在备管理节点上配置定时备份。 执行以下命令,切换目录。 cd ${BIGDATA_HOME}/om-server/om/sbin 执行以下命令,配置定时备份Manager告警、审计或者服务审计信息。 ./setNorthBound.sh -t 信息类型 -i 远程服务器IP -p 服务器使用的SFTP或FTP端口 -u 用户名 -d 保存信息的路径 -c 时间间隔(分钟) -m 每个保存文件的信息记录数 -s 备份启停开关 -e 指定的协议 例如: ./setNorthBound.sh -t alarm -i 10.0.0.10 -p 22 -u sftpuser -d /tmp/ -c 10 -m 100 -s true -e sftp 此脚本将修改告警信息备份配置文件“alarm_collect_upload.properties”。文件存储路径为“${BIGDATA_HOME}/om-server/tomcat/webapps/web/WEB-INF/classes/config”。 ./setNorthBound.sh -t audit -i 10.0.0.10 -p 22 -u sftpuser -d /tmp/ -c 10 -m 100 -s true -e sftp 此脚本将修改审计信息备份配置文件“audit_collect_upload.properties”。文件存储路径为“${BIGDATA_HOME}/om-server/tomcat/webapps/web/WEB-INF/classes/config”。 ./setNorthBound.sh -t service_audit -i 10.0.0.10 -p 22 -u sftpuser -d /tmp/ -c 10 -m 100 -s true -e sftp 此脚本将修改服务审计信息备份配置文件“service_audit_collect_upload.properties”。文件存储路径为“${BIGDATA_HOME}/om-server/tomcat/webapps/web/WEB-INF/classes/config”。 根据界面提示输入用户的密码。密码将加密保存在配置文件中。 Please input sftp/ftp server password: 显示如下结果,说明修改成功。备管理节点将自动同步配置文件。 execute command syncfile successfully. Config Succeed. 父主题: 查看与配置MRS告警事件
更多精彩内容
CDN加速
GaussDB
文字转换成语音
免费的服务器
如何创建网站
域名网站购买
私有云桌面
云主机哪个好
域名怎么备案
手机云电脑
SSL证书申请
云点播服务器
免费OCR是什么
电脑云桌面
域名备案怎么弄
语音转文字
文字图片识别
云桌面是什么
网址安全检测
网站建设搭建
国外CDN加速
SSL免费证书申请
短信批量发送
图片OCR识别
云数据库MySQL
个人域名购买
录音转文字
扫描图片识别文字
OCR图片识别
行驶证识别
虚拟电话号码
电话呼叫中心软件
怎么制作一个网站
Email注册网站
华为VNC
图像文字识别
企业网站制作
个人网站搭建
华为云计算
免费租用云托管
云桌面云服务器
ocr文字识别免费版
HTTPS证书申请
图片文字识别转换
国外域名注册商
使用免费虚拟主机
云电脑主机多少钱
鲲鹏云手机
短信验证码平台
OCR图片文字识别
SSL证书是什么
申请企业邮箱步骤
免费的企业用邮箱
云免流搭建教程
域名价格