云服务器内容精选
-
监控指标参考( MRS 3.x及之后版本) FusionInsight Manager转告警监控指标可分为节点信息指标与集群服务指标。表3表示节点中可配置阈值的指标、表4表示组件可配置阈值的指标。 MRS 3.3.0及之后版本的Manager界面中,部分组件告警支持分级上报告警,不同告警级别对应阈值不同,具体以Manager实际配置界面为准。 表3 节点信息监控指标转告警列表 监控指标组名称 监控指标名称 指标含义 默认阈值 CPU 主机CPU使用率 描述周期内当前集群的运算和控制能力,可通过观察该统计值,了解集群整体资源的使用情况。 90.0% 磁盘 磁盘使用率 描述主机磁盘的使用率。 90.0% 磁盘inode使用率 统计采集周期内磁盘inode使用率。 80.0% 内存 主机内存使用率 统计当前时间点的内存平均使用率。 90.0% 主机状态 主机文件句柄使用率 统计采集周期内该主机的文件句柄使用率。 80.0% 主机PID使用率 主机PID使用率。 90% 网络状态 TCP临时端口使用率 统计采集周期内该主机的TCP临时端口使用率。 80.0% 网络读信息 读包错误率 统计采集周期内该主机上该网口的读包错误率。 0.5% 读包丢包率 统计采集周期内该主机上该网口的读包丢包率。 0.5% 读吞吐率 统计周期内网口的平均读吞吐率(MAC层)。 80% 网络写信息 写包错误率 统计采集周期内该主机上该网口的写包错误率。 0.5% 写包丢包率 统计采集周期内该主机上该网口的写包丢包率。 0.5% 写吞吐率 统计周期内网口的平均写吞吐率(MAC层)。 80% 进程 D状态进程总数 统计周期内主机上D状态进程数量。 0 omm进程使用率 统计周期内omm进程使用率。 90 表4 集群监控指标转告警列表 服务 监控指标组名称 监控指标名称 指标含义 默认阈值 DBService 数据库 数据库连接数使用率 数据库连接数使用率统计。 90% 数据目录磁盘空间使用率 数据目录磁盘空间使用率统计。 80% Flume Agent Flume堆内存使用率 Flume堆内存使用百分比统计。 95.0% Flume直接内存使用率 Flume直接内存使用百分比统计。 80.0% Flume非堆内存使用率 Flume非堆内存使用百分比统计。 80.0% Flume垃圾回收(GC)总时间 Flume垃圾回收(GC)总时间。 12000ms HBase GC GC中回收old区所花时长 RegionServer的总GC时间。 5000ms GC中回收old区所花时长 HMaster的总GC时间。 5000ms CPU和内存 RegionServer直接内存使用率统计 RegionServer直接内存使用率统计。 90% RegionServer堆内存使用率统计 RegionServer堆内存使用率统计。 90% HMaster直接内存使用率统计 HMaster直接内存使用率统计。 90% HMaster堆内存使用率统计 HMaster堆内存使用率统计。 90% 服务 单个RegionServer的region数目 单个RegionServer的Region数目。 2000 处在RIT状态达到阈值时长的region数 处在RIT状态达到阈值时长的region数。 1 容灾 容灾同步失败次数 同步容灾数据失败次数。 1 主集群等待同步的日志文件数量 主集群等待同步的日志文件数量。 128 主集群等待同步的HFile文件数量 主集群等待同步的HFile文件数量。 128 队列 Compaction操作队列大小 Compaction操作队列大小。 100 HDFS 文件和块 HDFS缺失的块数量 HDFS文件系统中缺少副本块数量。 0 需要复制副本的块总数 NameNode需要复制副本的块总数。 1000 RPC 主NameNode RPC处理平均时间 NameNode RPC处理平均时间。 100ms 主NameNode RPC队列平均时间 NameNode RPC队列平均时间。 200ms 磁盘 HDFS磁盘空间使用率 HDFS磁盘空间使用率。 80% DataNode磁盘空间使用率 HDFS文件系统中DataNode可以使用的磁盘空间率。 80% 总副本预留磁盘空间所占比率 总副本预留磁盘空间占DataNode总未使用磁盘空间的百分比。 90% 资源 故障的DataNode总数 出故障的DataNode节点数量。 3 NameNode非堆内存使用百分比统计 NameNode非堆内存使用百分比统计。 90% NameNode直接内存使用百分比统计 NameNode直接内存使用百分比统计。 90% NameNode堆内存使用百分比统计 NameNode堆内存使用百分比统计。 95% DataNode直接内存使用百分比统计 DataNode直接内存使用百分比统计。 90% DataNode堆内存使用百分比统计 DataNode堆内存使用百分比统计。 95% DataNode非堆内存使用百分比统计 DataNode非堆内存使用百分比统计。 90% 垃圾回收 垃圾回收时间统计(GC) NameNode每分钟的垃圾回收(GC)所占用的时间。 12000ms 垃圾回收时间统计(GC) DataNode每分钟的垃圾回收(GC)所占用的时间。 12000ms Hive HQL Hive执行成功的HQL百分比 Hive执行成功的HQL百分比。 90.0% Background Background线程使用率 Background线程使用率。 90% GC MetaStore的总GC时间 MetaStore的总GC时间。 12000ms HiveServer的总GC时间 HiveServer的总GC时间。 12000ms 容量 Hive已经使用的HDFS空间占可使用空间的百分比 Hive已经使用的HDFS空间占可使用空间的百分比。 85.0% CPU和内存 MetaStore直接内存使用率统计 MetaStore直接内存使用率统计。 95% MetaStore非堆内存使用率统计 MetaStore非堆内存使用率统计。 95% MetaStore堆内存使用率统计 MetaStore堆内存使用率统计。 95% HiveServer直接内存使用率统计 HiveServer直接内存使用率统计。 95% HiveServer非堆内存使用率统计 HiveServer非堆内存使用率统计。 95% HiveServer堆内存使用率统计 HiveServer堆内存使用率统计。 95% Session 连接到HiveServer的session数占最大允许session数的百分比 连接到HiveServer的session数占最大允许session数的百分比。 90.0% Kafka 分区 未完全同步的Partition百分比 未完全同步的Partition数占Partition总数的百分比。 50% 其他 Partition不可用百分比 Kafka各个Topic的Partition不可用占比。 40% broker上用户连接数使用率 broker上用户连接数使用率。 80% 磁盘 Broker磁盘使用率 Broker数据目录所在磁盘的磁盘使用率。 80.0% Broker磁盘IO使用率 Broker数据目录所在磁盘的磁盘IO使用率。 80% 进程 Broker每分钟的垃圾回收时间统计(GC) Broker进程每分钟垃圾回收(GC)所占用的时间。 12000ms Kafka堆内存使用率 Kafka堆内存使用百分比统计。 95% Kafka直接内存使用率 Kafka直接内存使用百分比统计。 95% Loader 内存 Loader堆内存使用率 Loader堆内存使用率。 95% Loader直接内存使用率统计 Loader直接内存使用率统计。 80.0% Loader非堆内存使用率 Loader非堆内存使用率。 80% GC Loader的总GC时间 Loader的总GC时间。 12000ms Mapreduce 垃圾回收 垃圾回收时间统计(GC) 垃圾回收时间统计(GC)。 12000ms 资源 JobHistoryServer直接内存使用百分比统计 JobHistoryServer直接内存使用百分比统计。 90% JobHistoryServer非堆内存使用百分比统计 JobHistoryServer非堆内存使用百分比统计。 90% JobHistoryServer堆内存使用百分比统计 JobHistoryServer堆内存使用百分比统计。 95% Oozie 内存 Oozie堆内存使用率 Oozie堆内存使用率。 95.0% Oozie直接内存使用率 Oozie直接内存使用率。 80.0% Oozie非堆内存使用率 Oozie非堆内存使用率。 80% GC Oozie垃圾回收(GC)总时间 Oozie垃圾回收(GC)总时间。 12000ms Spark/Spark2x 内存 JD BCS erver2x堆内存使用率统计 JDB CS erver2x堆内存使用率统计。 95% JDBCServer2x直接内存使用率统计 JDBCServer2x直接内存使用率统计。 95% JDBCServer2x非堆内存使用率统计 JDBCServer2x非堆内存使用率统计 95% JobHistory2x直接内存使用率统计 JobHistory2x直接内存使用率统计。 95% JobHistory2x非堆内存使用率统计 JobHistory2x非堆内存使用率统计。 95% JobHistory2x堆内存使用率统计 JobHistory2x堆内存使用率统计。 95% IndexServer2x直接内存使用率统计 IndexServer2x直接内存使用率统计。 95% IndexServer2x堆内存使用率统计 IndexServer2x堆内存使用率统计。 95% IndexServer2x非堆内存使用率统计 IndexServer2x非堆内存使用率统计。 95% GC次数 JDBCServer2x的Full GC次数 JDBCServer2x进程的Full GC次数。 12 JobHistory2x的Full GC次数 JobHistory2x进程的Full GC次数。 12 IndexServer2x的Full GC次数 IndexServer2x进程的Full GC次数。 12 GC时间 JDBCServer2x的总GC时间 JDBCServer2x的总GC时间。 12000ms JobHistory2x的总GC时间 JobHistory2x的总GC时间。 12000ms IndexServer2x的总GC时间 IndexServer2x的总GC时间。 12000ms Storm 集群 Supervisor数 统计周期内集群中可用的Supervisor数目。 1 已用Slot比率 统计周期内集群中可用的slot使用率。 80.0% Nimbus Nimbus堆内存使用率 Nimbus堆内存使用百分比统计。 80% Yarn 资源 NodeManager直接内存使用百分比统计 NodeManager直接内存使用百分比统计。 90% NodeManager堆内存使用百分比统计 NodeManager堆内存使用百分比统计。 95% NodeManager非堆内存使用百分比统计 NodeManager非堆内存使用百分比统计。 90% ResourceManager直接内存使用百分比统计 ResourceManager直接内存使用百分比统计。 90% ResourceManager堆内存使用百分比统计 ResourceManager堆内存使用百分比统计。 95% ResourceManager非堆内存使用百分比统计 ResourceManager非堆内存使用百分比统计。 90% 垃圾回收 垃圾回收时间统计(GC) NodeManager每分钟的垃圾回收(GC)所占用的时间。 12000ms 垃圾回收时间统计(GC) ResourceManager每分钟的垃圾回收(GC)所占用的时间。 12000ms 其他 root队列下失败的任务数 root队列下失败的任务数。 50 root队列下被杀死的任务数 root队列下被杀死的任务数。 50 CPU和内存 挂起的内存量 挂起的内存量。 83886080MB 任务 正在挂起的任务 正在挂起的任务。 60 ZooKeeper 连接 ZooKeeper连接数使用率 ZooKeeper连接数使用百分比统计。 80% CPU和内存 ZooKeeper堆内存使用率 ZooKeeper堆内存使用百分比统计。 95% ZooKeeper直接内存使用率 ZooKeeper直接内存使用百分比统计。 80% GC ZooKeeper每分钟的垃圾回收时间统计(GC) ZooKeeper每分钟的垃圾回收时间统计(GC)。 12000ms Ranger GC UserSync垃圾回收(GC)时间 UserSync垃圾回收(GC)时间。 12000ms RangerAdmin垃圾回收(GC)时间 RangerAdmin垃圾回收(GC)时间。 12000ms TagSync垃圾回收(GC)时间 TagSync垃圾回收(GC)时间。 12000ms CPU和内存 UserSync非堆内存使用率 UserSync非堆内存使用百分比统计。 80.0% UserSync直接内存使用率 UserSync直接内存使用百分比统计。 80.0% UserSync堆内存使用率 UserSync堆内存使用百分比统计。 95.0% RangerAdmin非堆内存使用率 RangerAdmin非堆内存使用百分比统计。 80.0% RangerAdmin堆内存使用率 RangerAdmin堆内存使用百分比统计。 95.0% RangerAdmin直接内存使用率 RangerAdmin直接内存使用百分比统计。 80.0% TagSync直接内存使用率 TagSync直接内存使用百分比统计。 80.0% TagSync非堆内存使用率 TagSync非堆内存使用百分比统计。 80.0% TagSync堆内存使用率 TagSync堆内存使用百分比统计。 95.0% ClickHouse 集群配额 Clickhouse服务在ZooKeeper的数量配额使用率 ClickHouse服务在ZooKeeper上目录的数量配额使用百分比。 90% Clickhouse服务在ZooKeeper的容量配额使用率 ClickHouse服务在ZooKeeper上目录的容量配额使用百分比。 90% IoTDB GC IoTDBServer垃圾回收时间 IoTDBServer垃圾回收所占用的时间 12000ms CPU和内存 IoTDBServer堆内存使用率 IoTDBServer堆内存使用百分比统计 90% IoTDBServer直接内存使用率 IoTDBServer直接内存使用百分比统计 90%
-
配置MRS集群告警阈值(MRS 2.x及之前版本) 在MRS Manager,单击“系统设置”。 在“配置”区域“监控和告警配置”下,单击“阈值配置”,依据规划选择监控指标并设置其基线。 单击某一指标例如“CPU使用率”,单击“添加规则”。 在“配置”对话框中填写监控指标规则参数。 表2 监控指标规则参数 参数名 参数解释 参数示例 规则名称 规则名称 CPU_MAX 参考日期 查看某指标的历史参考数据 2014/11/06 阈值类型 选择某指标的最大值或最小值,类型为“最大值”表示指标的实际值大于设置的阈值时系统将产生告警,类型为“最小值”表示指标的实际值小于设置的阈值时系统将产生告警。 最大值 告警级别 告警级别,包括: 致命 严重 一般 提示 重要 时间范围 设置规则生效时监控指标的具体时间段 从00:00到23:59 阈值 设置规则监控指标的阈值 设置数值80 日期 设置规则生效的日期类型,包括: 工作日 周末 其它 工作日 添加日期 日期选择“其他”时该参数生效。可选择多个日期。 11/30 单击“确定”。界面右上角弹出提示“模板保存成功。”。 “发送告警”默认已勾选。Manager会检查监控指标数值是否满足阈值条件,若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警,支持自定义。“检查周期(秒)”表示Manager检查监控指标的时间间隔。 在新添加规则所在的行,单击“操作”下的“应用”,界面右上角弹出提示规则xx应用成功,完成添加。单击“操作”下的“取消应用”,界面右上角弹出提示规则xx取消成功。
-
通过Manager查看与清除告警(MRS 2.x及之前版本) 在MRS Manager,单击“告警管理”,在告警列表查看告警信息。 告警列表每页默认显示最近的十条告警。 支持在“告警级别”筛选相同级别的全部告警。结果包含已清除和未清除的告警。 单击“高级搜索”显示告警搜索区域,设置查询条件后,单击“搜索”,查看指定的告警信息。单击“重置”清除输入的搜索条件。 “开始时间”和“结束时间”表示时间范围的开始时间和结束时间,可以搜索此时间段内产生的告警。 查看告警参考章节告警帮助,按照帮助指导处理告警。如果某些场景中告警由于MRS依赖的其他云服务产生,可能需要联系对应云服务运维人员处理。 处理完告警后,若需手动清除,单击“清除告警”,手动清除告警。 如果有多个告警已完成处理,可选中一个或多个待清除的告警,单击“清除告警”,批量清除告警。每次最多批量清除300条告警。
-
通过管理控制台查看与清除告警 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 单击“告警管理”,在告警列表查看告警信息。 告警列表每页默认显示最近的十条告警。 支持在告警“级别”筛选相同级别的全部告警。结果包含已清除和未清除的告警。 单击“全部导出”,在弹框内选择“保存类型”,单击“确定”可导出告警。 表1 告警信息说明 参数 参数说明 告警ID 告警的ID。 告警名 告警的名称。 级别 告警级别。 MRS 3.x之前版本集群告警级别为: 致命 指集群服务不可用,节点故障、 GaussDB 主备数据不同步、LdapServer数据同步异常等影响集群正常运行的告警,需要根据告警及时检查集群情况并恢复。 严重 指集群部分功能不可用的告警,包括进程故障、周期备份任务失败、关键文件权限异常等,需要根据告警及时检查报告告警的对象并恢复。 一般 指不影响当前集群主要功能的告警,包括证书文件即将过期、审计日志转储失败、License文件即将过期等告警。 提示 指级别最低的一种告警,起到信息展示或信息提示的作用,标识这件事情的发生,一般包括:停止服务、删除服务、停止实例、删除实例、删除节点、重启服务、重启实例、Manager主备倒换、缩容主机、实例恢复、实例故障、作业执行成功、作业执行失败等。 MRS 3.x及之后版本集群告警级别为: 紧急 指集群服务不可用,节点故障、GaussDB主备数据不同步、LdapServer数据同步异常等影响集群正常运行的告警,需要根据告警及时检查集群情况并恢复。 重要 指集群部分功能不可用的告警,包括进程故障、周期备份任务失败、关键文件权限异常等,需要根据告警及时检查报告告警的对象并恢复。 次要 指不影响当前集群主要功能的告警,包括证书文件即将过期、审计日志转储失败、License文件即将过期等告警。 提示 指级别最低的一种告警,起到信息展示或信息提示的作用,标识这件事情的发生,一般包括:停止服务、删除服务、停止实例、删除实例、删除节点、重启服务、重启实例、Manager主备倒换、缩容主机、实例恢复、实例故障、作业执行成功、作业执行失败等。 生成时间 产生告警的时间。 定位信息 告警的详细信息。 操作 当告警可手动清除时,单击“清除告警”进行处理。 需要查看告警详情时,单击“查看帮助”进行查看(MRS 3.x及之后版本支持)。 单击“高级搜索”显示告警搜索区域,设置查询条件后,单击“搜索”,查看指定的告警信息。单击“重置”清除输入的搜索条件。 “起止时间”表示时间范围的开始时间和结束时间,可以搜索此时间段内产生的告警。 查看告警参考章节告警帮助,按照帮助指导处理告警。如果某些场景中告警由于MRS依赖的其他云服务产生,可能需要联系对应云服务运维人员处理。 处理完告警后,若需手动清除,单击“清除告警”,在弹出的对话框单击“确定”,手动清除告警。 如果有多个告警已完成处理,可选中一个或多个待清除的告警,单击“清除告警”,批量清除告警。每次最多批量清除300条告警。
更多精彩内容
CDN加速
GaussDB
文字转换成语音
免费的服务器
如何创建网站
域名网站购买
私有云桌面
云主机哪个好
域名怎么备案
手机云电脑
SSL证书申请
云点播服务器
免费OCR是什么
电脑云桌面
域名备案怎么弄
语音转文字
文字图片识别
云桌面是什么
网址安全检测
网站建设搭建
国外CDN加速
SSL免费证书申请
短信批量发送
图片OCR识别
云数据库MySQL
个人域名购买
录音转文字
扫描图片识别文字
OCR图片识别
行驶证识别
虚拟电话号码
电话呼叫中心软件
怎么制作一个网站
Email注册网站
华为VNC
图像文字识别
企业网站制作
个人网站搭建
华为云计算
免费租用云托管
云桌面云服务器
ocr文字识别免费版
HTTPS证书申请
图片文字识别转换
国外域名注册商
使用免费虚拟主机
云电脑主机多少钱
鲲鹏云手机
短信验证码平台
OCR图片文字识别
SSL证书是什么
申请企业邮箱步骤
免费的企业用邮箱
云免流搭建教程
域名价格