云服务器内容精选

  • 监控指标参考( MRS 3.x及之后版本) FusionInsight Manager转告警监控指标可分为节点信息指标与集群服务指标。表3表示节点中可配置阈值的指标、表4表示组件可配置阈值的指标。 MRS 3.3.0及之后版本的Manager界面中,部分组件告警支持分级上报告警,不同告警级别对应阈值不同,具体以Manager实际配置界面为准。 表3 节点信息监控指标转告警列表 监控指标组名称 监控指标名称 指标含义 默认阈值 CPU 主机CPU使用率 描述周期内当前集群的运算和控制能力,可通过观察该统计值,了解集群整体资源的使用情况。 90.0% 磁盘 磁盘使用率 描述主机磁盘的使用率。 90.0% 磁盘inode使用率 统计采集周期内磁盘inode使用率。 80.0% 内存 主机内存使用率 统计当前时间点的内存平均使用率。 90.0% 主机状态 主机文件句柄使用率 统计采集周期内该主机的文件句柄使用率。 80.0% 主机PID使用率 主机PID使用率。 90% 网络状态 TCP临时端口使用率 统计采集周期内该主机的TCP临时端口使用率。 80.0% 网络读信息 读包错误率 统计采集周期内该主机上该网口的读包错误率。 0.5% 读包丢包率 统计采集周期内该主机上该网口的读包丢包率。 0.5% 读吞吐率 统计周期内网口的平均读吞吐率(MAC层)。 80% 网络写信息 写包错误率 统计采集周期内该主机上该网口的写包错误率。 0.5% 写包丢包率 统计采集周期内该主机上该网口的写包丢包率。 0.5% 写吞吐率 统计周期内网口的平均写吞吐率(MAC层)。 80% 进程 D状态进程总数 统计周期内主机上D状态进程数量。 0 omm进程使用率 统计周期内omm进程使用率。 90 表4 集群监控指标转告警列表 服务 监控指标组名称 监控指标名称 指标含义 默认阈值 DBService 数据库 数据库连接数使用率 数据库连接数使用率统计。 90% 数据目录磁盘空间使用率 数据目录磁盘空间使用率统计。 80% Flume Agent Flume堆内存使用率 Flume堆内存使用百分比统计。 95.0% Flume直接内存使用率 Flume直接内存使用百分比统计。 80.0% Flume非堆内存使用率 Flume非堆内存使用百分比统计。 80.0% Flume垃圾回收(GC)总时间 Flume垃圾回收(GC)总时间。 12000ms HBase GC GC中回收old区所花时长 RegionServer的总GC时间。 5000ms GC中回收old区所花时长 HMaster的总GC时间。 5000ms CPU和内存 RegionServer直接内存使用率统计 RegionServer直接内存使用率统计。 90% RegionServer堆内存使用率统计 RegionServer堆内存使用率统计。 90% HMaster直接内存使用率统计 HMaster直接内存使用率统计。 90% HMaster堆内存使用率统计 HMaster堆内存使用率统计。 90% 服务 单个RegionServer的region数目 单个RegionServer的Region数目。 2000 处在RIT状态达到阈值时长的region数 处在RIT状态达到阈值时长的region数。 1 容灾 容灾同步失败次数 同步容灾数据失败次数。 1 主集群等待同步的日志文件数量 主集群等待同步的日志文件数量。 128 主集群等待同步的HFile文件数量 主集群等待同步的HFile文件数量。 128 队列 Compaction操作队列大小 Compaction操作队列大小。 100 HDFS 文件和块 HDFS缺失的块数量 HDFS文件系统中缺少副本块数量。 0 需要复制副本的块总数 NameNode需要复制副本的块总数。 1000 RPC 主NameNode RPC处理平均时间 NameNode RPC处理平均时间。 100ms 主NameNode RPC队列平均时间 NameNode RPC队列平均时间。 200ms 磁盘 HDFS磁盘空间使用率 HDFS磁盘空间使用率。 80% DataNode磁盘空间使用率 HDFS文件系统中DataNode可以使用的磁盘空间率。 80% 总副本预留磁盘空间所占比率 总副本预留磁盘空间占DataNode总未使用磁盘空间的百分比。 90% 资源 故障的DataNode总数 出故障的DataNode节点数量。 3 NameNode非堆内存使用百分比统计 NameNode非堆内存使用百分比统计。 90% NameNode直接内存使用百分比统计 NameNode直接内存使用百分比统计。 90% NameNode堆内存使用百分比统计 NameNode堆内存使用百分比统计。 95% DataNode直接内存使用百分比统计 DataNode直接内存使用百分比统计。 90% DataNode堆内存使用百分比统计 DataNode堆内存使用百分比统计。 95% DataNode非堆内存使用百分比统计 DataNode非堆内存使用百分比统计。 90% 垃圾回收 垃圾回收时间统计(GC) NameNode每分钟的垃圾回收(GC)所占用的时间。 12000ms 垃圾回收时间统计(GC) DataNode每分钟的垃圾回收(GC)所占用的时间。 12000ms Hive HQL Hive执行成功的HQL百分比 Hive执行成功的HQL百分比。 90.0% Background Background线程使用率 Background线程使用率。 90% GC MetaStore的总GC时间 MetaStore的总GC时间。 12000ms HiveServer的总GC时间 HiveServer的总GC时间。 12000ms 容量 Hive已经使用的HDFS空间占可使用空间的百分比 Hive已经使用的HDFS空间占可使用空间的百分比。 85.0% CPU和内存 MetaStore直接内存使用率统计 MetaStore直接内存使用率统计。 95% MetaStore非堆内存使用率统计 MetaStore非堆内存使用率统计。 95% MetaStore堆内存使用率统计 MetaStore堆内存使用率统计。 95% HiveServer直接内存使用率统计 HiveServer直接内存使用率统计。 95% HiveServer非堆内存使用率统计 HiveServer非堆内存使用率统计。 95% HiveServer堆内存使用率统计 HiveServer堆内存使用率统计。 95% Session 连接到HiveServer的session数占最大允许session数的百分比 连接到HiveServer的session数占最大允许session数的百分比。 90.0% Kafka 分区 未完全同步的Partition百分比 未完全同步的Partition数占Partition总数的百分比。 50% 其他 Partition不可用百分比 Kafka各个Topic的Partition不可用占比。 40% broker上用户连接数使用率 broker上用户连接数使用率。 80% 磁盘 Broker磁盘使用率 Broker数据目录所在磁盘的磁盘使用率。 80.0% Broker磁盘IO使用率 Broker数据目录所在磁盘的磁盘IO使用率。 80% 进程 Broker每分钟的垃圾回收时间统计(GC) Broker进程每分钟垃圾回收(GC)所占用的时间。 12000ms Kafka堆内存使用率 Kafka堆内存使用百分比统计。 95% Kafka直接内存使用率 Kafka直接内存使用百分比统计。 95% Loader 内存 Loader堆内存使用率 Loader堆内存使用率。 95% Loader直接内存使用率统计 Loader直接内存使用率统计。 80.0% Loader非堆内存使用率 Loader非堆内存使用率。 80% GC Loader的总GC时间 Loader的总GC时间。 12000ms Mapreduce 垃圾回收 垃圾回收时间统计(GC) 垃圾回收时间统计(GC)。 12000ms 资源 JobHistoryServer直接内存使用百分比统计 JobHistoryServer直接内存使用百分比统计。 90% JobHistoryServer非堆内存使用百分比统计 JobHistoryServer非堆内存使用百分比统计。 90% JobHistoryServer堆内存使用百分比统计 JobHistoryServer堆内存使用百分比统计。 95% Oozie 内存 Oozie堆内存使用率 Oozie堆内存使用率。 95.0% Oozie直接内存使用率 Oozie直接内存使用率。 80.0% Oozie非堆内存使用率 Oozie非堆内存使用率。 80% GC Oozie垃圾回收(GC)总时间 Oozie垃圾回收(GC)总时间。 12000ms Spark/Spark2x 内存 JD BCS erver2x堆内存使用率统计 JDB CS erver2x堆内存使用率统计。 95% JDBCServer2x直接内存使用率统计 JDBCServer2x直接内存使用率统计。 95% JDBCServer2x非堆内存使用率统计 JDBCServer2x非堆内存使用率统计 95% JobHistory2x直接内存使用率统计 JobHistory2x直接内存使用率统计。 95% JobHistory2x非堆内存使用率统计 JobHistory2x非堆内存使用率统计。 95% JobHistory2x堆内存使用率统计 JobHistory2x堆内存使用率统计。 95% IndexServer2x直接内存使用率统计 IndexServer2x直接内存使用率统计。 95% IndexServer2x堆内存使用率统计 IndexServer2x堆内存使用率统计。 95% IndexServer2x非堆内存使用率统计 IndexServer2x非堆内存使用率统计。 95% GC次数 JDBCServer2x的Full GC次数 JDBCServer2x进程的Full GC次数。 12 JobHistory2x的Full GC次数 JobHistory2x进程的Full GC次数。 12 IndexServer2x的Full GC次数 IndexServer2x进程的Full GC次数。 12 GC时间 JDBCServer2x的总GC时间 JDBCServer2x的总GC时间。 12000ms JobHistory2x的总GC时间 JobHistory2x的总GC时间。 12000ms IndexServer2x的总GC时间 IndexServer2x的总GC时间。 12000ms Storm 集群 Supervisor数 统计周期内集群中可用的Supervisor数目。 1 已用Slot比率 统计周期内集群中可用的slot使用率。 80.0% Nimbus Nimbus堆内存使用率 Nimbus堆内存使用百分比统计。 80% Yarn 资源 NodeManager直接内存使用百分比统计 NodeManager直接内存使用百分比统计。 90% NodeManager堆内存使用百分比统计 NodeManager堆内存使用百分比统计。 95% NodeManager非堆内存使用百分比统计 NodeManager非堆内存使用百分比统计。 90% ResourceManager直接内存使用百分比统计 ResourceManager直接内存使用百分比统计。 90% ResourceManager堆内存使用百分比统计 ResourceManager堆内存使用百分比统计。 95% ResourceManager非堆内存使用百分比统计 ResourceManager非堆内存使用百分比统计。 90% 垃圾回收 垃圾回收时间统计(GC) NodeManager每分钟的垃圾回收(GC)所占用的时间。 12000ms 垃圾回收时间统计(GC) ResourceManager每分钟的垃圾回收(GC)所占用的时间。 12000ms 其他 root队列下失败的任务数 root队列下失败的任务数。 50 root队列下被杀死的任务数 root队列下被杀死的任务数。 50 CPU和内存 挂起的内存量 挂起的内存量。 83886080MB 任务 正在挂起的任务 正在挂起的任务。 60 ZooKeeper 连接 ZooKeeper连接数使用率 ZooKeeper连接数使用百分比统计。 80% CPU和内存 ZooKeeper堆内存使用率 ZooKeeper堆内存使用百分比统计。 95% ZooKeeper直接内存使用率 ZooKeeper直接内存使用百分比统计。 80% GC ZooKeeper每分钟的垃圾回收时间统计(GC) ZooKeeper每分钟的垃圾回收时间统计(GC)。 12000ms Ranger GC UserSync垃圾回收(GC)时间 UserSync垃圾回收(GC)时间。 12000ms RangerAdmin垃圾回收(GC)时间 RangerAdmin垃圾回收(GC)时间。 12000ms TagSync垃圾回收(GC)时间 TagSync垃圾回收(GC)时间。 12000ms CPU和内存 UserSync非堆内存使用率 UserSync非堆内存使用百分比统计。 80.0% UserSync直接内存使用率 UserSync直接内存使用百分比统计。 80.0% UserSync堆内存使用率 UserSync堆内存使用百分比统计。 95.0% RangerAdmin非堆内存使用率 RangerAdmin非堆内存使用百分比统计。 80.0% RangerAdmin堆内存使用率 RangerAdmin堆内存使用百分比统计。 95.0% RangerAdmin直接内存使用率 RangerAdmin直接内存使用百分比统计。 80.0% TagSync直接内存使用率 TagSync直接内存使用百分比统计。 80.0% TagSync非堆内存使用率 TagSync非堆内存使用百分比统计。 80.0% TagSync堆内存使用率 TagSync堆内存使用百分比统计。 95.0% ClickHouse 集群配额 Clickhouse服务在ZooKeeper的数量配额使用率 ClickHouse服务在ZooKeeper上目录的数量配额使用百分比。 90% Clickhouse服务在ZooKeeper的容量配额使用率 ClickHouse服务在ZooKeeper上目录的容量配额使用百分比。 90% IoTDB GC IoTDBServer垃圾回收时间 IoTDBServer垃圾回收所占用的时间 12000ms CPU和内存 IoTDBServer堆内存使用率 IoTDBServer堆内存使用百分比统计 90% IoTDBServer直接内存使用率 IoTDBServer直接内存使用百分比统计 90%
  • 配置MRS集群告警阈值(MRS 2.x及之前版本) 在MRS Manager,单击“系统设置”。 在“配置”区域“监控和告警配置”下,单击“阈值配置”,依据规划选择监控指标并设置其基线。 单击某一指标例如“CPU使用率”,单击“添加规则”。 在“配置”对话框中填写监控指标规则参数。 表2 监控指标规则参数 参数名 参数解释 参数示例 规则名称 规则名称 CPU_MAX 参考日期 查看某指标的历史参考数据 2014/11/06 阈值类型 选择某指标的最大值或最小值,类型为“最大值”表示指标的实际值大于设置的阈值时系统将产生告警,类型为“最小值”表示指标的实际值小于设置的阈值时系统将产生告警。 最大值 告警级别 告警级别,包括: 致命 严重 一般 提示 重要 时间范围 设置规则生效时监控指标的具体时间段 从00:00到23:59 阈值 设置规则监控指标的阈值 设置数值80 日期 设置规则生效的日期类型,包括: 工作日 周末 其它 工作日 添加日期 日期选择“其他”时该参数生效。可选择多个日期。 11/30 单击“确定”。界面右上角弹出提示“模板保存成功。”。 “发送告警”默认已勾选。Manager会检查监控指标数值是否满足阈值条件,若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警,支持自定义。“检查周期(秒)”表示Manager检查监控指标的时间间隔。 在新添加规则所在的行,单击“操作”下的“应用”,界面右上角弹出提示规则xx应用成功,完成添加。单击“操作”下的“取消应用”,界面右上角弹出提示规则xx取消成功。
  • 通过Manager查看与清除告警(MRS 2.x及之前版本) 在MRS Manager,单击“告警管理”,在告警列表查看告警信息。 告警列表每页默认显示最近的十条告警。 支持在“告警级别”筛选相同级别的全部告警。结果包含已清除和未清除的告警。 单击“高级搜索”显示告警搜索区域,设置查询条件后,单击“搜索”,查看指定的告警信息。单击“重置”清除输入的搜索条件。 “开始时间”和“结束时间”表示时间范围的开始时间和结束时间,可以搜索此时间段内产生的告警。 查看告警参考章节告警帮助,按照帮助指导处理告警。如果某些场景中告警由于MRS依赖的其他云服务产生,可能需要联系对应云服务运维人员处理。 处理完告警后,若需手动清除,单击“清除告警”,手动清除告警。 如果有多个告警已完成处理,可选中一个或多个待清除的告警,单击“清除告警”,批量清除告警。每次最多批量清除300条告警。
  • 通过管理控制台查看与清除告警 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 单击“告警管理”,在告警列表查看告警信息。 告警列表每页默认显示最近的十条告警。 支持在告警“级别”筛选相同级别的全部告警。结果包含已清除和未清除的告警。 单击“全部导出”,在弹框内选择“保存类型”,单击“确定”可导出告警。 表1 告警信息说明 参数 参数说明 告警ID 告警的ID。 告警名 告警的名称。 级别 告警级别。 MRS 3.x之前版本集群告警级别为: 致命 指集群服务不可用,节点故障、 GaussDB 主备数据不同步、LdapServer数据同步异常等影响集群正常运行的告警,需要根据告警及时检查集群情况并恢复。 严重 指集群部分功能不可用的告警,包括进程故障、周期备份任务失败、关键文件权限异常等,需要根据告警及时检查报告告警的对象并恢复。 一般 指不影响当前集群主要功能的告警,包括证书文件即将过期、审计日志转储失败、License文件即将过期等告警。 提示 指级别最低的一种告警,起到信息展示或信息提示的作用,标识这件事情的发生,一般包括:停止服务、删除服务、停止实例、删除实例、删除节点、重启服务、重启实例、Manager主备倒换、缩容主机、实例恢复、实例故障、作业执行成功、作业执行失败等。 MRS 3.x及之后版本集群告警级别为: 紧急 指集群服务不可用,节点故障、GaussDB主备数据不同步、LdapServer数据同步异常等影响集群正常运行的告警,需要根据告警及时检查集群情况并恢复。 重要 指集群部分功能不可用的告警,包括进程故障、周期备份任务失败、关键文件权限异常等,需要根据告警及时检查报告告警的对象并恢复。 次要 指不影响当前集群主要功能的告警,包括证书文件即将过期、审计日志转储失败、License文件即将过期等告警。 提示 指级别最低的一种告警,起到信息展示或信息提示的作用,标识这件事情的发生,一般包括:停止服务、删除服务、停止实例、删除实例、删除节点、重启服务、重启实例、Manager主备倒换、缩容主机、实例恢复、实例故障、作业执行成功、作业执行失败等。 生成时间 产生告警的时间。 定位信息 告警的详细信息。 操作 当告警可手动清除时,单击“清除告警”进行处理。 需要查看告警详情时,单击“查看帮助”进行查看(MRS 3.x及之后版本支持)。 单击“高级搜索”显示告警搜索区域,设置查询条件后,单击“搜索”,查看指定的告警信息。单击“重置”清除输入的搜索条件。 “起止时间”表示时间范围的开始时间和结束时间,可以搜索此时间段内产生的告警。 查看告警参考章节告警帮助,按照帮助指导处理告警。如果某些场景中告警由于MRS依赖的其他云服务产生,可能需要联系对应云服务运维人员处理。 处理完告警后,若需手动清除,单击“清除告警”,在弹出的对话框单击“确定”,手动清除告警。 如果有多个告警已完成处理,可选中一个或多个待清除的告警,单击“清除告警”,批量清除告警。每次最多批量清除300条告警。