云服务器内容精选

  • 通过Manager查看与清除告警( MRS 2.x及之前版本) 在MRS Manager,单击“告警管理”,在告警列表查看告警信息。 告警列表每页默认显示最近的十条告警。 支持在“告警级别”筛选相同级别的全部告警。结果包含已清除和未清除的告警。 单击“高级搜索”显示告警搜索区域,设置查询条件后,单击“搜索”,查看指定的告警信息。单击“重置”清除输入的搜索条件。 “开始时间”和“结束时间”表示时间范围的开始时间和结束时间,可以搜索此时间段内产生的告警。 查看告警参考章节告警帮助,按照帮助指导处理告警。如果某些场景中告警由于MRS依赖的其他云服务产生,可能需要联系对应云服务运维人员处理。 处理完告警后,若需手动清除,单击“清除告警”,手动清除告警。 如果有多个告警已完成处理,可选中一个或多个待清除的告警,单击“清除告警”,批量清除告警。每次最多批量清除300条告警。
  • 通过管理控制台查看与清除告警 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 单击“告警管理”,在告警列表查看告警信息。 告警列表每页默认显示最近的十条告警。 支持在告警“级别”筛选相同级别的全部告警。结果包含已清除和未清除的告警。 单击“全部导出”,在弹框内选择“保存类型”,单击“确定”可导出告警。 表1 告警信息说明 参数 参数说明 告警ID 告警的ID。 告警名 告警的名称。 级别 告警级别。 MRS 3.x之前版本集群告警级别为: 致命 指集群服务不可用,节点故障、 GaussDB 主备数据不同步、LdapServer数据同步异常等影响集群正常运行的告警,需要根据告警及时检查集群情况并恢复。 严重 指集群部分功能不可用的告警,包括进程故障、周期备份任务失败、关键文件权限异常等,需要根据告警及时检查报告告警的对象并恢复。 一般 指不影响当前集群主要功能的告警,包括证书文件即将过期、审计日志转储失败、License文件即将过期等告警。 提示 指级别最低的一种告警,起到信息展示或信息提示的作用,标识这件事情的发生,一般包括:停止服务、删除服务、停止实例、删除实例、删除节点、重启服务、重启实例、Manager主备倒换、缩容主机、实例恢复、实例故障、作业执行成功、作业执行失败等。 MRS 3.x及之后版本集群告警级别为: 紧急 指集群服务不可用,节点故障、GaussDB主备数据不同步、LdapServer数据同步异常等影响集群正常运行的告警,需要根据告警及时检查集群情况并恢复。 重要 指集群部分功能不可用的告警,包括进程故障、周期备份任务失败、关键文件权限异常等,需要根据告警及时检查报告告警的对象并恢复。 次要 指不影响当前集群主要功能的告警,包括证书文件即将过期、审计日志转储失败、License文件即将过期等告警。 提示 指级别最低的一种告警,起到信息展示或信息提示的作用,标识这件事情的发生,一般包括:停止服务、删除服务、停止实例、删除实例、删除节点、重启服务、重启实例、Manager主备倒换、缩容主机、实例恢复、实例故障、作业执行成功、作业执行失败等。 生成时间 产生告警的时间。 定位信息 告警的详细信息。 操作 当告警可手动清除时,单击“清除告警”进行处理。 需要查看告警详情时,单击“查看帮助”进行查看(MRS 3.x及之后版本支持)。 单击“高级搜索”显示告警搜索区域,设置查询条件后,单击“搜索”,查看指定的告警信息。单击“重置”清除输入的搜索条件。 “起止时间”表示时间范围的开始时间和结束时间,可以搜索此时间段内产生的告警。 查看告警参考章节告警帮助,按照帮助指导处理告警。如果某些场景中告警由于MRS依赖的其他云服务产生,可能需要联系对应云服务运维人员处理。 处理完告警后,若需手动清除,单击“清除告警”,在弹出的对话框单击“确定”,手动清除告警。 如果有多个告警已完成处理,可选中一个或多个待清除的告警,单击“清除告警”,批量清除告警。每次最多批量清除300条告警。
  • 参考信息 表2 “安全级别”和“Facility”字段数值编码 安全级别 Facility 数值编码 Emergency kernel messages 0 Alert user-level messages 1 Critical mail system 2 Error system daemons 3 Warning security/authorization messages (note 1) 4 Notice messages generated internally by syslog 5 Informational line printer subsystem 6 Debug network news subsystem 7 - UUCP subsystem 8 - clock daemon (note 2) 9 - security/authorization messages (note 1) 10 - FTP daemon 11 - NTP subsystem 12 - log audit (note 1) 13 - log alert (note 1) 14 - clock daemon (note 2) 15 - local use 0~7 (local0 ~ local7) 16~23 表3 报文格式信息域表 信息域 描述 dn 集群名称 id 告警ID name 告警名称 serialNo 告警序列号 说明: 故障告警及其对应的恢复告警的告警序列号相同。 category 告警类型,取值范围: 0:故障告警 1:恢复告警 2:事件 occurTime 告警产生时间 clearTime 告警清除时间 isAutoClear 告警是否自动清除,取值范围: 1:是 0:否 locationInfo 告警位置信息 clearType 告警清除类型,取值范围: -1:未清除 0:自动清除 2:手动清除 level 告警级别,取值范围: 1:紧急告警 2:重要告警 3:次要告警 4:提示告警 cause 告警原因 additionalInfo 附加信息 object 告警对象
  • MRS集群常见事件列表 表3 MRS集群事件列表 事件ID 组件 事件名称 事件级别 12019 Manager 停止服务 提示 12021 Manager 停止实例 提示 12023 Manager 删除节点 提示 12024 Manager 重启服务 提示 12025 Manager 重启实例 提示 12026 Manager Manager主备倒换 次要 12065 Manager 进程重新启动 次要 12070 Manager 作业执行成功 提示 12071 Manager 作业执行失败 提示 12072 Manager 作业被终止 提示 12082 Manager 慢盘自动隔离中止 重要 12083 Manager 慢盘隔离成功 重要 12084 Manager 慢盘数据均衡失败 重要 12085 Manager 慢盘隔离恢复 重要 12086 Manager Agent进程重启 提示 12087 Manager 慢盘取消隔离失败 重要 12088 Manager 慢盘取消隔离成功 重要 12089 Manager 慢盘隔离失败 重要 12090 Manager 慢盘节点隔离成功 重要 12091 Manager 慢盘节点取消隔离成功 重要 12092 Manager 慢盘节点实例启动成功 重要 12093 Manager 慢盘节点隔离失败 重要 12094 Manager 慢盘节点实例启动失败 重要 12095 Manager 慢盘节点取消隔离失败 重要 12096 Manager 慢盘节点已恢复 重要 12152 Manager 启动周期性复制 次要 12153 Manager 周期性复制完成 次要 12154 Manager 启动流式复制 次要 12155 Manager 重启流式复制 次要 12156 Manager 停止流式复制 次要 12157 Manager 周期性同步跳过 次要 12158 Manager 主机信息丢失 次要 14005 HDFS NameNode主备倒换 次要 14028 HDFS HDFS磁盘均衡任务 次要 14029 HDFS 主NameNode进入安全模式并生成新的FSimage 次要 17001 Oozie Oozie工作流执行失败 重要 17002 Oozie Oozie定时任务执行失败 重要 18001 Yarn ResourceManager主备倒换 次要 18004 Mapreduce JobHistoryServer主备倒换 次要 18029 Yarn 作业占用存储资源过多 次要 19001 HBase HMaster主备倒换 次要 19027 HBase RegionServer级别热点转移 重要 19028 HBase 热点Region分裂 重要 19029 HBase 热点Region隔离 重要 20003 Hue Hue发生主备切换 次要 23002 Loader Loader主备倒换 重要 24002 Flume Flume Channel溢出 重要 25001 LdapServer LdapServer主备倒换 次要 27000 DBService DBServer主备倒换 次要 38003 Kafka Topic数据保存周期配置调整 提示 43014 Spark Spark 数据倾斜 提示 43015 Spark Spark SQL 超大查询结果 提示 43016 Spark Spark SQL执行超时 提示 43024 Spark 启动JD BCS erver 提示 43025 Spark 停止JDB CS erver 提示 43026 Spark ZooKeeper连接成功 提示 43027 Spark ZooKeeper连接异常 提示 43601 GraphBase GraphBase主备切换 次要 45002 HetuEngine QAS主备倒换 次要 45597 IoTDB Region 副本补齐事件 提示 45651 Flink FlinkServer主备切换 次要
  • 配置定时备份告警与审计信息 用户通过修改配置文件,实现定时备份 FusionInsight Manager的告警信息、Manager审计信息以及所有服务的审计信息到指定的存储位置。 备份支持使用SFTP协议或FTP协议,FTP协议未加密数据可能存在安全风险,建议使用SFTP。 本章节适用于MRS 3.x及以后版本。 以omm用户登录主管理节点。 用户只需在主管理节点执行此操作,不支持在备管理节点上配置定时备份。 执行以下命令,切换目录。 cd ${BIGDATA_HOME}/om-server/om/sbin 执行以下命令,配置定时备份Manager告警、审计或者服务审计信息。 ./setNorthBound.sh -t 信息类型 -i 远程服务器IP -p 服务器使用的SFTP或FTP端口 -u 用户名 -d 保存信息的路径 -c 时间间隔(分钟) -m 每个保存文件的信息记录数 -s 备份启停开关 -e 指定的协议 例如: ./setNorthBound.sh -t alarm -i 10.0.0.10 -p 22 -u sftpuser -d /tmp/ -c 10 -m 100 -s true -e sftp 此脚本将修改告警信息备份配置文件“alarm_collect_upload.properties”。文件存储路径为“${BIGDATA_HOME}/om-server/tomcat/webapps/web/WEB-INF/classes/config”。 ./setNorthBound.sh -t audit -i 10.0.0.10 -p 22 -u sftpuser -d /tmp/ -c 10 -m 100 -s true -e sftp 此脚本将修改审计信息备份配置文件“audit_collect_upload.properties”。文件存储路径为“${BIGDATA_HOME}/om-server/tomcat/webapps/web/WEB-INF/classes/config”。 ./setNorthBound.sh -t service_audit -i 10.0.0.10 -p 22 -u sftpuser -d /tmp/ -c 10 -m 100 -s true -e sftp 此脚本将修改服务审计信息备份配置文件“service_audit_collect_upload.properties”。文件存储路径为“${BIGDATA_HOME}/om-server/tomcat/webapps/web/WEB-INF/classes/config”。 根据界面提示输入用户的密码。密码将加密保存在配置文件中。 Please input sftp/ftp server password: 显示如下结果,说明修改成功。备管理节点将自动同步配置文件。 execute command syncfile successfully. Config Succeed. 父主题: 查看与配置MRS告警事件