检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HBase恢复数据任务报错回滚失败 问题 HBase恢复任务执行失败后系统自动回滚数据,如果页面详情中提示“Rollback recovery failed”信息,表示回滚失败。由于回滚失败后就不会处理数据,所以有可能产生垃圾数据,需要如何解决? 回答 在下次执行备份或恢复任务前,需要手动清除这些垃圾数据。
ALM-43008 JobHistory进程直接内存使用超出阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测JobHistory进程直接内存使用状态,当检测到JobHistory进程直接内存使用率超出阈值(最大内存的90%)时产生该告警。 告警属性 告警ID 告警级别 可自动清除
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 集群已经存在的任务无法运行;集群可接收新的Storm任务,但是无法运行。 可能原因 集群中Supervisor处于异常状态。
ALM-38009 Broker磁盘IO繁忙(适用于MRS 3.1.0之后版本) 告警解释 系统每60秒周期性检测Kafka各个磁盘的IO情况,当检测到某个Broker上的Kafka数据目录磁盘IO超出阈值(默认80%)时,产生该告警。 平滑次数为3,当该磁盘IO低于阈值(默认80%)时,告警恢复。
ALM-38012 Broker的分区数量超过阈值 告警解释 系统每30秒周期性检测Kafka服务每个Broker实例的分区数量。该指标可以在Broker实例监控中查看Partition数目,当检测到某个Broker上的分区数量超过阈值时产生告警。用户可在Manager上选择“运维
ALM-45005 HetuEngine计算实例CPU负载使用率超过阈值 本章节适用于MRS 3.3.1及以后版本。 告警解释 系统每30秒周期性检测HetuEngine计算实例的平均CPU负载使用率,当检测到HetuEngine计算实例的CPU负载使用率大于90%时产生该告警。
ALM-45330 Presto Worker线程数超过阈值 本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统会检查Presto Coordinator和Worker实例的线程使用情况,默认阈值为1024个。如果Presto Coordinator或Worker的线程数超过阈值,则发出告警。
ALM-45334 Presto Worker4线程数超过阈值 告警解释 系统会检查Presto Coordinator和Worker实例的线程使用情况,默认阈值为1024个。如果Presto Coordinator或Worker的线程数超过阈值,则发出告警。 告警属性 告警ID
OKerberos资源异常(2.x及以前版本) 告警解释 告警模块对Manager中的Kerberos资源的状态进行监控,当Kerberos资源异常时,系统产生此告警。 当Kerberos资源恢复时,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12005 严重 是 告警参数
是否自动清除 12005 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 Manager中的Kerberos资源异常,组件WebUI认证服务不可用,无法对
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDFS DataNode堆内存使用率过高,会影响到HDFS的数据读写性能。 可能原因 HDFS DataNode配置的堆内存不足。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 NameNode进程的垃圾回收时间过长,可能影响该NameNode进程正常提供服务,用户无法读写文件。 可能原因
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 DataNode进程的垃圾回收时间过长,可能影响该DataNode进程正常提供服务,用户无法读写文件。 可能原因
ALM-16045 Hive数据仓库被删除 告警解释 系统每60秒周期性检测Hive数据仓库情况,Hive数据仓库被删除告警。 告警属性 告警ID 告警级别 是否自动清除 16045 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 MapReduce JobHistoryServer非堆内存使用率过高,会影响MapReduce任务提交和运
产生告警的服务名称。 角色名 产生告警的角色名称。 应用名 产生告警的应用名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 任务执行超时后的运行时间内,该告警一直存在,但任务仍继续正常执行,没有任何影响。 可能原因 指定的超时时间少于所需执行时间。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 GC时间超出阈值,会影响JobHistory2x进程运行的性能,甚至造成JobHistory2x进程不可用,
ALM-45325 Presto服务不可用 本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统每60秒周期性检测Presto服务状态。当Presto服务不可用时产生该告警;当Presto服务恢复时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45325 紧急
使用Flume Flume向Spark Streaming提交作业后报类找不到错误 Flume客户端安装失败 Flume客户端无法连接服务端 Flume数据写入组件失败 Flume服务端进程故障 Flume数据采集慢 Flume启动失败
Storm样例程序开发思路 通过典型场景,您可以快速学习和掌握Storm拓扑的构造和Spout/Bolt开发过程。 场景说明 一个动态单词统计系统,数据源为持续生产随机文本的逻辑单元,业务处理流程如下: 数据源持续不断地发送随机文本给文本拆分逻辑,如“apple orange apple”。