检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 集群无法对外提供Storm服务,用户无法执行新的Storm任务。 可能原因 Kerberos集群故障。 ZooKeeper集群故障或假死。 Storm集群中主备Nimbus状态异常。
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 集群无法对外提供Storm服务。 用户无法执行新的Storm任务。 可能原因 Kerberos组件故障 ZooKeeper组件故障或假死 Storm集群中主备Nimbus状态异常
无 无 18002 DBService服务异常 Oozie连接DBservice失败或者存储在DBService中的数据遭到破坏 请参考4。 18003 HDFS服务异常 Oozie连接HDFS失败或者存储在HDFS中的数据遭到破坏 请参考7。 18005 Mapreduce服务异常
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 集群无法对外提供Kafka服务,用户无法执行新的Kafka任务。 可能原因 KrbServer服务故障。(非普通模式集群) ZooKeeper服务故障或无响应。
RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 ZooKeeper无法为上层组件提供协调服务,依赖ZooKeeper的组件可能无法正常运行。 可能原因 ZooKeeper实例状态异常。 磁盘容量不足。 网络故障。 ZooKeeper节点上安装了DNS。
HostName 产生告警的主机名。 NSName 产生告警的NameService名称 对系统的影响 无法为基于该NameService服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 可能原因 JournalNode节点故障。 DataNode节点故障。 磁盘容量不足。
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 集群无法对外提供Kafka服务,用户无法执行新的Kafka任务。 可能原因 KrbServer组件故障。 ZooKeeper组件故障或无响应。 Kafka集群中Broker节点异常。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 ZooKeeper无法为上层组件提供协调服务,依赖ZooKeeper的组件(例如Yarn、Flink等)无法正常运行。 可能原因 ZooKeeper节点上安装了DNS。 网络故障。 KrbServer服务异常。
参数不合理导致HBase启动失败 问题现象 修改部分参数后,无法正常启动HBase。 原因分析 查看HMaster日志(/var/log/Bigdata/hbase/hm/hbase-omm-xxx.log)显示,hbase.regionserver.global.memstore
获取HBase开发样例工程,将工程导入到IntelliJ IDEA开始样例学习。 前提条件 确保本地PC的时间与集群的时间差要小于5分钟,若无法确定,请联系系统管理员。集群的时间可通过FusionInsight Manager页面右下角查看。 操作步骤 参考获取MRS应用开发样例工
当存在单个RangerAdmin状态异常时,不影响Ranger原生UI访问;当两个RangerAdmin状态异常时,Ranger原生UI无法访问,无法执行创建、修改、删除策略等操作。 可能原因 RangerAdmin端口未启动。 处理步骤 端口进程检查。 在FusionInsight
产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 OLdap资源异常,Manager认证服务不可用,无法对Web上层服务提供安全认证和用户管理功能,可能引起无法登录Manager。 可能原因 Manager中LdapServer进程故障。 处理步骤 检查Manager中LdapServer进程是否正常。
对系统的影响 无法为基于HDFS服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 可能原因 ZooKeeper服务异常。 所有NameService服务异常。 业务请求量过大,HDFS健康检查读写文件异常。 HDFS FullGC导致健康检查失败。 处理步骤
ClickHouse进程异常 告警解释 ClickHouse实例健康检查模块30秒检查一次,如果连续失败的次数超过配置的阈值,则触发上报告警,此时ClickHouse进程可能处于停止响应状态,无法正常执行业务。 告警属性 告警ID 告警级别 是否可自动清除 45444 紧急 是 告警参数
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 当Ranger服务不可用时,Ranger无法正常工作,Ranger原生UI无法访问。 可能原因 Ranger服务所依赖内部服务DBService故障。 RangerAdmin角色实例异常。 处理步骤 检查DBService进程状态。
产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 无法为基于HDFS服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 可能原因 ZooKeeper服务异常。 所有NameService服务异常。 处理步骤 检查ZooKeeper服务状态。
如果数据源有数据,Flume Source持续读取不到数据,数据采集会停止。 可能原因 Flume Source故障,导致数据无法发送。 网络故障,导致数据无法发送。 处理步骤 检查Flume Source是否故障。 确认Flume Source是否是spooldir类型。 是,执行1
服务 > Hive > 实例”,勾选上报告警IP对应的实例,选择“更多 > 重启实例”。 正在重启的Hive实例无法对外提供服务,该实例上正在执行的SQL任务可能失败。 重启完成后,等待5分钟,查看告警是否消除。 是,处理完毕。 否,执行10。 收集故障信息。 在FusionInsight
CDS测试套,出现Timeout waiting for task异常导致Shuffle FetchFailed,Stage一直重试,任务无法正常完成。 回答 JDBCServer方式使用了ShuffleService功能,Reduce阶段所有的Executor会从NodeMan
建好对应的表。 Flink写ClickHouse不支持删除操作 由于不支持删除操作,Flink无法对ClickHouse的数据进行回撤。在Flink处理更新数据的时候产生的回撤流就无法在ClickHouse中执行,导致数据结果不对。 同时通过Flink CDC对接上游数据库写Cl