检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
例的业务IP和RPC端口,设置“haclusterX.remotenn2”值为对端集群另外一个NameNode实例的业务IP和RPC端口。按照“IP:port”格式填写。 “dfs.namenode.rpc-address.haclusterX.remotenn1”和“dfs.namenode
制失效。一旦主NameNode故障,则整个HDFS服务将不可用。 可能原因 备NameNode被停止。 备NameNode实例运行状态异常。 备NameNode合并新的FsImage失败。 备NameNode数据目录空间不足。 备NameNode推送FsImage到主NameNode失败。
连接ResourceManager异常,导致Spark任务提交失败。 原因分析 在Driver端打印异常如下,打印连接两个ResourceManager主备节点的26004端口均被拒绝: 15/08/19 18:36:16 INFO RetryInvocationHandler: Exception
户通过同一个客户端接口连接其他正常的JDBCServer服务。 多主实例模式相比主备模式的HA方案,优势主要体现在对以下两种场景的改进。 主备模式下,当发生主备切换时,会存在一段时间内服务不可用,该段时间JDBCServer无法控制,取决于Yarn服务的资源情况。 Spark中通
r服务停止工作,也不影响用户通过同一个客户端接口连接其他正常的JDBCServer服务。 多主实例模式相比主备模式的HA方案,优势主要体现在对以下两种场景的改进。 主备模式下,当发生主备切换时,会存在一段时间内服务不可用,该时间JDBCServer无法控制,取决于Yarn服务的资源情况。
产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 可能引起Manager主备倒换。Manager和组件WebUI认证服务不可用,无法对Web上层服务提供安全认证和用户管理功能,可能引起无法登录Manager和组件的WebUI。 可能原因 Manager中LdapServer进程故障。
集群地址。如果通过公网地址连接,请指定为集群“公网访问域名”,如果通过内网地址连接,请指定为集群“内网访问域名”。如果通过弹性负载均衡连接,请指定为“弹性负载均衡地址”。 username和password:连接数据库的用户名及密码。命令中如果携带认证密码信息可能存在安全风险,在执行命令前建议关
如何处理HetuEngine数据源丢失问题 问题 登录客户端查看HSConsole界面对接的数据源,数据源丢失。 回答 数据源丢失可能原因是DBservice主备倒换或数据库连接数使用率超过阈值造成。 用户可以登录FusionInsight Manager页面查看告警信息。 根据告警指导清除DBService告警,问题即可解决。
2.2补丁安装后,需要重启OMS服务。 使用root用户登录主备OMS节点,切换至omm用户,执行命令sh ${BIGDATA_HOME}/om-0.0.1/sbin/restart-oms.sh重启OMS服务。 主备OMS节点都需要重启。 MRS 1.9.2.2补丁安装后,需要
原因分析 登录到集群的Kerberos服务节点,查看“/var/log/Bigdata/kerberos/krb5kdc.log”。 登录到主、备OMS节点,查看“/var/log/Bigdata/okerberos/oms-krb5kdc.log”。 发现有大量的认证失败,同时有 “<unknown
Optimizer:优化器,分为逻辑优化器和物理优化器,分别对HQL生成的执行计划和MapReduce任务进行优化。 Executor:按照任务的依赖关系分别执行Map/Reduce任务。 ThriftServer:提供thrift接口,作为JDBC的服务端,并将Hive和其他应用程序集成起来。
集群无法对外提供Storm服务。 用户无法执行新的Storm任务。 可能原因 Kerberos组件故障 ZooKeeper组件故障或假死 Storm集群中主备Nimbus状态异常 处理步骤 检查Kerberos组件状态。未启用Kerberos认证的集群无需检查Kerberos状态,请执行2。 登
集群无法对外提供Storm服务,用户无法执行新的Storm任务。 可能原因 Kerberos集群故障。 ZooKeeper集群故障或假死。 Storm集群中主备Nimbus状态异常。 处理步骤 检查Kerberos集群状态(普通模式集群跳过此步骤) 在FusionInsight Manager管理界面,选择“集群
e过程中无需传递数据,直接在节点本地做Map Join后就能得到结果,性能显著提升。 HDFS数据同分布特性,使得需要做关联和汇总计算的两个文件FileA和FileB,通过指定同一个分布ID,使其所有的Block分布在一起,不再需要跨节点读取数据就能完成计算,极大提高MapReduce
脚本运行过程中会重启controller服务,同步Yarn的配置,并重启主备ResourceManager实例。 重启controller服务时,无法登录和操作FusionInsight Manager。 重启主备ResourceManager实例后,Yarn组件以及依赖Yarn的组件会出现短暂的服务不可用告警。
bManager的一个模块,和JobManager共进程。默认情况下,web服务器监测的端口是8081,用户可以在配置文件“flink-conf.yaml”中配置“jobmanager.web.port”来修改监测端口。 使用Netty和Netty路由器库来处理REST请求和解析URL。
100+s,不能及时进行主备倒换。 Yarn NodeManager心跳丢失。 Yarn ResourceManager偶现空指针报错导致重启。 Yarn ResourceManager内存泄漏。 Yarn客户侧ResourceManager报错空指针并发生主备倒换。 重启Route
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 用户HA证书文件已经失效,会导致主备模式下FlinkServer将无法正常对外提供服务,FlinkServer提交Flink作业功能无法正常使用。 可能原因 用户HA证书文件失效。
Hue Hue发生主备切换 次要 23002 Loader Loader主备倒换 重要 24002 Flume Flume Channel溢出 重要 25001 LdapServer LdapServer主备倒换 次要 27000 DBService DBServer主备倒换 次要 38003
配置进程参数 Flink on YARN模式下,有JobManager和TaskManager两种进程。在任务调度和运行的过程中,JobManager和TaskManager承担了很大的责任。 因而JobManager和TaskManager的参数配置对Flink应用的执行有着很大的影