检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对系统的影响 该节点的时间与集群其他节点的时间不同步,可能会导致该节点上的某些FusionInsight应用无法正常运行。如果该节点与其他kerberos服务实例时差持续增大,则可能引起该节点组件进行kerberos认证将失败,进而引起业务异常。 可能原因 该节点的NTP服务无法正常启动。
在主Master节点重启tomcat服务。 在主master节点上用omm用户执行netstat -anp |grep 28443 |grep LISTEN查询tomcat的进程号。 执行kill -9 {pid},其中{pid}为上一步中查询到的进程号。 等待进程自动重启,可以执行netstat
ka Broker,需开启Kafka内外网分流访问。 前提条件 Broker所在节点同时具有内网IP和外网IP,Broker绑定在内网IP上,外网无法访问。或者Broker所在节点只具有内网IP,外部服务通过网闸机映射访问内网。 ZooKeeper服务正常。 Kafka实例状态和磁盘状态均正常。
e启动失败。 回答 默认情况下,单个磁盘的故障将会引起HDFS DataNode进程关闭,导致NameNode为每一个存在DataNode上的block调度额外的副本,在没有故障的磁盘中引起不必要的块复制。 为了防止此情况,用户可以通过配置DataNodes来承受dfs.data
e启动失败。 回答 默认情况下,单个磁盘的故障将会引起HDFS DataNode进程关闭,导致NameNode为每一个存在DataNode上的block调度额外的副本,在没有故障的磁盘中引起不必要的块复制。 为了防止此情况,用户可以通过配置DataNodes来承受dfs.data
ALM-14012 Journalnode数据不同步 告警解释 在主NameNode节点上,系统每5分钟检测一次集群中所有JournalNode节点的数据同步性。如果有JournalNode节点的数据不同步,系统产生该告警。 当Journalnode数据同步5分钟后,告警恢复。 告警属性
口,当事件失败时,Storm会自动管理bolt的状态并且执行恢复。 消息采样和调试:在Storm UI界面可以开关拓扑或者组件级别的调试,将流消息按采样比率输出到指定日志中。 Worker动态分析:在Storm UI界面可以收集Worker进程的Jstack、Heap日志,并且可以重启Worker进程。
Multicast特性开启时,Publisher将观测当前RegionServer存活情况,当出现Dead RegionServer时,广播发送Dead RegionServer信息到广播地址。配置了监听该广播地址的Listener将接收到Dead RegionServer的信息,
ALM-14012 HDFS Journalnode数据不同步(2.x及以前版本) 告警解释 在主NameNode节点上,系统每5分钟检测一次集群中所有JournalNode节点的数据同步性。如果有JournalNode节点的数据不同步,系统产生该告警。 当Journalnode数据同步5分钟后,告警恢复。
HiveServer滚动重启时,若仍有客户端连接到滚动重启的HiveServer上,客户端正在运行的任务将失败 重启Hive服务期间,若仍有客户端连接HiveServer提交任务,可能导致任务运行失败 HiveServer滚动重启时,将等待客户端连接断开,最长等待30分钟 Mapreduce 直接重启
在主Master节点重启tomcat服务。 在主master节点上用omm用户执行netstat -anp |grep 28443 |grep LISTEN查询tomcat的进程号。 执行kill -9 {pid},其中{pid}为上一步中查询到的进程号。 等待进程自动重启,可以执行netstat
Tez或者Spark库路径不存在,会影响Hive on Tez,Hive on Spark功能。 可能原因 Tez或者Spark在HDFS上库路径被删除。 处理步骤 检查Tez和Spark库路径。 以root用户登录客户端所在节点,用户密码为安装前用户自定义,请咨询系统管理员。
HiveServer滚动重启时,若仍有客户端连接到滚动重启的HiveServer上,客户端正在运行的任务将失败 重启Hive服务期间,若仍有客户端连接HiveServer提交任务,可能导致任务运行失败 HiveServer滚动重启时,将等待客户端连接断开,最长等待30分钟 Mapreduce 直接重启
成本分配 成本管理的基础是树立成本责任制,让各部门、各业务团队、各责任人参与进来,为各自消耗云服务产生的成本负责。企业可以通过成本分配的方式,将云上成本分组,归集到特定的团队或项目业务中,让各责任组织及时了解各自的成本情况。 华为云成本中心支持通过多种不同的方式对成本进行归集和重新分配,您可以根据需要选择合适的分配工具。
基于此策略新建的Topic的各个Partition的Leader会在集群节点上随机分配,但会确保同一Partition的不同Replica会分配在不同的AZ上,所以当使用此策略时,需保证各个AZ内的节点个数一致,否则会导致节点少的AZ上的机器负载远高于集群平均水平。 ./kafka-topics
户端升级操作。 登录集群主节点并执行以下命令: cd /opt/Bigdata/patches/{MRS补丁版本号}/download/ 将补丁安装包拷贝到客户端机器/opt/目录下: scp patch.tar.gz {客户端机器IP}:/opt/ 例如: scp patch.tar
产生告警的主机节点信息。 对系统的影响 LdapServer数据不一致时,有可能是Manager上的LdapServer数据损坏,也有可能是集群上的LdapServer数据损坏,此时数据损坏的LdapServer进程将无法对外提供服务,影响Manager和集群的认证功能。 可能原因 LdapServer进程所在的节点网络故障。
导入导出Hive数据库 操作场景 在大数据应用场景中,往往存在将Hive中的数据库及数据库下的所有表迁移到另一个集群上,使用Hive的导出导入数据库命令可以实现完整数据库的迁移。 本章节内容适用于MRS 3.2.0及之后版本。 Hive数据库导入导出功能目前不支持对加密表、HBa
tp-port>/jmx,如果该值超过4倍的限定值(4*1M),建议用户配置多个驱动器并重新启动HDFS。 恢复步骤: 在DataNode上配置多个数据目录。 示例:在原先只配置了/data1/datadir的位置 <property> <name>dfs.datanode.data
tp-port>/jmx,如果该值超过4倍的限定值(4*1M),建议用户配置多个驱动器并重新启动HDFS。 恢复步骤: 在DataNode上配置多个数据目录。 示例:在原先只配置了/data1/datadir的位置 <property> <name>dfs.datanode.data