检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
修改集群域名后无法登录Manager页面 问题现象 用户修改域名后,通过console页面无法登录MRS Manager页面,或者登录MRS Manager页面异常。 原因分析 用户修改域名后,没有刷新executor用户的keytab文件,导致executor进程认证失败后不断循环认证,导致了acs进程内存溢出。
omm@hadoop02:~> jstack 62517 62517: well-known file is not secure 原因分析 由于执行命令的用户与当前查看pid信息的进程提交用户不一致导致。 Storm引入区分用户执行任务特性,在启动worker进程时将给进程的
TopicCommand$) 可能原因 用户不属于kafkaadmin组,Kafka提供安全访问接口,kafkaamdin组用户才可以进行topic删除操作。 原因分析 使用客户端命令,打印AdminOperationException异常。 通过客户端命令klist查询当前认证用户: [root@10-10-144-2
reaming/WordCount.jar时报错:unable to establish the security context。 原因分析 MRS集群开启了Kerberos认证但是无法提交作业,所以首先检查权限配置问题,检查发现未正确配置“/opt/client/Flink/
问题现象 HDFS使用容量100%,磁盘容量只使用85%左右,HDFS服务状态为只读,导致上层服务HBase、Spark等上报服务不可用。 原因分析 当前NodeManager和DataNode共数据盘使用,MRS默认预留15%的数据磁盘空间给非HDFS使用,可通过HDFS参数“dfs
Flume数据写入组件失败 问题现象 Flume进程启动后,Flume数据无法写入到对应组件(本示例以服务端写入到HDFS为例)。 原因分析 HDFS未启动或故障。 查看Flume运行日志: 2019-02-26 11:16:33,564 | ERROR | [SinkRunne
n” 问题背景与现象 使用Manager提示进程故障告警,查看告警进程为Kafka Broker。 可能原因 Broker配置异常。 原因分析 在Manager页面,在告警页面得到主机信息。 通过SSH登录Kafka Broker,执行cd /var/log/Bigdata/kafka/broker命令进入日志目录。
arehouse/database/table/jsondata'; 查询表出现异常。 该章节内容适用于MRS 1.9.2之后版本。 原因分析 使用默认开源的JSON序列化语句创建Hive表无法将表中JSON破损数据过滤掉,导致查询异常。 处理步骤 下载json-serde-1.3
"amNodeLabelExpression": "" } ] } } 结果分析: 通过这个接口,可以查询当前集群中Yarn上的任务,并且可以得到如下表1。 表1 常用信息 参数 参数描述 user 运行这个任务的用户。
MR任务即MapReduce任务,关于MapReduce介绍请参考MapReduce。 问题现象 HDFS临时目录文件过多,占用内存。 原因分析 MapReduce任务提交时会将相关配置文件、jar包和-files参数后添加的文件都上传至HDFS的临时目录,方便Container启
Couldn't find leader offsets。 可能原因 Kafka服务异常。 网络异常。 Kafka Topic异常。 原因分析 通过Manager页面,查看Kafka集群当前状态,发现状态为“良好”,且监控指标内容显示正确。 查看SparkStreaming日志中提示错误的Topic信息。
$BIGDATA_LOG_HOME/omm/oms/ha/scriptlog/aos.log,查看ha的AOS资源日志,是否有关键字“ERROR”,分析日志查看资源异常原因并修复。 等待五分钟,查看告警是否恢复。 是,操作结束。 否,执行6。 收集故障信息。 在FusionInsight
llPointerException。 可能原因 Kafka服务异常。 客户端Producer侧jaas文件和keytab文件错误。 原因分析 Producer发送数据到Kafka失败,可能原因客户端Producer侧问题或者Kafka侧问题。 通过Manager页面查看Kafka服务状态及监控指标。
distcp默认拷贝文件时不记录原block大小导致在原文件block.size不是128M时校验失败,需要在distcp命令增加-pb参数。 原因分析 HDFS在写的时候有设置块大小,默认128M,某些组件或者业务程序写入的文件可能不是128M,如8M。 <name>dfs.blocksize</name>
MRS配置跨集群互信失败 问题背景与现象 MRS 1.8.2之前的版本和MRS 1.8.2及之后的版本的两个集群之间跨集群互信不通。 原因分析 配置跨集群互信后,互信的两个集群均会增加用户“krbtgt/本集群域名@外部集群域名”、“krbtgt/外部集群域名@本集群域名”,由于
使用MRS 3.x版本集群,运行Spark任务,在Spark2x服务的WebUI页面上无法直接单击stderr和stdout跳转到日志页面。 原因分析 配置项“spark.httpdProxy.enable”未开启。 修改配置项查看日志处理步骤 在客户端修改spark-defaults.conf的配置项:spark
e_11f82aaf-e226-46dc-b1f0-002751557694 (No such file or directory) 原因分析 在History Server页面加载Task个数较多的Spark应用时,由于无法把全部的数据放入内存中,导致数据溢出到磁盘时,会产生前
$BIGDATA_LOG_HOME/omm/oms/ha/scriptlog/executor.log,查看ha的executor资源日志,是否有关键字“ERROR”,分析日志查看资源异常原因并修复。 等待5分钟,查看告警是否恢复。 是,操作结束。 否,执行7。 收集故障信息。 在FusionInsight Manager界面,选择“运维
Kafka服务当前可用Broker小于设置的replication-factor。 客户端命令中ZooKeeper地址参数配置错误。 原因分析 使用客户端命令,打印replication factor larger than available brokers异常。 Error while
retryUntilConnected(ZkClient.java:985) ...8more (kafka.admin.TopicCommand$) 原因分析 用户反馈已经排查了执行此命令的账号权限,此账号具有操作Kafka组件的最高权限,不应该仍然会有权限不足的问题。 经确认执行命令有问题,访