检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
操作步骤 客户端机器必须安装有Python,其版本不低于2.6.6,最高不能超过2.7.13。 在客户端机器的命令行终端输入python可查看Python版本号。如下显示Python版本为2.6.6。 Python 2.6.6 (r266:84292, Oct 12 2012, 14:23:48)
找到重启前的主NameNode,进入其数据目录(查看配置项“dfs.namenode.name.dir”可获取,例如/srv/BigData/namenode/current),得到最新的FSImage文件的序号。一般如下: 查看各JournalNode的数据目录(查看配置项“dfs.journalnode
dfs -put把本地文件拷贝到HDFS上,有报错。 上传部分文件后,报错失败,从NameNode原生页面看,临时文件大小不再变化。 原因分析 查看NameNode日志“/var/log/Bigdata/hdfs/nn/hadoop-omm-namenode-主机名.log”,发现该文件一直在被尝试写,直到最终失败。
Broker”,进入Kafka实例页面。 查看“角色”中所有实例是否正常。 是,执行3.d。 否,执行3.c。 勾选Broker所有实例,选择“更多 > 重启实例”,查看是否重启成功。 是,执行3.d。 否,执行4。 选择“组件管理 > Kafka”,查看健康状态是否为“良好”。 是,执行3
apache.hadoop.fs.obs=WARN log4j.logger.com.obs=WARN 可执行以下命令查看: tail -4 log4j.properties 图2 查看日志级别 父主题: MRS集群服务对接OBS示例
RegionServer的Region分布不均衡。 HBase集群规模过小。 处理步骤 查看告警定位信息 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“告警ID”为“19011”的告警,查看“定位信息”中产生该告警的服务实例和主机名。 在FusionInsight
Manager首页,选择“运维 > 告警 > 告警”,查看“告警ID”为“19033”的告警的“定位信息”中上报该告警的服务实例和主机名。 检查RegionServer堆内存配置。 在FusionInsight Manager的告警列表中,查看1中的告警实例是否有“HBase服务进程堆内存使用率超过阈值”告警产生。
在页面中,查看JournalNode的“健康状态”是否为“良好”。 是,执行2.a。 否,执行1.e。 选择故障的JournalNode,单击“更多 > 重启实例”。查看JournalNode能否成功启动。 是,执行1.f。 否,执行5。 等待5分钟后,在“告警管理”页签,查看该告警是否恢复。
附加信息”,查看并记录告警上报的租户名。 单击“租户资源”,选择对应计算实例的租户,查看该租户的资源配额是否充足。 是,执行6。 否,执行4。 根据实际使用情况,增加该租户资源容量的最大百分比。 等待5-10分钟,查看告警是否消失。 是,处理完毕。 否,执行6。 查看是否业务运行任务量过大
WebUI”后的链接,单击“作业管理”,在作业的“操作”列选择“更多 > 作业详情”也可查看Taskmanager日志。 查看作业日志进行故障修复,或联系运维人员,并发送已收集的故障日志信息。操作结束。 若无法在Yarn页面上查看日志,可通过HDFS下载日志。 返回Manager,选择“集群 > 服务
/hbase/splitWAL查看该znode的数量使用情况,查看返回结果的“Node count”跟znode数量配额的比值是否接近告警的阈值。 是,执行5。 否,执行6。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,查看是否存在“告警ID”为“
告警 > 告警”。 查看当前集群是否存在“ALM-12089 节点间网络互通异常”或“节点故障”等告警。 是,节点间网络不互通,请联系运维人员修复。 否,节点间网络互通,检查结束。 检查弹性伸缩是否关闭 登录华为云管理控制台界面,选择对应集群,单击“弹性伸缩”。 查看当前集群的弹性伸缩策略是否是关闭状态。
登录MRS集群详情页面,在“组件管理”页签,查看ZooKeeper服务的健康状态是否为“良好”。 是,执行1.b。 否,执行2.a。 参考ALM-13000 ZooKeeper服务不可用(2.x及以前版本)对ZooKeeper服务状态异常进行处理,然后查看ZooKeeper服务的健康状态是否恢复为“良好”。
@volatile private var endTime: Long = 0L @volatile private var numRecs: Long = 0L override def onQueryStarted(event: StreamingQueryListener
@volatile private var endTime: Long = 0L @volatile private var numRecs: Long = 0L override def onQueryStarted(event: StreamingQueryListener
handler配置值过低。 请求存在热点问题。 处理步骤 查看告警定位信息 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选择“告警ID”为“19021”的告警,查看“定位信息”中产生该告警的服务实例和主机名。 查看handler配置 选择“集群 > 服务 >
Manager首页,选择“集群 > 待操作集群的名称 > 服务”。 查看KrbServer服务是否存在。 是,执行3。 否,执行6。 单击“KrbServer”。 单击“实例”。在KrbServer管理页面,选择故障实例,选择“更多 > 重启实例”。查看实例能否成功启动。 是,执行5。 否,执行24。
登录FusionInsight Manager界面,查看右上角任务。 查看当前集群是否存在正在运行的任务。 是,等待任务运行结束。 否,检查结束。 检查是否有打开了第三方AD对接 登录FusionInsight Manager界面,单击“系统”页签。 选择“权限 > 第三方AD”,查看是否开启了第三方AD对接。
登录FusionInsight Manager界面,查看右上角任务。 查看当前集群是否存在正在运行的任务。 是,等待任务运行结束。 否,检查结束。 检查是否有打开了第三方AD对接 登录FusionInsight Manager界面,单击“系统”页签。 选择“权限 > 第三方AD”,查看是否开启了第三方AD对接。
运行HiBench6的sparkbench任务,如Wordcount,任务执行失败。 “bench.log”中显示Yarn任务执行失败。 登录Yarn WebUI,查看对应application的失败信息,显示如下: Exception in thread "main" org.apache.spark.SparkException: