检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置NameNode内存参数 配置场景 在HDFS中,每个文件对象都需要在NameNode中注册相应的信息,并占用一定的存储空间。随着文件数的增加,当原有的内存空间无法存储相应的信息时,需要修改内存大小的设置。
当备NameNode存储元数据时,断电后备NameNode启动失败 问题 当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败并发生如下错误信息。
原因分析 集群在周期性的备份中,由于备份产生了软连接,将/srv/BigData/LocalBackup连接到了/opt/Bigdata/LocalBackup,会使用到根目录磁盘空间,因为根目录磁盘空间不足,导致无法写入备份文件,导致集群周期备份失败。
可能原因 硬盘故障。 磁盘权限设置不正确。 处理步骤 查看是否存在磁盘告警 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”查看是否存在告警“ALM-12014 设备分区丢失”或“ALM-12033 慢盘故障”。 是,执行2。 否,执行4。
如果业务没有较多的更新、删除、回收过期数据空间时,可以把该值设置为0,以禁止Major Compaction。 如果必须要执行Major Compaction,以回收更多的空间,可以适当增加该值来调大Major Compaction的执行周期,减少对资源的频繁占用。单位:毫秒。
原因分析 当前NodeManager和DataNode共数据盘使用,MRS默认预留15%的数据磁盘空间给非HDFS使用,可通过HDFS参数“dfs.datanode.du.reserved.percentage”修改百分比来控制具体的磁盘占比。
对系统的影响 向ZooKeeper数据目录空间写入大量数据,导致依赖本目录(详细参见告警定位信息)的上游组件(例如Yarn、Flink、Spark等)的业务异常。 可能原因 往ZooKeeper数据目录空间写入大量数据,或者自定义阈值设置不合理。
对系统的影响 向ZooKeeper数据目录空间写入大量数据,导致ZooKeeper无法对外正常提供服务,导致依赖告警目录的上游组件(例如Yarn、Flink、Spark等)的业务异常。 可能原因 往ZooKeeper数据目录空间写入大量数据。 自定义阈值设置不合理。
如果业务没有较多的更新、删除、回收过期数据空间时,可以把该值设置为0,以禁止Major Compaction。
可能原因 硬盘存在坏道等故障。 处理步骤 登录MRS集群详情页面,选择“告警管理”。 在实时告警列表中,单击此告警所在行。
执行smartctl -d [sat|scsi]+megaraid,[DID] -l error -H /dev/sd[x]命令查看硬盘的GLIST列表,进一步判断硬盘是否正常。
“/srv/BigData/dbdata_om”所在的分区磁盘空间被占满。 处理步骤 使用admin用户登录到FusionInsight Manager用户管理界面,检查当前报错用户的权限。 用户至少具有Manager的以下权限之一才可以访问。
为了避免这种情况,添加一个新的参数“dfs.datanode.du.reserved.percentage”来配置预留磁盘空间占总磁盘空间大小的百分比,那样可以基于总的磁盘空间来预留磁盘百分比。
NameNode 用于管理文件系统的命名空间、目录结构、元数据信息以及提供备份机制等。 Active NameNode:主NameNode,管理文件系统的命名空间、维护文件系统的目录结构树以及元数据信息;记录写入的每个“数据块”与其归属文件的对应关系。
安装补丁前准备 请参见执行MRS集群健康检查检查集群状态,集群节点故障、硬盘故障等异常可能导致补丁安装卸载失败。请确认集群健康状态正常后再安装、卸载补丁。
以一个20节点的计算场景为例,默认清理周期(15日)内将产生约1800万日志文件,占用NameNode近18G内存空间,同时拖慢HDFS的系统响应速度。
因为日志占用了一部分存储空间,建议管理员清除比较久远的操作日志释放资源空间。 日志文件较大,可以将此文件目录添加到“/etc/logrotate.d/syslog”中,让系统做日志老化 ,定时清理久远的日志 。
为了避免这种情况,添加一个新的参数“dfs.datanode.du.reserved.percentage”来配置预留磁盘空间占总磁盘空间大小的百分比,那样可以基于总的磁盘空间来预留磁盘百分比。
硬盘故障的自动处理 MRS对开源版本进行了增强,可以监控各节点上的硬盘以及文件系统状态。如果出现异常,立即将相关分区移出存储池;如果硬盘恢复正常(通常是因为用户更换了新硬盘),也会将新硬盘重新加入业务运作。
检查主备节点磁盘空间 分别登录OMS主备节点,查看磁盘使用信息。 执行 df -h / ,查看/目录的可用空间是否大于30G。 否,清理磁盘空间。 是,检查结束。