检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
arn.nodemanager.local-dirs”和日志目录“yarn.nodemanager.log-dirs”。适用于以下场景: 更改NodeManager角色的存储目录,所有NodeManager实例的存储目录将同步修改。 更改NodeManager单个实例的存储目录,
auto.maxDataNodesNum 该参数用来控制进行自动Balancer的DataNode数量。假设该参数值为N,当N大于0, 则选择剩余空间比例最高的N个DataNode和最低的N个DataNode之间进行数据均衡;当N等于0, 则对集群中所有DataNode进行数据均衡。 5
auto.maxDataNodesNum 该参数用来控制进行自动Balancer的DataNode数量。假设该参数值为N,当N大于0, 则选择剩余空间比例最高的N个DataNode和最低的N个DataNode之间进行数据均衡;当N等于0, 则对集群中所有DataNode进行数据均衡。 5
arn.nodemanager.local-dirs”和日志目录“yarn.nodemanager.log-dirs”。适用于以下场景: 更改NodeManager角色的存储目录,所有NodeManager实例的存储目录将同步修改。 更改NodeManager单个实例的存储目录,
调整DataNode磁盘坏卷信息 配置场景 在开源版本中,如果为DataNode配置多个数据存放卷,默认情况下其中一个卷损坏,则DataNode将不再提供服务。用户可以通过修改配置项“dfs.datanode.failed.volumes.tolerated”的值,指定失败的个数
ngPolicy 解决办法 将DataNode选择磁盘策略的参数dfs.datanode.fsdataset.volume.choosing.policy的值改为:org.apache.hadoop.hdfs.server.datanode.fsdataset.Available
集群出现ALM-14012 Journalnode数据不同步告警 问题背景与现象 MRS集群出现ALM-14012 Journalnode数据不同步告警。 原因分析 登录告警节点,查找日志路径“/var/log/Bigdata/hdfs/nn”下Journalnode实例的startDetail
ALM-14027 DataNode磁盘故障 告警解释 系统每60秒周期性检测DataNode节点上的磁盘状况,当检测到有磁盘出现故障时产生该告警。 当DataNode上故障磁盘都恢复正常后,手动清除该告警,并重启该DataNode。 告警属性 告警ID 告警级别 是否自动清除 14027
NameNode实例都变为备状态 用户问题 通过页面更改NameNode的RPC端口,随后重启HDFS服务,出现所有NameNode一直是备状态,导致集群异常。 问题现象 所有NameNode都是备状态,导致集群异常。 原因分析 集群安装启动后,如果修改NameNode的RPC端
调整DataNode磁盘坏卷信息 配置场景 在开源版本中,如果为DataNode配置多个数据存放卷,默认情况下其中一个卷损坏,则DataNode将不再提供服务。用户可以通过修改配置项“dfs.datanode.failed.volumes.tolerated”的值,指定失败的个数
路径,“labelExpression”为标签表达式。 开启NodeLabel特性后,可以通过命令hdfs nodelabel -listNodeLabels查看每个DataNode的标签信息。 块副本位置选择 NodeLabel支持对各个副本的摆放采用不同的策略,如表达式“label-1
n2。 若在任一时刻,所有NameNode都被添加至blacklist,则其内容会被清空,client会按照初始的NameNode list重新尝试连接。若再次出现任何故障,NameNode仍会被添加至blacklist。 图1 NameNode blacklisting状态图 配置描述
路径,“labelExpression”为标签表达式。 开启NodeLabel特性后,可以通过命令hdfs nodelabel -listNodeLabels查看每个DataNode的标签信息。 块副本位置选择 NodeLabel支持对各个副本的摆放采用不同的策略,如表达式“label-1
DataNode写失败的日志 短时间内写入大量文件导致这种情况,因此DataNode内存不足。 图3 写入大量文件导致DataNode内存不足 解决办法 检查DataNode内存配置,以及机器剩余内存是否充足。 增加DataNode内存,并重启DataNode。 父主题: 使用HDFS
由于HDFS块丢失导致DataNode退服失败 问题背景与现象 在退服DataNode过程中,一直提示退服失败。 原因分析 查看退服失败报错日志,日志中显示总计1564个块,有一个块一直没法被备份。 登录集群Master节点,进入HDFS客户端,执行hdfs fsck /命令查看损坏的块,并记录文件路径。
n2。 若在任一时刻,所有NameNode都被添加至blacklist,则其内容会被清空,client会按照初始的NameNode list重新尝试连接。若再次出现任何故障,NameNode仍会被添加至blacklist。 图1 NameNode blacklisting状态图 配置描述
备NameNode会周期性做合并editlog,生成fsimage文件的过程叫做checkpoint。备NameNode在新生成fsimage后,会将fsimage传递到主NameNode。 由于“备NameNode会周期性做合并editlog”,因此当备NameNode异常时,无
EditLog不连续导致NameNode启动失败 问题 在JournalNode节点有断电,数据目录磁盘占满,网络异常时,会导致JournalNode上的EditLog不连续。此时如果重启NameNode,很可能会失败。 现象 重启NameNode会失败。在NameNode运行日志中会报如下的错误:
EditLog不连续导致NameNode启动失败 问题 在JournalNode节点有断电,数据目录磁盘占满,网络异常时,会导致JournalNode上的EditLog不连续。此时如果重启NameNode,很可能会失败。 现象 重启NameNode会失败。在NameNode运行日志中会报如下的错误:
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 NameNode进入安全模式后,该NameNode不可写入。 可能原因 用户手动进入安全模式或重启NameNode时存在丢块。 处理步骤 检查NameNode节点是否进入安全模式。 登录FusionInsight Manager页面,选择“运维