检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
EditLog不连续导致NameNode启动失败 问题 在JournalNode节点有断电,数据目录磁盘占满,网络异常时,会导致JournalNode上的EditLog不连续。此时如果重启NameNode,很可能会失败。 现象 重启NameNode会失败。在NameNode运行日志中会报如下的错误:
故障状态的DataNode节点无法提供HDFS服务,可能导致用户无法读写文件。 可能原因 DataNode故障或者负荷过高。 NameNode和DataNode之间的网络断连或者繁忙。 NameNode负荷过高。 DataNode被删除后,没有重启NameNode。 处理步骤 查看DataNode是否故障。
删除大量文件后重启NameNode耗时长 问题 删除大量文件之后立刻重启NameNode(例如删除100万个文件),NameNode启动慢。 回答 由于在删除了大量文件之后,DataNode需要时间去删除对应的Block。当立刻重启NameNode时,NameNode会去检查所有Data
Unhealthy Host 不健康节点的主机列表。 对系统的影响 故障的NodeManager节点无法提供Yarn服务。 容器减少,集群性能下降。 可能原因 NodeManager节点所在主机的硬盘空间不足。 NodeManager节点本地目录omm用户无访问权限。 处理步骤 检查主机的硬盘空间。
ALM-14012 Journalnode数据不同步 告警解释 在主NameNode节点上,系统每5分钟检测一次集群中所有JournalNode节点的数据同步性。如果有JournalNode节点的数据不同步,系统产生该告警。 当Journalnode数据同步5分钟后,告警恢复。 告警属性
删除大量文件后重启NameNode耗时长 问题 删除大量文件之后立刻重启NameNode(例如删除100万个文件),NameNode启动慢。 回答 由于在删除了大量文件之后,DataNode需要时间去删除对应的Block。当立刻重启NameNode时,NameNode会去检查所有Data
使用调整集群节点接口时参数node_id如何配置? 问: 使用调整集群节点接口时(/v1.1/{project_id}/cluster_infos/{cluster_id}),请求参数“node_id”如何配置? 答: 使用调整集群节点接口时,请求参数“node_id”的值固定为“node_orderadd”。
KeeperException$NoNodeException: KeeperErrorCode = NoNode for /brokers/ids [2017-09-17 16:35:28,520] ERROR org.I0Itec.zkclient.exception.ZkNoNodeException:
ALM-14037 存在集群外的DataNode 告警解释 NameNode每8个小时周期性检查集群中是否存在脱离管控的DataNode。如果存在则触发该告警。如果无脱离管控的DataNode则告警清除。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID 告警级别
对系统的影响 丢失的NodeManager节点无法提供Yarn服务。 容器减少,集群性能下降。 可能原因 NodeManager没有经过退服操作,强制被删除。 NodeManager所有实例被停止或者进程故障。 NodeManager节点所在主机故障。 NodeManager和Re
ALM-12051 磁盘Inode使用率超过阈值 告警解释 系统每30秒周期性检测磁盘Inode使用率,并把实际Inode使用率和阈值(系统默认阈值80%)进行比较,当检测到Inode使用率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 >
DataNode数据目录配置不合理 告警解释 DataNode的配置参数“dfs.datanode.data.dir”指定了DataNode的数据目录。当所配置的目录路径无法创建、与系统关键目录使用同一磁盘或多个目录使用同一磁盘时,系统即刻产生此告警。 当修改DataNode的数据
ALM-14032 JournalNode进程状态异常 告警解释 JournalNode每20秒周期性检查进程状态,当进程状态异常,且长时间未转换为正常状态时触发该告警。 进程状态正常后告警清除。 告警属性 告警ID 告警级别 是否可自动清除 14032 重要 是 告警参数 参数名称
HDFS出现慢DataNode,会影响HDFS的数据读写性能。 可能原因 HDFS DataNode实例磁盘IO速率低、HDFS DataNode自身处理能力到达瓶颈。 HDFS各DataNode实例之间网络传输速率低。 处理步骤 检查是否DataNode实例磁盘IO速率低。 登录FusionInsight
NameNode的HA机制失效。一旦主NameNode故障,则整个HDFS服务将不可用。 可能原因 备NameNode被停止。 备NameNode实例运行状态异常。 备NameNode合并新的FsImage失败。 备NameNode数据目录空间不足。 备NameNode推送FsImage到主NameNode失败。
ZooKeeper”,在“资源”的“资源使用(按二级Znode)”中,选择“ > 按Znode数量”,进入“按Znode数量”的“阈值设置”页面,单击“操作”下的“修改”。参考“集群 > 待操作集群的名称 > 服务 > ZooKeeper > 配置 > 全部配置 > 配额”中参数“max.znode.count”的值,调大阈值。
ALM-14021 NameNode RPC处理平均时间超过阈值 告警解释 系统每30秒周期性检测NameNode的RPC处理平均时间,并把实际的NameNode的RPC处理平均时间和阈值(默认为100ms)相比较。当检测到NameNode的RPC处理平均时间连续多次(默认为10次)超出阈值范围时,产生该告警。
为什么DataNode无法正常上报数据块 问题 DataNode正常,但无法正常上报数据块,导致存在的数据块无法使用。 回答 当某个数据目录中的数据块数量超过4倍的数据块限定值“1M”时,可能会出现该错误。DataNode会产生相应的错误日志记录,如下所示: 2015-11-05
NameNode和JournalNode存在类似的配置项,也同样禁止删除原有存储目录,禁止手动删除或修改存储目录下的数据块。 dfs.namenode.edits.dir dfs.namenode.name.dir dfs.journalnode.edits.dir 父主题:
ALM-14031 DataNode进程状态异常 告警解释 DataNode每20秒周期性检查进程状态,当进程状态异常,且长时间未转换为正常状态时触发该告警。 进程状态正常后告警清除。 告警属性 告警ID 告警级别 是否可自动清除 14031 重要 是 告警参数 参数名称 参数含义