搜索_华为云

EditLog不连续导致NameNode启动失败 - MapReduce服务 MRS

EditLog不连续导致NameNode启动失败问题在JournalNode节点有断电，数据目录磁盘占满，网络异常时，会导致JournalNode上的EditLog不连续。此时如果重启NameNode，很可能会失败。现象重启NameNode会失败。在NameNode运行日志中会报如下的错误：

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用HDFS > HDFS故障排除
ALM-14009 Dead DataNode数量超过阈值 - MapReduce服务 MRS

故障状态的DataNode节点无法提供HDFS服务，可能导致用户无法读写文件。可能原因 DataNode故障或者负荷过高。 NameNode和DataNode之间的网络断连或者繁忙。 NameNode负荷过高。 DataNode被删除后，没有重启NameNode。处理步骤查看DataNode是否故障。

帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
删除大量文件后重启NameNode耗时长 - MapReduce服务 MRS

删除大量文件后重启NameNode耗时长问题删除大量文件之后立刻重启NameNode（例如删除100万个文件），NameNode启动慢。回答由于在删除了大量文件之后，DataNode需要时间去删除对应的Block。当立刻重启NameNode时，NameNode会去检查所有Data

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用HDFS > HDFS故障排除
ALM-18003 NodeManager不健康 - MapReduce服务 MRS

Unhealthy Host 不健康节点的主机列表。对系统的影响故障的NodeManager节点无法提供Yarn服务。容器减少，集群性能下降。可能原因 NodeManager节点所在主机的硬盘空间不足。 NodeManager节点本地目录omm用户无访问权限。处理步骤检查主机的硬盘空间。

帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
ALM-14012 Journalnode数据不同步 - MapReduce服务 MRS

ALM-14012 Journalnode数据不同步告警解释在主NameNode节点上，系统每5分钟检测一次集群中所有JournalNode节点的数据同步性。如果有JournalNode节点的数据不同步，系统产生该告警。当Journalnode数据同步5分钟后，告警恢复。告警属性

 帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
删除大量文件后重启NameNode耗时长 - MapReduce服务 MRS

删除大量文件后重启NameNode耗时长问题删除大量文件之后立刻重启NameNode（例如删除100万个文件），NameNode启动慢。回答由于在删除了大量文件之后，DataNode需要时间去删除对应的Block。当立刻重启NameNode时，NameNode会去检查所有Data

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用HDFS > HDFS故障排除
使用调整集群节点接口时参数node_id如何配置？ - MapReduce服务 MRS

使用调整集群节点接口时参数node_id如何配置？问：使用调整集群节点接口时（/v1.1/{project_id}/cluster_infos/{cluster_id}），请求参数“node_id”如何配置？答：使用调整集群节点接口时，请求参数“node_id”的值固定为“node_orderadd”。

帮助中心 > MapReduce服务 MRS > 常见问题 > 应用开发类
执行Kafka Topic创建操作时发现无法创建提示“NoNode for /brokers/ids” - MapReduce服务 MRS

KeeperException$NoNodeException: KeeperErrorCode = NoNode for /brokers/ids [2017-09-17 16:35:28,520] ERROR org.I0Itec.zkclient.exception.ZkNoNodeException:

帮助中心 > MapReduce服务 MRS > 故障排除 > 使用Kafka
ALM-14037 存在集群外的DataNode - MapReduce服务 MRS

ALM-14037 存在集群外的DataNode 告警解释 NameNode每8个小时周期性检查集群中是否存在脱离管控的DataNode。如果存在则触发该告警。如果无脱离管控的DataNode则告警清除。该告警仅适用于MRS 3.3.1及之后版本。告警属性告警ID 告警级别

 帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
ALM-18002 NodeManager心跳丢失 - MapReduce服务 MRS

对系统的影响丢失的NodeManager节点无法提供Yarn服务。容器减少，集群性能下降。可能原因 NodeManager没有经过退服操作，强制被删除。 NodeManager所有实例被停止或者进程故障。 NodeManager节点所在主机故障。 NodeManager和Re

帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
ALM-12051 磁盘Inode使用率超过阈值 - MapReduce服务 MRS

ALM-12051 磁盘Inode使用率超过阈值告警解释系统每30秒周期性检测磁盘Inode使用率，并把实际Inode使用率和阈值（系统默认阈值80%）进行比较，当检测到Inode使用率连续多次（默认值为5）超过阈值时产生该告警。用户可通过“运维 > 告警 > 阈值设置 >

帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
ALM-14011 DataNode数据目录配置不合理 - MapReduce服务 MRS

DataNode数据目录配置不合理告警解释 DataNode的配置参数“dfs.datanode.data.dir”指定了DataNode的数据目录。当所配置的目录路径无法创建、与系统关键目录使用同一磁盘或多个目录使用同一磁盘时，系统即刻产生此告警。当修改DataNode的数据

 帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
ALM-14032 JournalNode进程状态异常 - MapReduce服务 MRS

ALM-14032 JournalNode进程状态异常告警解释 JournalNode每20秒周期性检查进程状态，当进程状态异常，且长时间未转换为正常状态时触发该告警。进程状态正常后告警清除。告警属性告警ID 告警级别是否可自动清除 14032 重要是告警参数参数名称

 帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
ALM-14039 集群内存在慢DataNode - MapReduce服务 MRS

HDFS出现慢DataNode，会影响HDFS的数据读写性能。可能原因 HDFS DataNode实例磁盘IO速率低、HDFS DataNode自身处理能力到达瓶颈。 HDFS各DataNode实例之间网络传输速率低。处理步骤检查是否DataNode实例磁盘IO速率低。登录FusionInsight

帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
ALM-14013 NameNode FsImage文件更新失败 - MapReduce服务 MRS

NameNode的HA机制失效。一旦主NameNode故障，则整个HDFS服务将不可用。可能原因备NameNode被停止。备NameNode实例运行状态异常。备NameNode合并新的FsImage失败。备NameNode数据目录空间不足。备NameNode推送FsImage到主NameNode失败。

帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
ALM-13006 Znode数量或容量超过阈值 - MapReduce服务 MRS

ZooKeeper”，在“资源”的“资源使用(按二级Znode)”中，选择“ > 按Znode数量”，进入“按Znode数量”的“阈值设置”页面，单击“操作”下的“修改”。参考“集群 > 待操作集群的名称 > 服务 > ZooKeeper > 配置 > 全部配置 > 配额”中参数“max.znode.count”的值，调大阈值。

帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
ALM-14021 NameNode RPC处理平均时间超过阈值 - MapReduce服务 MRS

ALM-14021 NameNode RPC处理平均时间超过阈值告警解释系统每30秒周期性检测NameNode的RPC处理平均时间，并把实际的NameNode的RPC处理平均时间和阈值（默认为100ms）相比较。当检测到NameNode的RPC处理平均时间连续多次（默认为10次）超出阈值范围时，产生该告警。

帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考
为什么DataNode无法正常上报数据块 - MapReduce服务 MRS

为什么DataNode无法正常上报数据块问题 DataNode正常，但无法正常上报数据块，导致存在的数据块无法使用。回答当某个数据目录中的数据块数量超过4倍的数据块限定值“1M”时，可能会出现该错误。DataNode会产生相应的错误日志记录，如下所示： 2015-11-05

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用HDFS > HDFS常见问题
是否可以手动调整DataNode数据存储目录 - MapReduce服务 MRS

NameNode和JournalNode存在类似的配置项，也同样禁止删除原有存储目录，禁止手动删除或修改存储目录下的数据块。 dfs.namenode.edits.dir dfs.namenode.name.dir dfs.journalnode.edits.dir 父主题：

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用HDFS > HDFS常见问题
ALM-14031 DataNode进程状态异常 - MapReduce服务 MRS

ALM-14031 DataNode进程状态异常告警解释 DataNode每20秒周期性检查进程状态，当进程状态异常，且长时间未转换为正常状态时触发该告警。进程状态正常后告警清除。告警属性告警ID 告警级别是否可自动清除 14031 重要是告警参数参数名称参数含义

 帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维 > MRS集群告警处理参考

总条数： 2219

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

EditLog不连续导致NameNode启动失败 - MapReduce服务 MRS

ALM-14009 Dead DataNode数量超过阈值 - MapReduce服务 MRS

删除大量文件后重启NameNode耗时长 - MapReduce服务 MRS

ALM-18003 NodeManager不健康 - MapReduce服务 MRS

ALM-14012 Journalnode数据不同步 - MapReduce服务 MRS

删除大量文件后重启NameNode耗时长 - MapReduce服务 MRS

使用调整集群节点接口时参数node_id如何配置？ - MapReduce服务 MRS

执行Kafka Topic创建操作时发现无法创建提示“NoNode for /brokers/ids” - MapReduce服务 MRS

ALM-14037 存在集群外的DataNode - MapReduce服务 MRS

ALM-18002 NodeManager心跳丢失 - MapReduce服务 MRS

ALM-12051 磁盘Inode使用率超过阈值 - MapReduce服务 MRS

ALM-14011 DataNode数据目录配置不合理 - MapReduce服务 MRS

ALM-14032 JournalNode进程状态异常 - MapReduce服务 MRS

ALM-14039 集群内存在慢DataNode - MapReduce服务 MRS

ALM-14013 NameNode FsImage文件更新失败 - MapReduce服务 MRS

ALM-13006 Znode数量或容量超过阈值 - MapReduce服务 MRS

ALM-14021 NameNode RPC处理平均时间超过阈值 - MapReduce服务 MRS

为什么DataNode无法正常上报数据块 - MapReduce服务 MRS

是否可以手动调整DataNode数据存储目录 - MapReduce服务 MRS

ALM-14031 DataNode进程状态异常 - MapReduce服务 MRS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线