检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
删除大量文件后重启NameNode耗时长 问题 删除大量文件之后立刻重启NameNode(例如删除100万个文件),NameNode启动慢。 回答 由于在删除了大量文件之后,DataNode需要时间去删除对应的Block。当立刻重启NameNode时,NameNode会去检查所有Data
ALM-14012 Journalnode数据不同步 告警解释 在主NameNode节点上,系统每5分钟检测一次集群中所有JournalNode节点的数据同步性。如果有JournalNode节点的数据不同步,系统产生该告警。 当Journalnode数据同步5分钟后,告警恢复。 告警属性
对系统的影响 丢失的NodeManager节点无法提供Yarn服务。 容器减少,集群性能下降。 可能原因 NodeManager没有经过退服操作,强制被删除。 NodeManager所有实例被停止或者进程故障。 NodeManager节点所在主机故障。 NodeManager和Re
ALM-14026 DataNode块数超过阈值 告警解释 系统每30秒周期性检测每个DataNode上的块数,当检测到当前的DataNode节点上块数超过阈值时产生该告警。 如果平滑次数为1,DataNode节点上的块数小于或等于阈值时,告警恢复;如果平滑次数大于1,DataNode节点上的块数小于或等于阈值的90%时,告警恢复。
使用调整集群节点接口时参数node_id如何配置? 问: 使用调整集群节点接口时(/v1.1/{project_id}/cluster_infos/{cluster_id}),请求参数“node_id”如何配置? 答: 使用调整集群节点接口时,请求参数“node_id”的值固定为“node_orderadd”。
故障状态的DataNode节点无法提供HDFS服务,可能导致用户无法读写文件。 可能原因 DataNode故障或者负荷过高。 NameNode和DataNode之间的网络断连或者繁忙。 NameNode负荷过高。 DataNode被删除后,没有重启NameNode。 处理步骤 查看DataNode是否故障。
DataNode数据目录配置不合理 告警解释 DataNode的配置参数“dfs.datanode.data.dir”指定了DataNode的数据目录。当所配置的目录路径无法创建、与系统关键目录使用同一磁盘或多个目录使用同一磁盘时,系统即刻产生此告警。 当修改DataNode的数据
删除大量文件后重启NameNode耗时长 问题 删除大量文件之后立刻重启NameNode(例如删除100万个文件),NameNode启动慢。 回答 由于在删除了大量文件之后,DataNode需要时间去删除对应的Block。当立刻重启NameNode时,NameNode会去检查所有Data
NameNode的HA机制失效。一旦主NameNode故障,则整个HDFS服务将不可用。 可能原因 备NameNode被停止。 备NameNode实例运行状态异常。 备NameNode合并新的FsImage失败。 备NameNode数据目录空间不足。 备NameNode推送FsImage到主NameNode失败。
Unhealthy Host 不健康节点的主机列表。 对系统的影响 故障的NodeManager节点无法提供Yarn服务。 容器减少,集群性能下降。 可能原因 NodeManager节点所在主机的硬盘空间不足。 NodeManager节点本地目录omm用户无访问权限。 处理步骤 检查主机的硬盘空间。
HDFS出现慢DataNode,会影响HDFS的数据读写性能。 可能原因 HDFS DataNode实例磁盘IO速率低、HDFS DataNode自身处理能力到达瓶颈。 HDFS各DataNode实例之间网络传输速率低。 处理步骤 检查是否DataNode实例磁盘IO速率低。 登录FusionInsight
NameNode和JournalNode存在类似的配置项,也同样禁止删除原有存储目录,禁止手动删除或修改存储目录下的数据块。 dfs.namenode.edits.dir dfs.namenode.name.dir dfs.journalnode.edits.dir 父主题:
KeeperException$NoNodeException: KeeperErrorCode = NoNode for /brokers/ids [2017-09-17 16:35:28,520] ERROR org.I0Itec.zkclient.exception.ZkNoNodeException:
ALM-14037 存在集群外的DataNode 告警解释 NameNode每8个小时周期性检查集群中是否存在脱离管控的DataNode。如果存在则触发该告警。如果无脱离管控的DataNode则告警清除。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID 告警级别
ALM-14031 DataNode进程状态异常 告警解释 DataNode每20秒周期性检查进程状态,当进程状态异常,且长时间未转换为正常状态时触发该告警。 进程状态正常后告警清除。 告警属性 告警ID 告警级别 是否可自动清除 14031 重要 是 告警参数 参数名称 参数含义
NameNode和JournalNode存在类似的配置项,也同样禁止删除原有存储目录,禁止手动删除或修改存储目录下的数据块。 dfs.namenode.edits.dir dfs.namenode.name.dir dfs.journalnode.edits.dir 父主题:
查看启动线程数最多的进程,案例中进程2346为NameNode进程,启动了5.4万线程,且持续增长。 多次打印对应进程的jstack日志,根据jstack日志信息发现,NameNode存在大量线程处于WAITING,且长期不释放。 结合以上问题分析如下:NameNode存在内置机制,根据WARN日志信
表区域右上角的下拉菜单,选择“定制 > 垃圾回收”,勾选“NameNode垃圾回收(GC)时间”。查看NameNode每分钟的垃圾回收时间统计情况。 图1 NameNode垃圾回收(GC)时间 查看NameNode每分钟的垃圾回收时间统计值是否大于告警阈值(默认12秒)。 是,执行4。
全部配置 > DataNode > 系统”。将“GC_OPTS”参数值根据实际情况调大。 单个DataNode实例平均Block数量和DataNode内存的对应关系参考值如下: 单个DataNode实例平均Block数量达到2,000,000,DataNode的JVM参数参考值为:-Xms6G
MRS Presto查询报错“The node may have crashed or be under too much load” 用户问题 用户presto查询语句报错:The node may have crashed or be under too much load,具体如下图所示: