MAPREDUCE服务 MRS-MRS集群内节点互信异常如何处理?

时间:2024-08-01 09:41:11

MRS 集群内节点互信异常如何处理?

当Manager报“ALM-12066 节点间互信失效”告警,或者发现节点间无ssh互信时,可参考如下步骤操作。

  1. 分别在互信集群的两端节点执行ssh-add -l 确认是否有identities信息。

  2. 如果没有identities信息,执行ps -ef|grep ssh-agent找到ssh-agent进程,并kill该进程等待该进程自动重启。

  3. 执行ssh-add -l 查看是否已经添加identities信息,如果已经添加,请手动ssh确认互信是否正常。

  4. 如果有identities信息,需要确认/home/omm/.ssh/authorized_keys中是否有对端节点/home/omm/.ssh/id_rsa.pub文件中的信息,如果没有手动添加对端节点信息。
  5. 检查/home/omm/.ssh目录下的文件权限是否正确。
  6. 排查日志文件 “/var/log/Bigdata/nodeagent/scriptlog/ssh-agent-monitor.log”
  7. 如果把omm的用户目录删除了,需要联系MRS运维人员修复。
support.huaweicloud.com/mrs_faq/mrs_03_1212.html