检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查LdapServer进程是否正常。 选择“运维 > 告警 > 告警”,在告警列表中查看是否有“进程故障”告警产生。 是,执行7。 否,执行10。 查看告警信息中的服务名和主机名是否和LdapServer服务名和主机名一致。 是,执行8。 否,执行10。 按“ALM-12007 进程故障”提供的步骤处理该告警。
检查Nodeagent进程。 以root用户分别登录Oozie服务两个节点。执行命令ps -ef | grep nodeagent,检查Nodeagent进程是否存在。 是,执行17。 否,执行18。 执行kill -9 查询到的nodeagent进程ID命令,等待10分钟后,检查本告警是否恢复。
ckpointCoordinator报告快照制作完成,CheckpointCoordinator认为快照制作失败,如图2所示。 图1 时间监控信息 图2 关系图 回答 Flink引入了第三方软件包RocksDB的缺陷问题导致该现象的发生。建议用户将checkpoint设置为FsStateBackend方式。
ckpointCoordinator报告快照制作完成,CheckpointCoordinator认为快照制作失败,如图2所示。 图1 时间监控信息 图2 关系图 回答 Flink引入了第三方软件包RocksDB的缺陷问题导致该现象的发生。建议用户将checkpoint设置为FsStateBackend方式。
ckpointCoordinator报告快照制作完成,CheckpointCoordinator认为快照制作失败,如图2所示。 图1 时间监控信息 图2 关系图 回答 Flink引入了第三方软件包RocksDB的缺陷问题导致该现象的发生。建议用户将checkpoint设置为FsStateBackend方式。
ckpointCoordinator报告快照制作完成,CheckpointCoordinator认为快照制作失败,如图2所示。 图1 时间监控信息 图2 关系图 回答 Flink引入了第三方软件包RocksDB的缺陷问题导致该现象的发生。建议用户将checkpoint设置为FsStateBackend方式。
在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Kafka > KafkaTopic监控”,搜索发生告警的Topic,查看副本数量。 如果副本数量值大于3,则考虑减少该Topic的复制因子(减少为3)。 在FusionInsight客户端执行以下命令对Kafka
否,执行5。 检查Impala进程是否正常。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,在告警列表中查看是否存在“ALM-12007 进程故障”告警。 是,执行6。 否,执行9。 参考ALM-12007 进程故障告警帮助文档进行处理后,检查本告警是否清除。
ckpointCoordinator报告快照制作完成,CheckpointCoordinator认为快照制作失败,如图2所示。 图1 时间监控信息 图2 关系图 回答 Flink引入了第三方软件包RocksDB的缺陷问题导致该现象的发生。建议用户将checkpoint设置为FsStateBackend方式。
CLOSE_WAIT 94237/java ... 执行如下命令,查看占用大量端口的进程。 ps -ef |grep PID PID为7查询出所属端口的进程号。 可以执行如下命令,收集系统所有进程信息,查看占用大量端口的进程。 ps -ef > $BIGDATA_HOME/tmp/ps_result
执行如下命令,查看占用大量端口的进程。 ps -ef |grep PID PID为8查询出所属端口的进程号。 可以执行如下命令,收集系统所有进程信息,查看占用大量端口的进程。 ps -ef > $BIGDATA_HOME/tmp/ps_result.txt 请系统管理员确认后,清除大量占用端口的进程,等待5分钟,检查该告警是否恢复。
某个节点),启动时先在集群中启动AppMaster进程,进程启动后要向Driver进程注册信息,注册成功后,任务才能继续。从AppMaster日志中可以看出,无法连接至Driver,所以任务失败。 解决办法 请检查Driver进程所在的IP是否可以ping通。 启动一个Spark
否,执行6。 重启实例期间实例不可用,当前实例节点的任务会执行失败。 检查Spark进程内存是否不足。 排查是否有内存相关的修改导致Spark进程内存不足。 是,执行7。 否,执行8。 保证Spark进程内存充足,或者考虑集群扩容,检查本告警是否恢复。 是,处理完毕。 否,执行8。 收集故障信息。
日志文件名 描述 运行日志 tezui.out TezUI运行环境信息日志 tezui.log TezUI进程的运行日志 tezui-omm-<日期>-gc.log.<编号> TezUI进程的GC日志 prestartDetail.log TezUI启动前的工作日志 check-serviceDetail
上的LdapServer数据损坏,此时数据损坏的LdapServer进程将无法对外提供服务,影响Manager和集群的认证功能。 可能原因 LdapServer进程所在的节点网络故障。 LdapServer进程异常。 OS重启导致的LdapServer数据损坏。 处理步骤 检查L
LdapServer服务不可用”告警是否清除。 是,处理完毕。 否,执行3。 检查LdapServer进程是否正常。 登录MRS集群详情页面,选择“告警管理”。 查看是否有ALM-12007 进程故障告警产生。 是,执行2.c。 否,执行3。 查看告警信息中的服务名和主机名是否和LdapServer服务名和主机名一致。
e.xml并放入到打包hive二次开发样例代码进程的classpath路径下面。 解决办法 下载集群Hive最新的客户端,获取最新的“core-site.xml”。 将core-site.xml放入到打包Hive二次开发样例代码进程的classpath路径下面。 父主题: 使用Hive
如下指导: CA证书用于组件客户端与服务端在通信过程中加密数据,实现安全通信。具体更换操作指导请参见更换CA证书。 HA证书用于主备进程与高可用进程在通信过程中加密数据,实现安全通信。具体更换操作指导请参见更换HA证书。 父主题: 安全
| awk -F ' ' '{print $2}'命令获取RangerAdmin进程pid,再执行netstat -anp|grep pid | grep LISTEN查看RangerAdmin进程是否监测端口,安全模式集群监测21401端口,普通模式集群监测21400端口。 是,执行4。
不支持 权限设置(添加删除用户、用户组、角色) 不支持 支持 集群组件数据备份恢复 不支持 支持 Manager操作审计日志 不支持 支持 资源监控 支持 支持 父主题: 集群管理类