检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
修改RPC端口后HDFS NameNode实例都变为备状态 用户问题 通过页面更改NameNode的RPC端口,随后重启HDFS服务,出现所有NameNode一直是备状态,导致集群异常。 问题现象 所有NameNode都是备状态,导致集群异常。 原因分析 集群安装启动后,如果修改N
Oozie连接DBService状态异常 告警解释 Oozie会依赖DBService,提交任务后系统会检测DBService连接状态,当检测到与DBService的连接状态连续10次异常时,产生该告警。 当检测到Oozie连接DBService状态正常时,告警清除。 告警属性 告警ID
${BIGDATA_HOME}/om-server/om/sbin/status-oms.sh,查询当前HA管理的knox资源状态是否正常(normal:状态正常,其他:状态异常)。 是,执行7。 否,执行5。 执行命令vi $BIGDATA_LOG_HOME/omm/oms/ha/scriptlog/knox
Hive服务状态为故障如何处理 可能原因 DBservice服务不可用会导致Hive服务状态为Bad。 HDFS服务不可用会导致Hive服务状态为Bad。 ZooKeeper服务不可用会导致Hive服务状态为Bad。 LDAP/KrbServer服务不可用会导致Hive服务状态为Bad。
ALM-17008 Oozie连接ZooKeeper状态异常 告警解释 在HA模式下,Oozie会依赖ZooKeeper,当检测到与ZooKeeper的连接状态连续3次异常时,产生该告警。 当检测到Oozie连接ZooKeeper状态正常时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除
设置为0时,不允许重试,设置为1时,允许重试一次。 0 确认作业配置信息,单击“确定”,完成作业的新增。 作业提交成功中,可在作业列表中查看作业运行状态及执行结果,等待作业状态变为“已完成”,可查看相关程序分析结果。 通过集群客户端提交作业 安装MRS集群客户端,具体操作可参考安装MRS集群客户端。
ALM-38008 Kafka数据目录状态异常 告警解释 系统每60秒周期性检测Kafka数据目录状态,当检测到某数据目录状态异常时产生该告警。 平滑次数为1,当数据目录状态恢复正常后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 38008 重要 是 告警参数 参数名称
客户端Consumer侧问题或者Kafka侧问题。 查看Kafka服务状态: MRS Manager界面操作:登录MRS Manager,依次选择“服务管理 > Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。 FusionInsight Manag
通过火焰图查看算子热点 当发生RocksDB读写延迟大时,可开启RocksDB监测和告警,通过监测和相关告警项对作业的RocksDB参数进行调优。当作业调优后,建议关闭RocksDB的监测和告警,因为RocksDB的监测和告警会损失RocksDB的5%~10%性能。 为了避免对其他作业的影响
可能会导致部分需要连接此节点的操作(如重启、同步配置、实例状态查询等)失败,如果有多个节点互信失效可能会影响业务。 可能原因 /etc/ssh/sshd_config配置文件被破坏。 omm密码过期。 处理步骤 查看/etc/ssh/sshd_config配置文件状态。 打开FusionInsight
ALM-50222 BE中指定数据目录的磁盘状态异常 告警解释 系统每30秒周期性检查BE中指定数据目录的磁盘状态,当检查到该值不等于1(1表示正常,0表示异常)时产生该告警。BE中指定数据目录的磁盘状态恢复正常,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50222
DBService状态正常,组件无法连接DBService 问题背景与现象 上层组件连接DBService失败,检查DBService组件状态正常,两个实例状态也正常。 图1 DBService状态 原因分析 上层组件是通过dbservice.floatip连接的DBService。
通过API提交Spark作业后作业状态为error 用户问题 使用API提交Spark作业后,作业状态显示为error。 问题现象 修改“/opt/client/Spark/spark/conf/log4j.properties”中的日志级别,使用API V1.1接口作业提交后,状态显示为error。
HBase文件丢失导致Region状态长时间为RIT 用户问题 数据迁移到新集群后,HBase的Region状态为RIT或FAILED_OPEN。 原因分析 登录到集群的Core节点查看RegionServer日志,报错: “Region‘3b3ae24c65fc5094bc2a
DBServer实例一直处于Restoring状态 问题背景与现象 DBServer实例状态一直是Restoring状态,重启之后仍然不恢复。 原因分析 DBService组件会对“${BIGDATA_HOME}/MRS_XXX/install/dbservice/ha/modu
WebUI页面查看组件状态 使用具有Manager管理员权限的用户登录FusionInsight Manager页面,选择“集群 > 服务 > Doris”。 在概览页面,单击“FE WebUI”右侧的超链接进入Doris WebUI登录页面,输入具有Doris管理权限的用户名和密码(集群已
Streaming使用RocksDB做状态存储 本章节仅适用于MRS 3.3.0及之后版本。 配置场景 当大量的状态信息存储在默认的HDFS BackedStateStore,导致JVM GC占用大量时间时,可以通过如下配置,选择RocksDB作为状态后端。 配置参数 在Spark客户端的“spark-defaults
HiveServer或者MetaStore实例的健康状态为Concerning 问题现象 HiveServer或者MetaStore实例的健康状态为Concerning。 可能原因 HiveServer或者MetaStore实例在启动的时候发生异常,无法正常启动。如,当修改MetaStore/HiveServer
查看MRS作业详情和日志 用户通过管理控制台可在线查看当前MRS集群内所有作业的状态详情,以及作业的详细配置信息和运行日志信息。 由于Spark SQL和Distcp作业在后台无日志,因此运行中的Spark SQL和Distcp作业不能在线查看运行日志信息。 查看作业状态 登录MRS管理控制台。
Streaming任务失败但是Yarn WebUI中显示状态为成功 问题现象 MRS 3.3.0-LTS版本集群,提交Spark Streaming任务后,由于NodeAgent重启导致对应节点上任务失败,但是在Yarn WebUI页面中查看整个任务状态为“succeeded”。 原因分析 Spark