检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
前提条件 MRS 3.1.0及之后版本在创建集群时已勾选Sqoop组件。 安装客户端,具体请参考安装客户端(3.x及之后版本)。例如安装目录为“/opt/client”,以下操作的客户端目录只是举例,请根据实际安装目录修改。 客户端目录/Sqoop/sqoop/lib下已有对应驱动包
ALM-14009 故障DataNode数量超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HDFS集群处于故障状态的DataNode数量,并把实际的故障状态的DataNode数量和阈值相比较。故障状态的DataNode数量指标默认提供一个阈值范围。当HDFS集群故
ALM-18027 JobHistoryServer进程状态异常 告警解释 JobHistoryServer每20秒周期性检查进程状态,当进程状态异常,且长时间未转换为正常状态时触发该告警。 进程状态正常后告警清除。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID
Presto的coordinator进程无法正常启动 用户问题 Presto的coordinator未知原因被终止,或者Presto的coordinator进程无法正常启动。 问题现象 Presto的coordinator无法正常启动,Manager页面上显示presto coo
ALM-50227 Doris租户查询并发数超过阈值 告警解释 系统每30秒周期性检查租户FE节点的查询并发数,当检查到该值超出阈值(默认值为90%)时产生该告警。 当检测到FE的查询并发数低于阈值时,告警恢复。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID 告警级别
登录FusionInsight Manager界面,查看右上角任务。 查看当前集群是否存在正在运行的任务。 是,等待任务运行结束。 否,检查结束。 检查集群是否安装了Doris组件,且是否创建了UDF函数 咨询用户或者检查Doris是否有使用自定义函数功能。 连接Doris,执行以下命令查询是否有自定义函数:
ALM-45428 ClickHouse磁盘IO异常 告警解释 告警模块按60秒周期检测ClickHouse在读写过程中有EIO或者EROFS错误,系统产生此告警。 告警属性 告警ID 告警级别 是否自动清除 45428 重要(默认级别) 否 告警参数 参数名称 参数含义 来源 产生告警的集群名称
ALM-18028 TimeLineServer进程状态异常 告警解释 TimeLineServer每20秒周期性检查进程状态,当进程状态异常,且长时间未转换为正常状态时触发该告警。 进程状态正常后告警清除。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID 告警级别
ster地址。 HMaster通过ZooKeeper随时感知各个HRegionServer的健康状况,以便进行控制管理。 HBase也可以部署多个HMaster,类似HDFS NameNode,当HMaster主节点出现故障时,HMaster备用节点会通过ZooKeeper获取主
” HBase启动后原生页面显示RegionServer个数多于实际个数 RegionServer实例异常,处于Restoring状态 新安装的集群HBase启动失败 acl表目录丢失导致HBase启动失败 集群上下电之后HBase启动失败 文件块过大导致HBase数据导入失败
否,执行11。 数据倾斜,需要均衡集群中的数据。以root用户登录MRS客户端,用户密码为安装前用户自定义,请咨询系统管理员。如果集群为普通模式,执行su - omm切换到omm用户。执行cd命令进入客户端安装目录,然后执行source bigdata_env。如果集群采用安全版本,要进行安全认证。执行kinit
ALM-24010 Flume证书文件非法或已损坏 本章节适用于MRS 3.2.0及以后版本。 告警解释 Flume每隔一个小时,检查当前Flume证书文件是否合法(证书是否存在,证书格式是否正确),如果证书文件非法或已损坏,产生该告警。证书文件恢复合法时,告警恢复。 告警属性 告警ID
Storm WebUI页面中events超链接地址无效 用户问题 Storm组件的Storm UI页面中events超链接地址无效。 问题现象 用户提交拓扑后无法查看拓扑数据处理日志,按钮events地址无效。 原因分析 MRS集群提交拓扑时默认不开启拓扑数据处理日志查看功能。 处理步骤
ALM-24012 Flume证书文件已过期 本章节适用于MRS 3.2.0及以后版本。 告警解释 Flume每隔一个小时,检查当前系统中的证书文件是否已过期。如果服务端证书已过期,产生该告警。服务的证书文件恢复到有效期内,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 24012
ALM-24015 Flume MonitorServer证书文件已过期 本章节适用于MRS 3.2.0及以后版本。 告警解释 MonitorServer每隔一个小时健康检查时,检查当前系统中的证书文件是否已过期。如果服务端证书已过期,产生该告警。服务端证书恢复的有效期内,告警恢复。
WebUI页面全量日志时需要展示的日志过大,导致报500内部错误。此时需要把作业生成的聚合日志调小,使其分段生成即可。 处理步骤 以root用户登录安装了Spark2x/Spark客户端的节点。 执行以下命令编辑文件。 vim $SPARK_HOME/conf/log4j-executor
ALM-45653 Flink HA证书文件失效 本章节适用于MRS 3.3.0及以后版本。 告警解释 Flink首次或者每天01:00:00开始健康检查时,检查当前系统中的HA证书文件是否失效(证书是否存在,证书格式是否正确),如果证书文件失效,产生该告警。证书文件恢复,告警恢复。
使用前必读 欢迎使用MapReduce服务(MapReduce Service,MRS)。MRS服务提供租户完全可控的企业级大数据集群云服务,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。 您可以使用本文档提供API对MRS服务进行相关操作,如
在场景示例中可查看本服务更详细的场景SDK使用方法。 图3 场景示例 SDK列表 表1提供了MRS服务支持的SDK列表,您可以在GitHub仓库查看SDK更新历史、获取安装包以及查看指导文档。 表1 SDK列表 编程语言 Github地址 SDK中心地址 参考文档 Java huaweicloud-sdk-java-v3
ALM-45655 Flink HA证书文件已过期 本章节适用于MRS 3.3.0及以后版本。 告警解释 Flink首次或者每天01:00:00开始健康检查时,检查当前系统中的HA证书文件是否已过期。如果HA证书已过期,产生该告警。证书恢复到有效期内,告警恢复。 告警属性 告警ID