检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Base和MapReduce等上层部件提供服务。用户无法读写文件。 可能原因 JournalNode节点故障。 DataNode节点故障。 磁盘容量不足。 NameNode节点进入安全模式。 处理步骤 检查JournalNode实例状态。 在MRS Manager首页,单击“组件管理”。
Streaming应用创建1个输入流,但该输入流无输出逻辑时,则不会给它设置context。所以在序列化时报“NullPointerException”。 解决办法:应用中如果有无输出逻辑的输入流,则在代码中删除该输入流,或添加该输入流的相关输出逻辑。 父主题: Spark Streaming
-p数据库登录用户密码 -PFE查询连接端口 -hDoris FE实例IP地址 Doris FE的查询连接端口,可以通过登录FusionInsight Manager,选择“集群 > 服务 > Doris > 配置”,查询Doris服务的“query_port”参数获取。 Doris
本章节操作仅支持MRS 3.x及之后的版本。 对系统的影响 保存新的配置需要重启服务,此时对应的服务不可用。 修改Manager日志级别 以omm用户登录主管理节点。 执行以下命令,切换路径。 cd ${BIGDATA_HOME}/om-server/om/sbin 执行以下命令,修改日志级别。
存储组,删除成功该告警将自动清除,否则执行7。 收集故障信息。 选择“集群 > 服务 > IoTDB > 实例”,查看所有IoTDBServer实例和ConfigNode实例所在的主机。 选择“运维 > 日志 > 下载”。 在“服务”中勾选操作集群的“IoTDB”,单击“确定”。
配置DataNode用做HDFS缓存的最大内存。 FLUME_HEAPSIZE 配置每个flume实例能使用的最大JVM内存。 IMPALAD_MEM_LIMIT 配置impalad实例可使用的最大内存。 添加自定义资源配置组。 是否需要根据时间自动调整资源配置? 是,执行3.b。
compaction_threads”参数,值为“20”。 单击“保存”,保存配置。单击“实例”,勾选配置过期的BE实例,选择“更多 > 重启实例”,重启Doris BE实例。 在BE实例重启期间,运行在对应BE节点上的任务会失败,未进行重启的BE节点上的任务不受影响。 查看该告警是否清除。
back to webhdfs!”保存退出。 MRS集群默认只支持HTTPS服务访问,若使用HTTPS服务访问,执行3;若使用HTTP服务访问(仅安全集群支持),执行4。 与HTTP服务访问相比,以HTTPS方式访问HDFS时,由于使用了SSL安全加密,需要确保Curl命令所支持的SSL
为4G,若偶现告警,可以按0.5倍速率调大。若告警次数比较频繁,可以按1倍速率调大。 重启所有的JobHistory2x实例。 重启实例期间实例不可用,当前实例节点的任务会执行失败。 等待10分钟,观察界面告警是否清除。 是,处理完毕。 否,执行6。 收集故障信息 在FusionInsight
查看MRS作业详情和日志 用户通过管理控制台可在线查看当前MRS集群内所有作业的状态详情,以及作业的详细配置信息和运行日志信息。 由于Spark SQL和Distcp作业在后台无日志,因此运行中的Spark SQL和Distcp作业不能在线查看运行日志信息。 查看作业状态 登录MRS管理控制台。
选择“现有集群”,选中一集群并单击集群名进入集群信息页面。 若MRS集群为开启Kerberos认证的安全集群,需先完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。 单击“文件管理”,进入“文件管理”页面。 选择“HDFS文件列表”。 图1 HDFS文件列表
常见操作 修改集群服务配置参数 访问集群Manager 使用MRS客户端
HBase用户认证失败 用户问题 HBase用户认证失败。 问题现象 客户侧HBase用户认证失败,报错信息如下: 2019-05-13 10:53:09,975 ERROR [localhost-startStop-1] xxxConfig.LoginUtil: login failed
CPU使用率超过阈值”,查看并记录该告警的“定位信息”中上报的主机名。 选择“集群 > 服务 > LdapServer > 实例”,单击4中的主机名对应的SlapdServer实例。 在实例界面观察“SlapdServer CPU使用率”图表的实时数据5分钟左右,查看CPU使用率是否多次超过设置的阈值(默认为75%)。
JobHistory2x堆内存使用率统计 (JobHistory2x)”,可查看“阈值”。 重启所有的JobHistory2x实例。 重启实例期间实例不可用,当前实例节点的任务会执行失败。 等待10分钟,观察界面告警是否清除。 是,处理完毕。 否,执行7。 收集故障信息 在FusionInsight
JobHistory2x直接内存使用率统计 (JobHistory2x)”,可查看“阈值”。 重启所有的JobHistory2x实例。 重启实例期间实例不可用,当前实例节点的任务会执行失败。 等待10分钟,观察界面告警是否清除。 是,处理完毕。 否,执行7。 收集故障信息 在FusionInsight
sslUsed配置为false,则此参数不允许为空。 登录FusionInsight Manager,选择“集群 > 服务 > ClickHouse > 实例”,单击对应的ClickHouseBalancer实例,选择“实例配置 > 全部配置”,搜索“lb_http_port”并获取其参数值,默认为21425。
HostName 产生告警的主机名。 RESName 产生告警的资源名称。 对系统的影响 如果Manager的WebService浮动IP地址异常,用户无法登录和使用Manager。如果Manager的数据库异常,所有核心业务和相关业务进程,例如告警和监控功能,都会受影响。 可能原因 浮动IP地址异常。
查看MRS集群补丁信息 查看集群组件的补丁信息。如果集群组件,如Hadoop或Spark等出现了异常,可下载补丁版本,修复问题。 登录MRS管理控制台。 选择“现有集群”,选中一集群并单击集群名,进入集群基本信息页面。 进入“补丁管理”页面,可查看当前MRS集群补丁信息。 补丁版本信息如下:
可按0.5倍速率调大。若告警次数比较频繁,可以按1倍速率调大。多业务量、高并发的情况可以考虑增加实例。 重启所有的JDBCServer2x实例。 重启实例期间实例不可用,当前实例节点的任务会执行失败。 等待10分钟,观察界面告警是否清除。 是,处理完毕。 否,执行6。 收集故障信息