检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
start 启动成功显示如下,获取EFAK WebUI登录地址。 使用获取到的登录地址,访问EFAK WebUI界面。 访问EFKA WebUI界面默认初始账号密码admin/123456 登录后可以查看Kafka集群监控页面、Topic监控页面、Consumer监控页面,例如: 图3
vim hadoop-omm-datanode-主机名.log 在日志中搜索关键字“slow”,确认发生慢操作的上下游节点信息。 检查当前节点与10中获取的节点之间的网络通信是否通畅。 是,执行13。 否,联系网络管理员修复网络。 等待5分钟,检查该告警是否恢复。 是,操作结束。
Spark Streaming任务失败但是Yarn WebUI中显示状态为成功 问题现象 MRS 3.3.0-LTS版本集群,提交Spark Streaming任务后,由于NodeAgent重启导致对应节点上任务失败,但是在Yarn WebUI页面中查看整个任务状态为“succeeded”。
Manager。 单击“主机管理”,看所有主机状态。 主机操作状态和健康状态分别如下表所示。 表5 主机操作状态 状态 描述 正常 主机及主机上的服务角色正常运行。 已隔离 主机被用户隔离,主机上的服务角色停止运行。 表6 主机健康状态 状态 描述 良好 主机心跳检测正常。 故障 主机心跳超时未上报。
认证异常导致提交Spark任务失败,报“Can't get the Kerberos realm”异常。 原因分析 在Driver端打印异常找不到连接HDFS的Token信息,报错如下: 16/03/22 20:37:10 WARN Client: Exception encountered
事件全景数据监控,提供一体化监控能力。Flink可以通过AOM服务的Prometheus实例将监控指标推送至AOM服务,用户可以方便查看监控指标相关信息。 本示例提供通过FlinkResource、FlinkServer和客户端三种方式对接AOM服务,将Flink监控指标上传至AOM服务。
为什么MRS集群显示的资源池内存小于实际集群内存? 问: 为什么MRS集群显示的资源池内存小于实际集群内存? 答: 在MRS集群中,MRS默认为Yarn服务分配集群内存的50%,用户从逻辑上对Yarn服务的节点按照资源池进行分区管理,所以集群中显示的资源池总内存仅有集群总内存的50%。
进入Tez WebUI界面显示异常 问题 登录Manager界面,跳转Tez WebUI界面,显示404异常或503异常。 回答 Tez WebUI依赖Yarn的TimelineServer实例,需要预先安装TimelineServer,且处于良好状态。 父主题: Tez常见问题
Hive表中增加分区列后再插入数据显示为NULL 问题现象 执行如下命令创建表 create table test_table( col1 string, col2 string ) PARTITIONED BY(p1 string) STORED AS orc tblproperties('orc
MRS集群节点使用pip3安装Python时提示网络不可达 问题现象 执行pip3 install安装Python时报错网络不可达。 具体如下图所示: 原因分析 用户未给Master节点绑定弹性公网IP,造成报错的发生。 处理步骤 登录MRS服务管理控制台。 选择“现有集群”,选
Sink配置的IP所在节点与故障节点的网络状态。 确认Flume Sink是否是avro类型。 是,执行2.c。 否,执行3。 登录故障节点所在主机,执行以下命令切换root用户。 sudo su - root 执行ping Flume Sink配置的IP地址命令查看对端主机是否可以ping通。 是,执行3。
HBase占用网络端口,连接数过大会导致其他服务不稳定 问题 HBase占用网络端口,连接数过大会导致其他服务不稳定。 回答 使用操作系统命令lsof或者netstat发现大量TCP连接处于CLOSE_WAIT状态,且连接持有者为HBase RegionServer,可能导致网络端口耗尽
处理步骤 检查主机CPU负载使用情况。 在FusionInsight Manager页面,选择“运维 > 告警 > 告警”,在告警列表中展开此告警的详细信息,在定位信息中单击产生该告警的主机名称。 在“主机”页面选择产生该告警的主机,选择“图表 > 主机状态 > 主机单核CPU平均
Client端与Flume Server端网络故障。 Flume Client端进程故障。 Flume Client端配置错误。 处理步骤 检查Flume Client与Flume Server的网络状况。 登录告警定位参数中描述的Flume ClientIP所在主机,执行以下命令切换root用户。
执行以下命令检查备GaussDB节点是否可达。 ping 备GaussDB心跳IP地址 是,执行6。 否,执行4。 联系运维人员查看是否为网络故障。 是,执行5。 否,执行6。 修复网络故障,然后查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行6。 登录备GaussDB节点。 执行以下命令切换用户:
where条件以及索引等设置不合理问题,导致SQL查询很慢,影响数据库的整体性能。针对该场景,MRS提供了ClickHouse慢查询语句的监控功能。 正在进行的慢查询 当前还在执行没有返回结果的慢SQL语句信息可以通过该界面查询。 慢查询菜单路径 MRS 3.2.0之前版本:登录FusionInsight
HBase占用网络端口,连接数过大会导致其他服务不稳定 问题 HBase占用网络端口,连接数过大会导致其他服务不稳定。 回答 使用操作系统命令lsof或者netstat发现大量TCP连接处于CLOSE_WAIT状态,且连接持有者为HBase RegionServer,可能导致网络端口耗尽
Client端与Flume Server端网络故障。 Flume Client端进程故障。 Flume Client端配置错误。 处理步骤 检查Flume Client与Flume Server的网络状况。 以root用户登录到告警定位参数中描述的Flume ClientIP所在主机,用户密码为安装前用户自定义,请咨询系统管理员。
HBase shell客户端在使用中有INFO信息打印在控制台导致显示混乱 用户问题 在使用HBase shell中会有INFO信息打印在控制台,导致显示混乱,用户在输入命令前需要按回车符清理控制台。如下图所示: 原因分析 HBase客户端中默认日志打印设置为“INFO,cons
Flume Sink配置的IP地址命令查看对端主机是否可以ping通,用户密码为安装前用户自定义,请咨询系统管理员。 是,执行13。 否,执行11。 联系网络管理员恢复网络。 等待一段时间后,在告警列表中,查看告警是否清除。 是,处理完毕。 否, 执行13。 收集故障信息。 在FusionInsight