检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用户问题 MRS的Hive服务故障,重新启动后,Master2节点上的HiveServer和WebHCat进程启动失败,Master1节点进程正常。 原因分析 登录Master2节点,查看“/var/log/Bigdata/hive/hiveserver/hive.log”日志,发现Hi
MRS集群反复上报43006告警 用户问题 集群反复出现“ALM-43006 JobHistory进程堆内存使用超出阈值”告警,且按照告警参考处理无效。 问题现象 集群出现告警“ALM-43006 JobHistory进程堆内存使用超出阈值”并且按照指导处理以后,运行一段时间又会出现同样的告警。 原因分析
--connect 指定JDBC连接的URL,格式为:jdbc:mysql://MySQL数据库IP地址:MySQL的端口/数据库名称。 --username 连接MySQL数据库的用户名。 -password 连接MySQL数据库的用户密码。命令中如果携带认证密码信息可能存在安全风险
该节点Flume实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Flume进程垃圾回收(GC)时间超过阈值”,检查该告警的“定位信息”。查看告警上报的实例主机名。 在FusionInsight
实例”查看。 RPC端口号可在Manager界面,选择“集群 > 服务 > HDFS > 配置”,搜索“dfs.namenode.rpc.port”查看。 broker_192_168_67_78表示Broker名称,可在MySQL客户端执行show broker;命令查看。 执行以下命令查看导入任务的状态信息:
Flume数据采集慢 问题现象 Flume启动后,Flume数据采集慢。 原因分析 Flume堆内存设置不合理,导致Flume进程一直处于频繁GC。查看Flume运行日志: 2019-02-26T13:06:20.666+0800: 1085673.512: [Full GC:[CMS:
在现有的缺省DFSclient failover proxy provider中,一旦某进程中的一个NameNode发生故障,在同一进程中的所有HDFS client实例都会尝试再次连接NameNode,导致应用长时间等待超时。 当位于同一JVM进程中的客户端对无法访问的NameNode进行连接时,会对系统造
联系网络管理员查看是否为网络故障。 是,执行5。 否,执行6。 修复网络故障,查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行6。 联系硬件管理员查看是否节点硬件故障(CPU或者内存等)。 是,执行7。 否,执行12。 维修或者更换故障部件,并重启节点。查看告警列表中,该告警是否已清除。
Hive > 实例”查看。 登录WebHCat实例所在节的任一节点,执行以下命令切换到omm用户。 su - omm 执行以下命令查看是否存在WebHCat进程。 ps -ef|grep webhcat|grep -v grep 若存在,则需执行以下命令结束WebHCat进程: kill
Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 无法分配PID给新的业务进程,业务进程不可用。 可能原因 节点同时运行的进程过多,需要扩展“pid_max”值。 系统环境异常。 处理步骤 扩展pid_max值。 打开MRS集群详情页面,在
DIR类型。 是,执行13。 否,执行17。 查看数据监控目录是否存在。 是,执行15。 否,执行14。 查看spooldir监控目录,执行命令:cat properties.properties | grep spoolDir 查看TAILDIR监控目录,执行命令:cat properties
在现有的缺省DFSclient failover proxy provider中,一旦某进程中的一个NameNode发生故障,在同一进程中的所有HDFS client实例都会尝试再次连接NameNode,导致应用长时间等待超时。 当位于同一JVM进程中的客户端对无法访问的NameNode进行连接时,会对系统造
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 ConfigNode进程的垃圾回收(GC)时间过长,可能导致该ConfigNode进程数据读写性能下降。 可能原因 该节点配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查堆内存配置。 在FusionInsight Manager首页,选择“运维
-nap | grep 20051查看占用20051端口的进程。 使用kill命令强制终止使用20051端口的进程。 约2分钟后,再次执行命令:netstat -nap | grep 20051,查看是否还有进程占用该端口。 确认占用该端口进程所属的服务,并修改为其他端口。 分别
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 IoTDBServer进程的垃圾回收(GC)时间过长,可能影响该IoTDBServer进程无法正常提供数据读写服务。 可能原因 该节点IoTDBServer实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight
driver.OracleDriver SQLServer:com.microsoft.sqlserver.jdbc.SQLServerDriver mysql:com.mysql.jdbc.Driver postgresql:org.postgresql.Driver gaussdb200:com
经OS定位虚拟机发生重启的原因是节点没有可用的内存,系统发生内存溢出触发了oom-killer,当进程处于被调用的状态会使进程处于disk sleep状态,最终导致虚拟机发生重启。 查看占用的内存进程,发现占用内存都是正常的业务进程。 结论:虚拟机内存不能满足服务需求。 处理步骤 建议扩大节点内存。 建议关闭不需要的服务。
Progress 作业进度,以查询计划为单位。例如一共10个查询计划,当前已完成3个,则进度为30%。 TaskInfo 以JSON格式展示的作业信息,其中: db:数据库名称。 tbl:表名称。 partitions:指定导出的分区,*表示所有分区。 exec mem limit:查询计划内存使用限制,单位为字节。
原因分析 通过查看RegionServer日志(/var/log/Bigdata/hbase/rs/hbase-omm-xxx.log)。 使用lsof -i:21302(MRS1.7.X及以后端口号是16020)查看到pid,然后根据pid查看到相应的进程,发现Region
-ef|grep =acs (查找acs进程PID) kill -9 PID (PID替换为实际的ID,结束acs进程) 等待几分钟后执行命令ps -ef|grep =acs查询进程是否已经自动启动。 替换executor用户的keytab文件。 登录MRS Manager页面,选择“系统