检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
| awk -F ' ' '{print $2}'命令获取RangerAdmin进程pid,再执行netstat -anp|grep pid | grep LISTEN查看RangerAdmin进程是否监测端口,安全模式集群监测21401端口,普通模式集群监测21400端口。 是,执行4。
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Broker进程的垃圾回收时间过长,可能影响该Broker进程正常提供服务。 可能原因 该节点Kafka实例进程的垃圾回收时间过长,或配置的直接内存大小不合理,导致进程GC频繁。 处理步骤 检查Broker进程的垃圾回收(GC)时间。 在FusionInsight
原因分析 在HDFS长时间运行场景下,操作系统会把JVM创建的“/tmp/.java_pid*”文件定期清理。因为HDFS的内存监控使用了JVM的jinfo命令,而jinfo依赖“/tmp/.java_pid*”文件,当该文件不存在时,jinfo会执行kill -3将jstack信息打印到
开启HDFS的debug日志,然后查看下层目录很多的路径(hadoop fs -ls /XXX/XXX),验证需要运行多久。 打印HMaster进程jstack: su - omm jps jstack pid 如下图所示,Jstack显示一直卡在DFSClient.listPaths。 图1 异常 解决办法 如果确
xml文件解析异常导致WebHCat启动失败 用户问题 MRS的Hive服务故障,重新启动后,Master2节点上的HiveServer和WebHCat进程启动失败,Master1节点进程正常。 原因分析 登录Master2节点,查看“/var/log/Bigdata/hive/hiveserver/hive
CLOSE_WAIT 94237/java ... 执行如下命令,查看占用大量端口的进程。 ps -ef |grep PID PID为7查询出所属端口的进程号。 可以执行如下命令,收集系统所有进程信息,查看占用大量端口的进程。 ps -ef > $BIGDATA_HOME/tmp/ps_result
su - omm 执行以下命令查看是否存在WebHCat进程。 ps -ef|grep webhcat|grep -v grep 若存在,则需执行以下命令结束WebHCat进程: kill -9 ${webhcat_pid} 登录FusionInsight Manager,选择“集群
择“定制 > CPU和内存”,勾选“HiveServer内存使用率统计” ,单击“确定”,查看HiveServer进程使用的直接内存是否已达到HiveServer进程设定的最大直接内存的阈值(默认95%)。 是,执行4。 否,执行7。 图1 勾选HiveServer内存使用率统计
echo "$num_fds ${pid}" ; fi; done | sort -nr | more 分析打开文件数目较多的进程,分析该进程是否存在异常,如打开的文件或socket没有关闭。 是,执行5。 否,执行7。 文件句柄占用多的异常进程进行确认释放。 等待5分钟,检查该告警是否恢复。
以omm用户登录主OMS节点,执行以下命令查询BackupRecoveryPluginProcess进程id,并结束此进程。 jps|grep -i BackupRecoveryPluginProcess kill -9 查询到的PID 登录到Manager页面重新执行DBService备份任务。 执行以下
择“定制 > CPU和内存”,勾选“HiveServer内存使用率统计” ,单击“确定”,查看HiveServer进程使用的非堆内存是否已达到HiveServer进程设定的最大非堆内存的阈值(默认95%)。 是,执行4。 否,执行7。 图1 勾选HiveServer内存使用率统计
LISTEN查询tomcat的进程号。 执行kill -9 {pid},其中{pid}为上一步中查询到的进程号。 等待进程自动重启,可以执行netstat -anp |grep 28443 |grep LISTEN查看进程是否启动,如果可以查到结果说明进程启动成功。 为各组件添加或修
-ef | grep slapd,可以查看到有端口为21750的slapd进程。 是,执行2。 否,执行3。 执行kill -2 LdapServer进程pid,等待20秒以后,HA会自动启动Oldap进程。观察当前OLdap资源状态是否正常。 是,操作结束。 否,执行3。 收集故障信息。
ALM-12007 进程故障(2.x及以前版本) 告警解释 进程健康检查模块按5秒周期检测进程状态。当进程健康检查模块连续三次检测到进程连接状态为故障时,产生该告警。 当进程连接正常时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12007 严重 是 告警参数 参数名称
ALM-12203 进程Full GC时间超过阈值 告警解释 系统每30秒周期性检测OMS主要进程的GC时间,当检测到OMS进程的GC时间超出阈值(默认连续3次检测超过12秒,可通过“运维 > 告警 > 阈值设置 > OMS > OMS服务”修改阈值)时产生该告警。 当OMS进程的GC时间小于或等于阈值时,告警恢复。
LISTEN查询tomcat的进程号。 执行kill -9 {pid},其中{pid}为上一步中查询到的进程号。 等待进程自动重启,可以执行netstat -anp |grep 28443 |grep LISTEN查看进程是否启动,如果可以查到结果说明进程启动成功。 为各组件添加或修
StarRocks既支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据。 StarRocks兼容MySQL协议,可使用MySQL客户端和常用BI工具对接进行数据分析,同时StarRocks具备水平扩展、高可用、高可靠、易运维等特性,广泛应用于实时数仓、OLAP报表、数据湖分析等场景。
'{replica}') PARTITION BY pid ORDER BY (pid, DateTime_x); 创建分布式表“test1_all”。 CREATE TABLE test1_all ON CLUSTER default_cluster ( `pid` Int8, `uid` UInt8
ALM-45432 ClickHouse用户同步进程故障 告警解释 系统每5分钟周期性检测用户角色同步进程的状态,当检测到ClickHouse服务用户角色同步进程故障或者用户角色同步失败,产生该告警。 当用户角色同步进程正常并且用户角色同步功能正常后,告警自动清除。 告警属性 告警ID
对系统的影响 OMS主要进程内存使用率过高,会影响OMS主要进程运行的性能,甚至造成内存溢出导致OMS主要进程不可用,OMS任务执行变慢或失败。 可能原因 该节点OMS主要进程内存使用率过大,或配置的内存不合理,导致使用率超过阈值。 处理步骤 检查进程内存使用率。 在FusionInsight