检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
okerberos、oldap关键文件权限异常,会导致认证失败,可能会导致作业运行失败。 controller、pms关键文件权限异常,会导致进程故障,可能会影响弹性扩缩容性能。 tomcat关键文件权限异常,会影响Manager页面登录、查看功能。 可能原因 用户手动修改了文件权限
对系统的影响 大量进程连接到ZooKeeper,导致ZooKeeper连接数被占满,无法对外正常提供服务,导致上游组件(例如Yarn、Flink、Spark等)服务异常。 可能原因 客户端大量进程连接到ZooKeeper,或者自定义阈值设置不合理。 处理步骤 检查客户端是否存在大量进程连接ZooKeeper的情况
RangerAdmin垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测RangerAdmin进程的垃圾回收(GC)占用时间,当连续5次检测到RangerAdmin进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性
产生告警的主机名。 对系统的影响 GC时间超出阈值,会影响JDBCServer进程运行的性能,甚至造成JDBCServer进程不可用。 可能原因 该节点JDBCServer进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 登录MRS集群详情页面,选择“告警管理”。
间不足。 原因分析 在HDFS长时间运行场景下,操作系统会把JVM创建的“/tmp/.java_pid*”文件定期清理。因为HDFS的内存监控使用了JVM的jinfo命令,而jinfo依赖“/tmp/.java_pid*”文件,当该文件不存在时,jinfo会执行kill -3将jstack信息打印到
具体的HiveServer实例”,找到“Background线程数”与“Background线程使用率”监控信息。 图1 Background监控信息 在Background线程数监控中,线程数目最近半小时时间内是否有异常偏高(默认队列数值为100,偏高数值>=90)。 是,执行3。
Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。 FusionInsight Manager界面操作:登录FusionInsight Manager,选择“集群 > 服务 > Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。 在Kafka概览页面获取Controller节点信息。
ClickHouse消费Kafka数据异常 问题现象 用户在ClickHouse集群创建Kafka引擎表test.user_log_kafka消费Kafka数据,查看Kafka监控发现凌晨开始出现消息堆积,数据一直没有被消费。 原因分析 Kafka出现消息堆积,说明ClickHouse消费数据时出现异常,需要查看ClickHouse的日志。
LISTEN查询tomcat的进程号。 执行kill -9 {pid},其中{pid}为上一步中查询到的进程号。 等待进程自动重启,可以执行netstat -anp |grep 28443 |grep LISTEN查看进程是否启动,如果可以查到结果说明进程启动成功。 为各组件添加或修
Flume数据采集慢 问题现象 Flume启动后,Flume数据采集慢。 原因分析 Flume堆内存设置不合理,导致Flume进程一直处于频繁GC。查看Flume运行日志: 2019-02-26T13:06:20.666+0800: 1085673.512: [Full GC:[CMS:
ALM-45288 TagSync垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测TagSync进程的垃圾回收(GC)占用时间,当连续5次检测到TagSync进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性
支持的Topic上限 支持Topic的个数,受限于进程整体打开的文件句柄数(现场环境一般主要是数据文件和索引文件占用比较多)。 可通过ulimit -n命令查看进程最多打开的文件句柄数; 执行lsof -p <Kafka PID>命令,查看当前单节点上Kafka进程打开的文件句柄(会继续增加);
在现有的缺省DFSclient failover proxy provider中,一旦某进程中的一个NameNode发生故障,在同一进程中的所有HDFS client实例都会尝试再次连接NameNode,导致应用长时间等待超时。 当位于同一JVM进程中的客户端对无法访问的NameNode进行连接时,会对系统造
支持的Topic上限 支持Topic的个数,受限于进程整体打开的文件句柄数(现场环境一般主要是数据文件和索引文件占用比较多)。 可通过ulimit -n命令查看进程最多打开的文件句柄数; 执行lsof -p <Kafka PID>命令,查看当前单节点上Kafka进程打开的文件句柄(会继续增加);
HBase操作请求次数指标中的多级图表统计如何理解? 问: HBase操作请求次数指标中的多级图表统计如何理解? 答: 以“RegionServer级别操作请求次数”监控项为例: 登录FusionInsight Manager,选择“集群 > 服务 > HBase > 资源”,在该界面即可查看“Region
/log4j.properties”中的日志级别,使用API V1.1接口作业提交后,状态显示为error。 原因分析 executor会监控作业日志回显,确定作业执行结果,改为error后,检测不到输出结果,因此过期后判断作业状态为异常。 处理步骤 将“/opt/client/
确认是否有identities信息。 如果没有identities信息,执行ps -ef|grep ssh-agent找到ssh-agent进程,并kill该进程等待该进程自动重启。 执行ssh-add -l 查看是否已经添加identities信息,如果已经添加,请手动ssh确认互信是否正常。
页面上无法删除该客户端实例的问题。 解决Kafka时延监控转告警(Topic数量监控、分区数量监控、请求时延监控)的问题。 解决节点ZooKeeper连接占满导致ClickHouse无法启动的问题。 解决NodeAgent进程链接ZooKeeper,链接不释放,达到3000左右的问题。
LISTEN查询tomcat的进程号。 执行kill -9 {pid},其中{pid}为上一步中查询到的进程号。 等待进程自动重启,可以执行netstat -anp |grep 28443 |grep LISTEN查看进程是否启动,如果可以查到结果说明进程启动成功。 为各组件添加或修
runcpserver.log 操作记录日志。 runcpserver.out.log 进程运行异常日志。 supervisor.log 进程启动日志。 supervisor.out.log 进程启动异常日志。 dbDetail.log 数据库初始化日志 initSecurityDetail