检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
登录后可以查看Kafka集群监控页面、Topic监控页面、Consumer监控页面,例如: 图3 Kafka集群监控 图4 Topic监控 图5 Consumer监控 Kafka Eagle对接常见问题 问题现象: 无法获取Kafka CPU与内存监控信息日志提示。 java.io
Presto的coordinator进程无法正常启动 用户问题 Presto的coordinator未知原因被终止,或者Presto的coordinator进程无法正常启动。 问题现象 Presto的coordinator无法正常启动,Manager页面上显示presto coordinator进程正常启动
产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 上层服务通过knox下发的请求无法正常处理响应。 可能原因 knox进程异常。 处理步骤 检查knox进程是否异常。 登录FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看该告警的主机名称。
|sort -n |uniq -c |sort -n 执行后结果如下: 查看启动线程数最多的进程,案例中进程2346为NameNode进程,启动了5.4万线程,且持续增长。 多次打印对应进程的jstack日志,根据jstack日志信息发现,NameNode存在大量线程处于WAITING,且长期不释放。
原因分析 由于执行命令的用户与当前查看pid信息的进程提交用户不一致导致。 Storm引入区分用户执行任务特性,在启动worker进程时将给进程的uid和gid改为提交用户和ficommon,目的是为了logviewer可以访问到worker进程的日志同时日志文件只开放权限到640。这样
ALM-45444 ClickHouse进程异常 告警解释 ClickHouse实例健康检查模块30秒检查一次,如果连续失败的次数超过配置的阈值,则触发上报告警,此时ClickHouse进程可能处于停止响应状态,无法正常执行业务。 告警属性 告警ID 告警级别 是否可自动清除 45444
重启manager-executor进程,该进程在Master1和Master2节点上为主备部署,同一时刻只有一个节点上运行该进程,首先确认节点上是否有该进程,如果有该进程则进行重启操作。 分别登录Master1节点和Master2节点,执行以下命令确认当前节点是否存在该进程。当有输出时则进程存在。 ps
产生告警的主机名。 对系统的影响 进程状态异常会导致该进程无法提供正常服务,进而可能导致服务整体异常。 可能原因 主机中正在等待的IO(磁盘IO、网络IO等)在较长时间内未得到响应,进程处于D状态和Z状态。或进程可能被挂起进入T状态。 处理步骤 查看进程是否处于D、Z、T状态 登录FusionInsight
ontext,而不是退出当前进程。如果当前进程中存在其他常驻的线程(类似spark-shell需要不断检测命令输入,Spark Streaming不断在从数据源读取数据),SparkContext被停止并不会终止整个进程。 如果需要退出Driver进程,建议使用kill -9 pid命令手动退出当前Driver。
Executor进程Crash导致Stage重试 问题 在执行大数据量的Spark任务(如100T的TPCDS测试套)过程中,有时会出现Executor丢失从而导致Stage重试的现象。查看Executor的日志,出现“Executor 532 is lost rpc with driver
实现Hive进程访问多ZooKeeper 功能简介 FusionInsight支持在同一个客户端进程内同时访问FusionInsight ZooKeeper和第三方的ZooKeeper,分别通过“testConnectHive”和“testConnectApacheZK”方法实现。
ontext,而不是退出当前进程。如果当前进程中存在其他常驻的线程(类似spark-shell需要不断检测命令输入,Spark Streaming不断在从数据源读取数据),SparkContext被停止并不会终止整个进程。 如果需要退出Driver进程,建议使用kill -9 pid命令手动退出当前Driver。
Executor进程Crash导致Stage重试 问题 在执行大数据量的Spark任务(如100T的TPCDS测试套)过程中,有时会出现Executor丢失从而导致Stage重试的现象。查看Executor的日志,出现“Executor 532 is lost rpc with driver
实现Hive进程访问多ZooKeeper 功能简介 FusionInsight支持在同一个客户端进程内同时访问FusionInsight ZooKeeper和第三方的ZooKeeper,分别通过“testConnectHive”和“testConnectApacheZK”方法实现。
实现Hive进程访问多ZooKeeper 功能简介 FusionInsight支持在同一个客户端进程内同时访问FusionInsight ZooKeeper和第三方的ZooKeeper,分别通过“testConnectHive”和“testConnectApacheZK”方法实现。
实现Hive进程访问多ZooKeeper 功能简介 FusionInsight支持在同一个客户端进程内同时访问FusionInsight ZooKeeper和第三方的ZooKeeper,分别通过“testConnectHive”和“testConnectApacheZK”方法实现。
产生告警的主机名。 对系统的影响 进程状态异常会导致该进程无法提供正常服务,进而可能导致服务整体异常。 可能原因 主机中正在等待的IO(磁盘IO、网络IO等)在较长时间内未得到响应,进程处于D状态和Z状态。或进程可能被挂起进入T状态。 处理步骤 查看进程是否处于D、Z、T状态 登录FusionInsight
产生告警的主机名。 对系统的影响 进程状态异常会导致该进程无法提供正常服务,进而可能导致服务整体异常。 可能原因 主机中正在等待的IO(磁盘IO、网络IO等)在较长时间内未得到响应,进程处于D状态和Z状态。或进程可能被挂起进入T状态。 处理步骤 查看进程是否处于D、Z、T状态 登录FusionInsight
产生告警的主机名。 对系统的影响 进程状态异常会导致该进程无法提供正常服务,进而可能导致服务整体异常。 可能原因 主机中正在等待的IO(磁盘IO、网络IO等)在较长时间内未得到响应,进程处于D状态和Z状态。或进程可能被挂起进入T状态。 处理步骤 查看进程是否处于D、Z、T状态 登录FusionInsight
集群运维 告警管理 MRS可以实时监控大数据集群,通过告警和事件可以识别系统健康状态。同时MRS也支持用户自定义配置监控与告警阈值用于关注各指标的健康情况,当监控数据达到告警阈值,系统将会触发一条告警信息。 MRS还可以与华为云消息通知服务(SMN)的消息服务系统对接,将告警信息