检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Presto的coordinator进程无法正常启动 用户问题 Presto的coordinator未知原因被终止,或者Presto的coordinator进程无法正常启动。 问题现象 Presto的coordinator无法正常启动,Manager页面上显示presto coordinator进程正常启动
产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 上层服务通过knox下发的请求无法正常处理响应。 可能原因 knox进程异常。 处理步骤 检查knox进程是否异常。 登录FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看该告警的主机名称。
|sort -n |uniq -c |sort -n 执行后结果如下: 查看启动线程数最多的进程,案例中进程2346为NameNode进程,启动了5.4万线程,且持续增长。 多次打印对应进程的jstack日志,根据jstack日志信息发现,NameNode存在大量线程处于WAITING,且长期不释放。
Kafka Broker上报进程异常,日志提示“IllegalArgumentException” 问题背景与现象 使用Manager提示进程故障告警,查看告警进程为Kafka Broker。 可能原因 Broker配置异常。 原因分析 在Manager页面,在告警页面得到主机信息。
重启manager-executor进程,该进程在Master1和Master2节点上为主备部署,同一时刻只有一个节点上运行该进程,首先确认节点上是否有该进程,如果有该进程则进行重启操作。 分别登录Master1节点和Master2节点,执行以下命令确认当前节点是否存在该进程。当有输出时则进程存在。 ps
ontext,而不是退出当前进程。如果当前进程中存在其他常驻的线程(类似spark-shell需要不断检测命令输入,Spark Streaming不断在从数据源读取数据),SparkContext被停止并不会终止整个进程。 如果需要退出Driver进程,建议使用kill -9 pid命令手动退出当前Driver。
Executor进程Crash导致Stage重试 问题 在执行大数据量的Spark任务(如100T的TPCDS测试套)过程中,有时会出现Executor丢失从而导致Stage重试的现象。查看Executor的日志,出现“Executor 532 is lost rpc with driver
实现Hive进程访问多ZooKeeper 功能简介 FusionInsight支持在同一个客户端进程内同时访问FusionInsight ZooKeeper和第三方的ZooKeeper,分别通过“testConnectHive”和“testConnectApacheZK”方法实现。
实现Hive进程访问多ZooKeeper 功能简介 FusionInsight支持在同一个客户端进程内同时访问FusionInsight ZooKeeper和第三方的ZooKeeper,分别通过“testConnectHive”和“testConnectApacheZK”方法实现。
实现Hive进程访问多ZooKeeper 功能简介 FusionInsight支持在同一个客户端进程内同时访问FusionInsight ZooKeeper和第三方的ZooKeeper,分别通过“testConnectHive”和“testConnectApacheZK”方法实现。
实现Hive进程访问多ZooKeeper 功能简介 FusionInsight支持在同一个客户端进程内同时访问FusionInsight ZooKeeper和第三方的ZooKeeper,分别通过“testConnectHive”和“testConnectApacheZK”方法实现。
集群运维 告警管理 MRS可以实时监控大数据集群,通过告警和事件可以识别系统健康状态。同时MRS也支持用户自定义配置监控与告警阈值用于关注各指标的健康情况,当监控数据达到告警阈值,系统将会触发一条告警信息。 MRS还可以与华为云消息通知服务(SMN)的消息服务系统对接,将告警信息
nTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性。 OpenTSDB使用场景有如下几个特点: 采集指标在某一时间点具有唯一值,没有复杂的结构及关系。 监控的指标具有随着时间不断变化的特点。 具有HBase的高吞吐,良好的伸缩性等特点。
ontext,而不是退出当前进程。如果当前进程中存在其他常驻的线程(类似spark-shell需要不断检测命令输入,Spark Streaming不断在从数据源读取数据),SparkContext被停止并不会终止整个进程。 如果需要退出Driver进程,建议使用kill -9 pid命令手动退出当前Driver。
Executor进程Crash导致Stage重试 问题 在执行大数据量的Spark任务(如100T的TPCDS测试套)过程中,有时会出现Executor丢失从而导致Stage重试的现象。查看Executor的日志,出现“Executor 532 is lost rpc with driver
ALM-45444 ClickHouse进程异常 告警解释 ClickHouse实例健康检查模块30秒检查一次,如果连续失败的次数超过配置的阈值,则触发上报告警,此时ClickHouse进程可能处于停止响应状态,无法正常执行业务。 告警属性 告警ID 告警级别 是否可自动清除 45444
原因分析 由于执行命令的用户与当前查看pid信息的进程提交用户不一致导致。 Storm引入区分用户执行任务特性,在启动worker进程时将给进程的uid和gid改为提交用户和ficommon,目的是为了logviewer可以访问到worker进程的日志同时日志文件只开放权限到640。这样
hdfs.dir.threshold 监控HetuEngine作业的大目录阈值,超过当前阈值就会上报事件。 单位:GB。 100 hive.job.hdfs.monitor.dir 监控Hive作业的大目录监控路径,不允许监控根目录。 如果需要监控的目录包含用户目录等可变目录使用/*/代替。
0个map和10000个reduce,任务失败。 回答 ZooKeeper IO瓶颈观测手段: 通过Manager的监控页面查看单个节点上ZooKeeper请求监控,判断是否严重超出规格限制。 通过观测ZooKeeper的日志以及HBase的日志,查看是否有大量的IO Exception
执行ps -ef | grep slapd,可以查看到有端口为21750的slapd进程。 是,执行3。 否,执行4。 执行kill -2 ldap进程pid,等待20s以后,HA会自动启动OLdap进程。观察当前OLdap资源状态是否正常。 是,操作结束。 否,执行4。 收集故障信息。