检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
| grep 20051查看占用20051端口的进程。 使用kill命令强制终止使用20051端口的进程。 约2分钟后,再次执行命令:netstat -nap | grep 20051,查看是否还有进程占用该端口。 确认占用该端口进程所属的服务,并修改为其他端口。 分别在“/tmp
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 IoTDBServer进程的垃圾回收(GC)时间过长,可能影响该IoTDBServer进程无法正常提供数据读写服务。 可能原因 该节点IoTDBServer实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 ConfigNode进程的垃圾回收(GC)时间过长,可能导致该ConfigNode进程数据读写性能下降。 可能原因 该节点配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查堆内存配置。 在FusionInsight Manager首页,选择“运维
KafkaManager介绍 KafkaManager是Apache Kafka的管理工具,提供Kafka集群界面化的Metric监控和集群管理。 通过KafkaManager可以: 支持管理多个Kafka集群 支持界面检查集群状态(主题,消费者,偏移量,分区,副本,节点) 支持界面执行副本的leader选举
App应用,默认集成到Tomcat中,采用pg数据库。 基于Ext提供WEB Console,该Console仅提供对Oozie工作流的查看和监控功能。通过Oozie对外提REST方式的WS接口,Oozie client通过该接口控制(启动、停止等操作)Workflow流程,从而编排、运行Hadoop
HDFS执行Balance时被异常停止如何处理 问题 在HDFS客户端启动一个Balance进程,该进程被异常停止后,再次执行Balance操作,操作会失败。 回答 通常,HDFS执行Balance操作结束后,会自动释放“/system/balancer.id”文件,可再次正常执行Balance。
REST API接口介绍 功能简介 Spark的REST API以JSON格式展现Web UI的一些指标,提供用户一种更简单的方法去创建新的展示和监控的工具,并且支持查询正在运行的app和已经结束的app的相关信息。开源的Spark REST接口支持对Jobs、Stages、Storag
Yarn模式 Flink的JobManager与Yarn的Application Master(简称AM)是在同一个进程下。Yarn的ResourceManager对AM有监控,当AM异常时,Yarn会将AM重新启动,启动后,所有JobManager的元数据从HDFS恢复。但恢复期间,
ALM-24004 Flume读取数据异常(2.x及以前版本) 告警解释 告警模块对Flume Source的状态进行监控,当Source读取不到数据的时长超过阈值时,系统发送告警。 用户可通过配置修改阈值。 当Source读取到数据,且告警处理完成时,告警恢复。 告警属性 告警ID
查看MRS集群基本信息 集群创建完成后,可对集群进行监控和管理。选择“现有集群”,选中一集群并单击集群名,进入集群详情页面,查看集群的基本配置信息、网络信息和部署的节点信息等。 ECS集群和BMS集群在管理控制台操作基本一致,本文档主要以ECS集群描述为例,如有操作区别则分开描述。
HDFS执行Balance时被异常停止如何处理 问题 在HDFS客户端启动一个Balance进程,该进程被异常停止后,再次执行Balance操作,操作会失败。 回答 通常,HDFS执行Balance操作结束后,会自动释放“/system/balancer.id”文件,可再次正常执行Balance。
xml文件解析异常导致WebHCat启动失败 用户问题 MRS的Hive服务故障,重新启动后,Master2节点上的HiveServer和WebHCat进程启动失败,Master1节点进程正常。 原因分析 登录Master2节点,查看“/var/log/Bigdata/hive/hiveserver/hive
KafkaManager的WebUI支持查看以下信息: Kafka集群列表 Kafka集群Broker节点列表和Metric监控 Kafka集群副本监控 Kafka集群Consumer监控 在KafkaManager的任何子页面单击左上角KafkaManager的Logo都可以回到KafkaMa
ALM-14036 NameNode进入安全模式 告警解释 NameNode每30秒周期性检查进程状态,NameNode进入安全模式时触发该告警。 进程状态正常后告警清除。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID 告警级别 是否可自动清除 14036 重要
可能是由于集群节点较多时,NodeManager数据增加,但是未修改实例的内存,导致ResourceManager进程的垃圾回收时间过长,影响ResourceManager进程正常提供服务,在访问YARN的原生界面时异常。 此时建议修改实例的内存。 处理步骤 登录FusionInsight
Broker的分区数量超过阈值 告警解释 系统每30秒周期性检测Kafka服务每个Broker实例的分区数量。该指标可以在Broker实例监控中查看Partition数目,当检测到某个Broker上的分区数量超过阈值时产生告警。用户可在Manager上选择“运维 > 告警 > 阈值设置>
ALM-12005 OKerberos资源异常(2.x及以前版本) 告警解释 告警模块对Manager中的Kerberos资源的状态进行监控,当Kerberos资源异常时,系统产生此告警。 当Kerberos资源恢复时,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除
告警解释 系统每30秒周期性检测每个HBase服务实例RegionServer等待同步的wal文件数量。该指标可以在RegionServer角色监控界面查看,当检测到某个RegionServer上的等待同步wal文件数量超出阈值(默认连续20次超过默认阈值128)时产生该告警。用户可通过“运维
否,执行3。 查看设置的spoolDir监控目录,是否所有的文件均已传输完毕。 是,处理完毕。 否,执行5。 spoolDir的监控目录为用户自定义配置文件properties.properties中.spoolDir的参数值。若监控目录文件已传输完毕,则该监控目录下的所有文件以.COMPLETED后缀结尾。
系统每30秒周期性检测每个HBase服务实例RegionServer等待同步的HFile文件数量。该指标可以在RegionServer角色监控界面查看,当检测到某个RegionServer上的等待同步HFile文件数量超出阈值(默认连续20次超过默认阈值128)时产生该告警。用户可通过“运维