检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
KafkaManager介绍 KafkaManager是Apache Kafka的管理工具,提供Kafka集群界面化的Metric监控和集群管理。 通过KafkaManager可以: 支持管理多个Kafka集群 支持界面检查集群状态(主题,消费者,偏移量,分区,副本,节点) 支持界面执行副本的leader选举
App应用,默认集成到Tomcat中,采用pg数据库。 基于Ext提供WEB Console,该Console仅提供对Oozie工作流的查看和监控功能。通过Oozie对外提REST方式的WS接口,Oozie client通过该接口控制(启动、停止等操作)Workflow流程,从而编排、运行Hadoop
REST API接口介绍 功能简介 Spark的REST API以JSON格式展现Web UI的一些指标,提供用户一种更简单的方法去创建新的展示和监控的工具,并且支持查询正在运行的app和已经结束的app的相关信息。开源的Spark REST接口支持对Jobs、Stages、Storag
KafkaManager的WebUI支持查看以下信息: Kafka集群列表 Kafka集群Broker节点列表和Metric监控 Kafka集群副本监控 Kafka集群Consumer监控 在KafkaManager的任何子页面单击左上角KafkaManager的Logo都可以回到KafkaMa
KafkaManager KafkaManager是Apache Kafka的管理工具,提供Kafka集群界面化的Metric监控和集群管理。 通过KafkaManager进行以下操作: 支持管理多个Kafka集群 支持界面检查集群状态(主题,消费者,偏移量,分区,副本,节点) 支持界面执行副本的leader选举
系统每30秒周期性检测每个HBase服务实例RegionServer等待同步的HFile文件数量。该指标可以在RegionServer角色监控界面查看,当检测到某个RegionServer上的等待同步HFile文件数量超出阈值(默认连续20次超过默认阈值128)时产生该告警。用户可通过“运维
对系统的影响 NodeAgent代理进程异常,无法上报心跳至平台。如果因为网络、硬件故障或ssh互信造成,则组件业务无法保证正常。 可能原因 网络断连、硬件故障或操作系统执行命令缓慢。 NodeAgent进程内存不足。 NodeAgent进程故障。 处理步骤 检查网络是否断连、硬件是否故障或者操作系统执行命令缓慢。
Broker的分区数量超过阈值 告警解释 系统每30秒周期性检测Kafka服务每个Broker实例的分区数量。该指标可以在Broker实例监控中查看Partition数目,当检测到某个Broker上的分区数量超过阈值时产生告警。用户可在Manager上选择“运维 > 告警 > 阈值设置>
ALM-12005 OKerberos资源异常(2.x及以前版本) 告警解释 告警模块对Manager中的Kerberos资源的状态进行监控,当Kerberos资源异常时,系统产生此告警。 当Kerberos资源恢复时,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除
否,执行3。 查看设置的spoolDir监控目录,是否所有的文件均已传输完毕。 是,处理完毕。 否,执行5。 spoolDir的监控目录为用户自定义配置文件properties.properties中.spoolDir的参数值。若监控目录文件已传输完毕,则该监控目录下的所有文件以.COMPLETED后缀结尾。
告警解释 系统每30秒周期性检测每个HBase服务实例RegionServer等待同步的wal文件数量。该指标可以在RegionServer角色监控界面查看,当检测到某个RegionServer上的等待同步wal文件数量超出阈值(默认连续20次超过默认阈值128)时产生该告警。用户可通过“运维
Yarn模式 Flink的JobManager与Yarn的Application Master(简称AM)是在同一个进程下。Yarn的ResourceManager对AM有监控,当AM异常时,Yarn会将AM重新启动,启动后,所有JobManager的元数据从HDFS恢复。但恢复期间,
ytab文件,导致executor进程认证失败后不断循环认证,导致了acs进程内存溢出。 处理步骤 重启acs进程。 使用root用户登录主管理节点(即MRS集群详情页面“节点管理”页签下实心五角星所在的Master节点)。 执行如下命令重启进程: su - omm ps -ef|grep
resourcemanager.scheduler.monitor.policies”中的策略,启用新的scheduler监控。设置为“true”表示启用监控,并根据scheduler的信息,启动抢占的功能。设置为“false”表示不启用。 false yarn.resourcemanager
IoTDB开源增强特性 IoTDB开源增强特性:可视化 可视化运维,包含安装、卸载、一键启动和停止、配置、客户端、监控、告警、健康检查、日志。 可视化权限管理,无需后台命令行操作,支持库表级别读写权限控制。 日志级别的可视化配置动态生效、可视化下载、可视化检索、审计日志等功能。 IoTDB开源增强特性:安全加固
配置MRS云服务授权 用户通过MapReduce服务(MRS)管理控制台与MRS集群进行交互,查看MRS集群状态监控以及进行集群相关管理操作,首次使用MRS服务时需要进行服务授权。 进行服务授权后,MRS将在统一身份认证服务(IAM)中创建名为“mrs_admin_agency”
| grep 20051查看占用20051端口的进程。 使用kill命令强制终止使用20051端口的进程。 约2分钟后,再次执行命令:netstat -nap | grep 20051,查看是否还有进程占用该端口。 确认占用该端口进程所属的服务,并修改为其他端口。 分别在“/tmp
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 IoTDBServer进程的垃圾回收(GC)时间过长,可能影响该IoTDBServer进程无法正常提供数据读写服务。 可能原因 该节点IoTDBServer实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间。 在FusionInsight
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 ConfigNode进程的垃圾回收(GC)时间过长,可能导致该ConfigNode进程数据读写性能下降。 可能原因 该节点配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查堆内存配置。 在FusionInsight Manager首页,选择“运维
HDFS执行Balance时被异常停止如何处理 问题 在HDFS客户端启动一个Balance进程,该进程被异常停止后,再次执行Balance操作,操作会失败。 回答 通常,HDFS执行Balance操作结束后,会自动释放“/system/balancer.id”文件,可再次正常执行Balance。