检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ve已经使用HDFS的空间大小为D。调整策略为A x B x C > D ,HDFS总存储空间可在HDFS监控界面查看,Hive已经使用HDFS的空间大小可在Hive的监控界面查看。 检查该告警是否恢复。 是,操作结束。 否,执行2.a 对系统进行扩容。 添加节点。 检查该告警是否恢复。
%”),如果超过该阈值,则触发告警。 当发出告警的目录的子目录/文件数所占百分比低于阈值后,该告警将自动恢复。当监控开关关闭,所有目录对应的该告警都将自动恢复。当从监控列表中移除指定目录时,该目录对应的告警也会自动恢复。 HDFS目录的子文件/目录最大个数由参数“dfs.namenode
策略,使集群在不同的时间段自动调整参数值,从而更有效地利用资源。 系统管理员可以在Manager查看静态服务池各个服务使用资源的监控指标结果,包含监控指标如下: 服务总体CPU使用率 服务总体磁盘IO读速率 服务总体磁盘IO写速率 服务总体内存使用大小 查看静态资源(3.x及之后版本)
g4j的日志滚动功能,将日志输出到stdout文件下;而Container同时也会监控这个文件,导致此文件被两个进程同时监控。当其中一个进程按照配置滚动的时候,删除了最早的日志文件,但是另一个进程依旧占用此文件句柄,从而产生了deleted状态的文件。 处理步骤 将Spark的e
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务失败:主机PID使用率过高时,无法分配PID给新的业务进程,可能会导致作业运行失败。 可能原因 节点同时运行的进程过多,需要扩展pid_max值。 处理步骤 扩展pid_max值。 打开FusionInsight Manag
ALM-24005 Flume传输数据异常 告警解释 告警模块对Flume Channel的容量状态进行监控,当Channel满的时长超过阈值,或Source向Channel放数据失败的次数超过阈值后,系统即时上报告警。 默认阈值为10,用户可通过conf目录下的配置文件properties
系统每30秒周期性检查SlapdServer节点的进程连接数,并把实际进程连接数和阈值相比较,当进程连接数连续多次(默认值为5)超过设定阈值(默认值为1000)时,系统将产生此告警。 平滑次数可配置,当平滑次数为1,进程连接数小于或等于阈值时,该告警恢复。当平滑次数大于1,进程连接数小于或等于阈值的90%时,该告警恢复。
修改hdfs-site.xml文件后未重启NameNode进程却产生了告警如何处理? 答: 用户修改了比如dfs.namenode.checkpoint.period参数后,如果不重启NameNode进程,可能会产生误报的告警,需尽快重启NameNode进程。 父主题: 作业管理类
重启服务 提示 12025 Manager 重启实例 提示 12026 Manager Manager主备倒换 次要 12065 Manager 进程重新启动 次要 12070 Manager 作业执行成功 提示 12071 Manager 作业执行失败 提示 12072 Manager
fka侧问题。 通过Manager页面查看Kafka服务状态及监控指标。 MRS Manager界面操作:登录MRS Manager,依次选择“服务管理 > Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。 FusionInsight Manager
Supervisor进程运行日志。 supervisor/supervisor-<PID>-gc.log Supervisor进程的GC日志。 ui/access.log UI用户访问日志。 ui/metric.log UI监控统计的日志。 ui/ui-<PID>-gc.log UI进程的GC日志。
在某些场景下,当任务已经启动后,用户想要修改日志级别以定位问题或者查看想要的信息。 用户可以在进程启动前,在进程的JVM参数中增加参数“-Dlog4j.configuration.watch=true”来打开动态设置日志级别的功能。进程启动后,就可以通过修改进程对应的log4j配置文件,来调整日志打印级别。 目前支持
本章节仅适用于MRS 3.3.1及之后版本。 告警解释 JDBCServer进程进行请求转发的时候,当触发Session资源不足流控后,会产生该告警。此时说明发送到JDBCServer进程的请求过多,超出JDBCServer进程目前的承受范围。 告警属性 告警ID 告警级别 是否可自动清除 43028
在某些场景下,当任务已经启动后,用户想要修改日志级别以定位问题或者查看想要的信息。 用户可以在进程启动前,在进程的JVM参数中增加参数“-Dlog4j.configuration.watch=true”来打开动态设置日志级别的功能。进程启动后,就可以通过修改进程对应的log4j配置文件,来调整日志打印级别。 目前支持
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Pending Compaction请求数持续达到flush/compaction线程数的n倍,则发送告警。当作业RocksDB的Pending
操作系统健康状态监控 周期采集操作系统硬件资源使用率数据,包括CPU、内存、硬盘、网络等资源的使用率状态。 进程健康状态监控 MRS提供业务实例的状态以及业务实例进程的健康指标的检查,能够让用户第一时间感知进程健康状态。 硬盘故障的自动处理 MRS对开源版本进行了增强,可以监控各节点上的
LISTEN查询tomcat的进程号。 执行kill -9 {pid},其中{pid}为上一步中查询到的进程号。 等待进程自动重启,可以执行netstat -anp |grep 28443 |grep LISTEN查看进程是否启动,如果可以查到结果说明进程启动成功。 为各组件添加或修
ALM-45592 IoTDBServer RPC执行时长超过阈值 告警解释 当60s周期内检测到IoTDBServer进程RPC超出阈值时产生该告警。当IoTDBServer进程RPC低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 45592 重要 是 告警参数 参数名称
LISTEN查询tomcat的进程号。 执行kill -9 {pid},其中{pid}为上一步中查询到的进程号。 等待进程自动重启,可以执行netstat -anp |grep 28443 |grep LISTEN查看进程是否启动,如果可以查到结果说明进程启动成功。 为各组件添加或修
解决Spark的JDBCServer进程注入进程Z状态故障、故障注入期间进程不自愈、无进程异常告警、Spark任务已提交失败、无Spark应用不可用告警的问题 解决Spark的JDBC进程kill后,7min自愈,且无告警上报,存在可靠性风险的问题 解决Spark的JDBCServer进程挂起,进程不自愈,