检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Core性能 操作场景 Spark系统在运行含shuffle过程的应用时,Executor进程除了运行task,还要负责写shuffle数据以及给其他Executor提供shuffle数据。当Executor进程任务过重,导致触发GC(Garbage Collection)而不能为其他Exe
Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。 FusionInsight Manager界面操作:登录FusionInsight Manager,选择“集群 > 服务 > Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。 在Kafka概览页面获取Controller节点信息。
ClickHouse消费Kafka数据异常 问题现象 用户在ClickHouse集群创建Kafka引擎表test.user_log_kafka消费Kafka数据,查看Kafka监控发现凌晨开始出现消息堆积,数据一直没有被消费。 原因分析 Kafka出现消息堆积,说明ClickHouse消费数据时出现异常,需要查看ClickHouse的日志。
页面上无法删除该客户端实例的问题。 解决Kafka时延监控转告警(Topic数量监控、分区数量监控、请求时延监控)的问题。 解决节点ZooKeeper连接占满导致ClickHouse无法启动的问题。 解决NodeAgent进程链接ZooKeeper,链接不释放,达到3000左右的问题。
/log4j.properties”中的日志级别,使用API V1.1接口作业提交后,状态显示为error。 原因分析 executor会监控作业日志回显,确定作业执行结果,改为error后,检测不到输出结果,因此过期后判断作业状态为异常。 处理步骤 将“/opt/client/
HBase操作请求次数指标中的多级图表统计如何理解? 问: HBase操作请求次数指标中的多级图表统计如何理解? 答: 以“RegionServer级别操作请求次数”监控项为例: 登录FusionInsight Manager,选择“集群 > 服务 > HBase > 资源”,在该界面即可查看“Region
解决磁盘IO使用率一直不变问题 MRS大数据组件 MRS Kafka支持Kafka Consumer Lag监控 MRS Kafka支持Kafka 2181/9092进程端口监控 MRS 1.8.10.2 修复问题列表: MRS Manager 支持安装补丁不自动重启服务的能力 MRS大数据组件
point:时间序列数据点,包括metric、timestamp、value和tag。表示某个metric在某个时间点的数值。 metric:指标项。例如,在系统监控中的CPU使用率、内存、IO等指标。 timestamp:UNIX时间戳(自Epoch以来的秒或毫秒),即value产生的时间。 valu
runcpserver.log 操作记录日志。 runcpserver.out.log 进程运行异常日志。 supervisor.log 进程启动日志。 supervisor.out.log 进程启动异常日志。 dbDetail.log 数据库初始化日志 initSecurityDetail
Service提升性能 操作场景 Spark系统在运行含shuffle过程的应用时,Executor进程除了运行task,还要负责写shuffle数据,给其他Executor提供shuffle数据。当Executor进程任务过重,导致GC而不能为其他Executor提供shuffle数据时,会影响任务运行。
Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 无法分配PID给新的业务进程,业务进程不可用。 可能原因 节点同时运行的进程过多,需要扩展“pid_max”值。 系统环境异常。 处理步骤 扩展pid_max值。 打开MRS集群详情页面,在
如何对重点目录进行保护,防止“insert overwrite”语句误操作导致数据丢失? 回答 当用户要对Hive重点数据库、表或目录进行监控,防止“insert overwrite”语句误操作导致数据丢失时,可以利用Hive配置中的“hive.local.dir.confblacklist”进行目录保护。
REST API接口介绍 功能简介 Spark的REST API以JSON格式展现Web UI的一些指标,提供用户一种更简单的方法去创建新的展示和监控的工具,并且支持查询正在运行的app和已经结束的app的相关信息。开源的Spark REST接口支持对Jobs、Stages、Storag
Kafka开源增强特性 Kafka开源增强特性 支持监控如下Topic级别的指标: Topic输入的字节流量 Topic输出的字节流量 Topic拒绝的字节流量 Topic每秒失败的fetch请求数 Topic每秒失败的Produce请求数 Topic每秒输入的消息条数 Topic每秒的fetch请求数
如何对重点目录进行保护,防止“insert overwrite”语句误操作导致数据丢失? 回答 当用户要对Hive重点数据库、表或目录进行监控,防止“insert overwrite”语句误操作导致数据丢失时,可以利用Hive配置中的“hive.local.dir.confblacklist”进行目录保护。
REST API接口介绍 功能简介 Spark的REST API以JSON格式展现Web UI的一些指标,提供用户一种更简单的方法去创建新的展示和监控的工具,并且支持查询正在运行的app和已经结束的app的相关信息。开源的Spark REST接口支持对Jobs、Stages、Storag
REST API接口介绍 功能简介 Spark的REST API以JSON格式展现Web UI的一些指标,提供用户一种更简单的方法去创建新的展示和监控的工具,并且支持查询正在运行的app和已经结束的app的相关信息。开源的Spark REST接口支持对Jobs、Stages、Storag
splits日志,如果该日志前后间隔时间较长,则表示访问HDFS变慢。 方法二: 通过打印HiveServer进程jstack,查看相关线程是否卡顿在访问HDFS部分,是的话则表示访问HDFS变慢。 方法三: 查看HDFS RPC监控,看是否在SQL运行变慢期间HDFS RPC异常升高,是的话则大概率是访问HDFS变慢。
ytab文件,导致executor进程认证失败后不断循环认证,导致了acs进程内存溢出。 处理步骤 重启acs进程。 使用root用户登录主管理节点(即MRS集群详情页面“节点管理”页签下实心五角星所在的Master节点)。 执行如下命令重启进程: su - omm ps -ef|grep
KafkaManager介绍 KafkaManager是Apache Kafka的管理工具,提供Kafka集群界面化的Metric监控和集群管理。 通过KafkaManager可以: 支持管理多个Kafka集群 支持界面检查集群状态(主题,消费者,偏移量,分区,副本,节点) 支持界面执行副本的leader选举