检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Write P95耗时达到用户配置的阈值(metrics.reporter.alarm.job.alarm.rocksdb
查看MRS集群基本信息 集群创建完成后,可对集群进行监控和管理。选择“现有集群”,选中一集群并单击集群名,进入集群详情页面,查看集群的基本配置信息、网络信息和部署的节点信息等。 ECS集群和BMS集群在管理控制台操作基本一致,本文档主要以ECS集群描述为例,如有操作区别则分开描述。
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的MemTable大小持续超过用户配置的阈值(metrics.reporter.alarm.job.alarm
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Get P95耗时达到用户配置的阈值(metrics.reporter.alarm.job.alarm.rocksdb
HDFS文件读写时报错“Failed to place enough replicas” 问题背景与现象 当用户在HDFS上执行写操作时,出现“Failed to place enough replicas:expected…”信息。 原因分析 DataNode的数据接收器不可用。
启用Yarn CGroups功能限制Container CPU使用率 配置场景 CGroups是一个Linux内核特性。它可以将任务集及其子集聚合或分离成具备特定行为的分层组。在YARN中,CGroups特性对容器(container)使用的资源(例如CPU使用率)进行限制。本特性大大降低了限制容器CPU使用的难度。
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Pending Compaction预估总大小持续达到用户配置的阈值,则发送告警。当作业RocksDB的Pending
ode/containerlogs/container_1478570725074_0049_01_000002/admin/stdout?start=-4096", "stderr" : "https://XTJ-224:8044/node/containerlogs/
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Level0层SST文件数持续达到用户配置的阈值(state.backend.rocksdb.level0_
Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。 FusionInsight Manager界面操作:登录FusionInsight Manager,选择“集群 > 服务 > Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。 查看SparkS
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB持续出现is-write-stopped,则发送告警。当作业RocksDB在同一个告警周期内不再或不连续出现i
启用Yarn CGroups功能限制Container CPU使用率 配置场景 CGroups是一个Linux内核特性。它可以将任务集及其子集聚合或分离成具备特定行为的分层组。在Yarn中,CGroups特性对容器(Container)使用的资源(例如CPU使用率)进行限制。本特性大大降低了限制容器CPU使用的难度。
ode/containerlogs/container_1478570725074_0049_01_000002/admin/stdout?start=-4096", "stderr" : "https://XTJ-224:8044/node/containerlogs/
ode/containerlogs/container_1478570725074_0049_01_000002/admin/stdout?start=-4096", "stderr" : "https://XTJ-224:8044/node/containerlogs/
任务完成后Container挂载的文件目录未清除 问题 使用了CGroups功能的场景下,任务完成后Container挂载的文件目录未清除。 回答 即使任务失败,Container挂载的目录也应该被清除。 上述问题是由于删除动作超时导致的。完成某些任务所使用的时间已远超过删除时间。
Manager(MRS 3.x及之后版本) 操作场景 MRS 3.x及之后版本的集群使用FusionInsight Manager对集群进行监控、配置和管理。用户在集群安装后可使用账号登录FusionInsight Manager。 当前支持以下几种方式访问FusionInsight
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB持续触发写限流,即作业写RocksDB的速率不为0时则发送告警。当作业写RocksDB的速率为0时,则告警恢复。
Storm集群信息较多超过系统默认Thrift传输大小的设置。 原因分析 查看Storm服务状态及监控指标: MRS Manager界面操作:登录MRS Manager,依次选择“服务管理 > Storm”,查看当前Storm状态,发现状态为良好,且监控指标内容显示正确。 FusionInsight Manager
足。 原因分析 在HBase长时间运行场景下,操作系统会把JVM创建的“/tmp/.java_pid*”文件定期清理。因为HBase的内存监控使用了JVM的jinfo命令,而jinfo依赖“/tmp/.java_pid*”文件,当该文件不存在时,jinfo会执行kill -3将jstack信息打印到
间不足。 原因分析 在HDFS长时间运行场景下,操作系统会把JVM创建的“/tmp/.java_pid*”文件定期清理。因为HDFS的内存监控使用了JVM的jinfo命令,而jinfo依赖“/tmp/.java_pid*”文件,当该文件不存在时,jinfo会执行kill -3将jstack信息打印到