检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RegionServer的Region数量超出阈值 告警解释 系统每30秒周期性检测每个HBase服务实例中每个RegionServer的Region数。该指标可以在HBase服务监控界面和RegionServer角色监控界面查看,当检测到某个RegionServer上的Regio
Kafka是一个分布式的、分区的、多副本的消息发布-订阅系统,它提供了类似于JMS的特性,但在设计上完全不同,它具有消息持久化、高吞吐、分布式、多客户端支持、实时等特性,适用于离线和在线的消息消费,如常规的消息收集、网站活性跟踪、聚合统计系统运营数据(监控数据)、日志收集等大量数据的互联网服务的数据收集场景。
FS集群更适应自身的业务情况,从而提升HDFS的写性能。 本章节适用于MRS 3.x及后续版本。 操作步骤 参数入口: 在FusionInsight Manager系统中,选择“集群 > 服务 > HDFS > 配置”,选择“全部配置”。在搜索框中输入参数名称。 表1 HDFS写性能优化配置
登录后可以查看Kafka集群监控页面、Topic监控页面、Consumer监控页面,例如: 图3 Kafka集群监控 图4 Topic监控 图5 Consumer监控 Kafka Eagle对接常见问题 问题现象: 无法获取Kafka CPU与内存监控信息日志提示。 java.io
事件全景数据监控,提供一体化监控能力。Flink可以通过AOM服务的Prometheus实例将监控指标推送至AOM服务,用户可以方便查看监控指标相关信息。 本示例提供通过FlinkResource、FlinkServer和客户端三种方式对接AOM服务,将Flink监控指标上传至AOM服务。
HDFS文件系统目录简介 HDFS是Hadoop的分布式文件系统(Hadoop Distributed File System),实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在
ALM-24001 Flume Agent异常(2.x及以前版本) 告警解释 Flume Agent监控模块对Flume Agent状态进行监控,当Flume Agent进程故障时,系统产生此告警。 当检测到Flume Agent进程故障恢复,且告警处理完成时,告警恢复。 告警属性 告警ID
ALM-12005 OKerberos资源异常 告警解释 告警模块对Manager中的Kerberos资源的状态按80秒周期进行监控,当连续6次监控到Kerberos资源异常时,系统产生此告警。 当Kerberos资源恢复时,且告警处理完成时,告警恢复。 MRS 3.3.1及之后版本,告警名称从
where条件以及索引等设置不合理问题,导致SQL查询很慢,影响数据库的整体性能。针对该场景,MRS提供了ClickHouse慢查询语句的监控功能。 正在进行的慢查询 当前还在执行没有返回结果的慢SQL语句信息可以通过该界面查询。 慢查询菜单路径 MRS 3.2.0之前版本:登录FusionInsight
有运行在Yarn上的服务资源进行管理和隔离。系统支持基于时间的静态服务资源池自动调整策略,使集群在不同的时间段自动调整参数值,从而更有效地利用资源。 系统管理员可以在Manager查看静态服务池各个服务使用资源的监控指标结果,包含监控指标如下: 服务总体CPU使用率 服务总体磁盘IO读速率
单击“管理安全组规则”,检查安全组规则配置。 检查入口方向Any协议的源地址是否为0.0.0.0/0。 如果是,修改入口方向Any协议的远端为指定IP地址。如果不是,则无需修改。 修改成功后,重启集群。 建议与总结 关闭入口方向的Any协议,或者指定入口方向的Any协议远端为指定IP。 父主题:
hdfs.dir.threshold 监控HetuEngine作业的大目录阈值,超过当前阈值就会上报事件。 单位:GB。 100 hive.job.hdfs.monitor.dir 监控Hive作业的大目录监控路径,不允许监控根目录。 如果需要监控的目录包含用户目录等可变目录使用/*/代替。
本章节适用于MRS 3.3.0及以后版本。 告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Pending Co
Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 当监控目录下的条目数超过系统阈值的90%触发该告警,但不影响对该目录继续增加条目。一旦超过系统最大阈值,继续增加条目会失败。 可能原因 监控目录的条目数超过系统阈值的90%。 处理步骤 检查系统中是否有不需要的文件。
沿用作为安全认证的概念,该系统设计上采用客户端/服务器结构与DES、AES等加密技术,并且能够进行相互认证,即客户端和服务器端均可对对方进行身份认证。可以用于防止窃听、防止replay攻击、保护数据完整性等场景,是一种应用对称密钥体制进行密钥管理的系统。 Kerberos认证协议,主要包含三个角色:
Manager关键特性:统一用户权限管理 Manager提供系统中各组件的权限集中管理功能。 Manager引入角色的概念,采用RBAC的方式对系统进行权限管理,集中呈现和管理系统中各组件零散的权限功能,并且将各个组件的权限以权限集合(即角色)的形式组织,形成统一的系统权限概念。这样一方面对普通用户屏蔽了
nTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性。 OpenTSDB使用场景有如下几个特点: 采集指标在某一时间点具有唯一值,没有复杂的结构及关系。 监控的指标具有随着时间不断变化的特点。 具有HBase的高吞吐,良好的伸缩性等特点。
本章节适用于MRS 3.3.0及以后版本。 告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的MemTable大小持续超过用户配置的阈值(metrics
OpenTSDB系统表简介 OpenTSDB是基于HBase存储时序数据的,在集群中开启OpenTSDB后,系统会在集群中创建4张HBase表。OpenTSDB系统表如所表1示。 请不要人为去修改这4张HBase表,因为这可能会导致OpenTSDB不可用。 表1 Opentsdb系统表 表名
ClickHouse系统调优 通过FusionInsight Manager查看主机上的CPU、内存、I/O和网络资源使用情况,确认这些资源是否已被充分利用,分以下几种情况: 每个节点资源占用都比较均匀 通过观察资源在每个节点都使用比较均匀,说明系统资源使用比较正常,可以先不关注