检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
策略,使集群在不同的时间段自动调整参数值,从而更有效地利用资源。 系统管理员可以在Manager查看静态服务池各个服务使用资源的监控指标结果,包含监控指标如下: 服务总体CPU使用率 服务总体磁盘IO读速率 服务总体磁盘IO写速率 服务总体内存使用大小 查看静态资源(3.x及之后版本)
系统每30秒周期性检测每个HBase服务实例中每个RegionServer的Region数。该指标可以在HBase服务监控界面和RegionServer角色监控界面查看,当检测到某个RegionServer上的Region数超出阈值(默认连续20次超过默认阈值2000)时产生该告警。用户可通过“运维
Manager(MRS 3.x及之后版本) 操作场景 MRS 3.x及之后版本的集群使用FusionInsight Manager对集群进行监控、配置和管理。用户在集群安装后可使用账号登录FusionInsight Manager。 当前支持以下几种方式访问FusionInsight
登录后可以查看Kafka集群监控页面、Topic监控页面、Consumer监控页面,例如: 图3 Kafka集群监控 图4 Topic监控 图5 Consumer监控 Kafka Eagle对接常见问题 问题现象: 无法获取Kafka CPU与内存监控信息日志提示。 java.io
ALM-24001 Flume Agent异常(2.x及以前版本) 告警解释 Flume Agent监控模块对Flume Agent状态进行监控,当Flume Agent进程故障时,系统产生此告警。 当检测到Flume Agent进程故障恢复,且告警处理完成时,告警恢复。 告警属性
创建Doris权限角色 Doris权限管理系统实现了行级别细粒度的权限控制,和基于角色的权限访问控制。 仅MRS 3.3.0及之后版本开启Kerberos认证的集群支持通过FusionInsight Manager创建角色进行赋权,如果集群为MRS 3.3.0之前的版本,无论是否
ALM-12005 OKerberos资源异常 告警解释 告警模块对Manager中的Kerberos资源的状态按80秒周期进行监控,当连续6次监控到Kerberos资源异常时,系统产生此告警。 当Kerberos资源恢复时,且告警处理完成时,告警恢复。 MRS 3.3.1及之后
使用Tableau访问MRS HetuEngine 应用场景 Tableau是一款商业智能工具软件,将可信的数据转化为可行的见解。借助直观的人工智能分析平台,帮助人们查看和理解数据并根据数据采取行动,让每一次决策都更加明智。 本章节以Tableau Desktop 2022.2版
nTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性。 OpenTSDB使用场景有如下几个特点: 采集指标在某一时间点具有唯一值,没有复杂的结构及关系。 监控的指标具有随着时间不断变化的特点。 具有HBase的高吞吐,良好的伸缩性等特点。
配置源数据心跳表实现数据判齐功能 操作场景 心跳和数据判齐功能用于统计CDL同步任务的全链路信息, 包括从数据库管理系统RDBMS到Kafka的数据耗时、从Kafka消费数据写入到Hudi的数据耗时和数据条数等一系列信息,并将其写入到特定的Topic(cdl_snapshot_t
查看MRS集群基本信息 集群创建完成后,可对集群进行监控和管理。选择“现有集群”,选中一集群并单击集群名,进入集群详情页面,查看集群的基本配置信息、网络信息和部署的节点信息等。 ECS集群和BMS集群在管理控制台操作基本一致,本文档主要以ECS集群描述为例,如有操作区别则分开描述。
%”),如果超过该阈值,则触发告警。 当发出告警的目录的子目录/文件数所占百分比低于阈值后,该告警将自动恢复。当监控开关关闭,所有目录对应的该告警都将自动恢复。当从监控列表中移除指定目录时,该目录对应的告警也会自动恢复。 HDFS目录的子文件/目录最大个数由参数“dfs.namenode
身份认证与访问控制 身份认证 MRS支持安全协议Kerberos,使用LDAP作为账户管理系统,并通过Kerberos服务对账户信息进行安全认证。 Kerberos安全认证原理和认证机制具体介绍请参见安全认证原理和认证机制。 访问控制 MRS提供两种访问控制权限模型:基于角色的权
产生告警的集群或者系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 对系统的影响 监控指标上报CES失败,在CES中无法看到MRS云服务的监控指标。 可能原因 权限问题请求CES接口失败。 网络问题上报CES数据失败。 服务内部问题导致上报CES数据失败。
hdfs.dir.threshold 监控HetuEngine作业的大目录阈值,超过当前阈值就会上报事件。 单位:GB。 100 hive.job.hdfs.monitor.dir 监控Hive作业的大目录监控路径,不允许监控根目录。 如果需要监控的目录包含用户目录等可变目录使用/*/代替。
500 轮询监控目录下新文件时的时延。单位:毫秒。 recursiveDirectorySearch false 是否监控配置的目录下子目录中的新文件。 consumeOrder oldest 监控目录下文件的消耗次序。如果配置为oldest或者youngest,会根据监控目录下文件
开源高吞吐量,可扩展性的消息系统。广泛用于日志收集、监控数据聚合等场景,实现高效的流式数据采集,实时数据处理存储等。 Kafka、Storm ClickHouse集群 ClickHouse是一个用于联机分析的列式数据库管理系统,具有压缩率和极速查询性能。被广泛的应用于互联网广告、
集群时的默认安全组规则等。 不负责对用户在MRS集群环境上自建安装的非MRS提供的第三方组件的问题排查和解决。 智能数据专家服务 如需获得更多支持,可咨询购买对应的智能数据专家服务:https://www.huaweicloud.com/service/intelligencedata
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Pending Compaction请求数持续达到flush/compaction线程数的n倍,则发送告警。当作业RocksDB的Pending
reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB持续出现is-write-stopped,则发送告警。当作业RocksDB在同一个告警周期内不再或不连续出现i