检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
YARN REST API接口介绍 功能简介 通过HTTP REST API来查看更多Yarn任务的信息。目前Yarn的REST接口只能进行一些资源或者任务的查询。完整和详细的接口请直接参考官网上的描述以了解其使用:http://hadoop.apache.org/docs/r3
HDFS Java API接口介绍 HDFS完整和详细的接口可以直接参考官方网站上的描述:http://hadoop.apache.org/docs/r3.1.1/api/index.html。 HDFS常用接口 HDFS常用的Java类有以下几个: FileSystem:是客户端应用的核心类。常用接口参见表1。
HDFS性能差导致HBase服务不可用告警 问题现象 HBase组件不断上报服务不可用告警。 原因分析 该问题多半为HDFS性能较慢,导致健康检查超时,从而导致监控告警。可通过以下方式判断: 首先查看HMaster日志(“/var/log/Bigdata/hbase/hm/hbase-omm-xxx
Hive任务执行中报栈内存溢出导致任务执行失败 问题背景与现象 Hive执行查询操作时报错Error running child : java.lang.StackOverflowError,具体报错信息如下: FATAL [main] org.apache.hadoop.mapred
CTBase对接Ranger权限插件,提示权限不足 问题 CTBase访问启用Ranger插件的HBase服务时,如果创建聚簇表,提示权限不足。 报错信息如下: ERROR: Create ClusterTable failed. Error: org.apache.hadoop
ALM-45430 ClickHouse扩容节点上同步权限元数据失败 本章节仅适用于MRS 3.1.2及之后版本。 告警解释 ClickHouse扩容时同步用户和权限信息失败时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 45430 重要 否 告警参数 参数名称 参数含义
ALM-18003 NodeManager不健康(2.x及以前版本) 告警解释 系统每30秒周期性检测异常NodeManager节点数,并把异常节点数和阈值相比较。“非健康的节点数”指标默认提供一个阈值范围。当检测到“非健康的节点数”的值超出阈值范围时产生该告警。 当“非健康的节
CTBase对接Ranger权限插件提示权限不足 问题 在MRS集群中,CTBase访问启用Ranger插件的HBase服务时,如果创建聚簇表,提示权限不足。 报错信息如下: ERROR: Create ClusterTable failed. Error: org.apache
YARN REST API接口介绍 功能简介 通过HTTP REST API来查看更多Yarn任务的信息。目前Yarn的REST接口只能进行一些资源或者任务的查询。完整和详细的接口请直接参考官网上的描述以了解其使用: http://hadoop.apache.org/docs/r3
HDFS Java API接口介绍 HDFS完整和详细的接口可以直接参考官方网站上的描述:http://hadoop.apache.org/docs/r2.7.2/api/index.html。 HDFS常用接口 HDFS常用的Java类有以下几个。 FileSystem:是客户端应用的核心类。常用接口参见表1。
ZooKeeper上数据错乱导致ClickHouse启动失败问题 问题现象 ClickHouse集群中某实例节点启动失败,该实例节点启动日志中有如下类似报错信息: 2021.03.15 21:01:19.816593 [ 11111 ] {} <Error> Application:
HDFS Java API接口介绍 HDFS完整和详细的接口可以直接参考官方网站上的描述:http://hadoop.apache.org/docs/r3.1.1/api/index.html。 HDFS常用接口 HDFS常用的Java类有以下几个: FileSystem:是客户端应用的核心类。常用接口参见表1。
ALM-50407 JobServer查询作业接口失败率超过阈值 本章节仅适用于MRS 3.5.0及之后版本。 告警解释 系统每30秒周期性检测JobServer中查询失败的接口占比,当失败率超出阈值(默认值为80%)时,触发该告警。 当失败率低于阈值时,告警恢复。 告警属性 告警ID
ALM-50406 JobServer提交作业接口失败率超过阈值 本章节仅适用于MRS 3.5.0及之后版本。 告警解释 系统每30秒周期性检测JobServer中提交失败的接口占比,当失败率超出阈值(默认值为80%)时,触发该告警。 当失败率低于阈值时,告警恢复。 告警属性 告警ID
ALM-50408 JobServer终止作业接口失败率超过阈值 本章节仅适用于MRS 3.5.0及之后版本。 告警解释 系统每30秒周期性检测JobServer中终止失败的接口占比,当失败率超出阈值(默认值为80%)时,触发该告警。 当失败率低于阈值时,告警恢复。 告警属性 告警ID
ALM-12018 内存使用率超过阈值 告警解释 系统每30秒周期性检测内存使用率,并把实际内存使用率和阈值相比较。内存使用率默认提供一个阈值范围。当检测到内存使用率超出阈值范围时产生该告警。 平滑次数为1,主机内存使用率小于或等于阈值时,告警恢复;平滑次数大于1,主机内存使用率小于或等于阈值的90%时,告警恢复。
ALM-12017 磁盘容量不足 告警解释 系统每30秒周期性检测磁盘使用率,并把磁盘使用率和阈值相比较。磁盘使用率有一个默认阈值,当检测到磁盘使用率超过阈值时产生该告警。 平滑次数为1,主机磁盘某一分区使用率小于或等于阈值时,告警恢复;平滑次数大于1,主机磁盘某一分区使用率小于或等于阈值的90%时,告警恢复。
ALM-38002 Kafka堆内存使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测Kafka服务堆内存使用状态,当检测到Kafka实例堆内存使用率超出阈值(最大内存的80%)时产生该告警。 堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID 告警级别 可自动清除
ALM-16046 Hive数据仓库权限被修改 告警解释 系统每60秒周期性检测Hive数据仓库的权限是否被修改,如果修改发出告警。 告警属性 告警ID 告警级别 是否自动清除 16046 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。
ALM-18002 NodeManager心跳丢失(2.x及以前版本) 告警解释 系统每30秒周期性检测丢失的NodeManager节点数,并把丢失的节点数和阈值相比较。“丢失的节点数”指标默认提供一个阈值范围。当检测到“丢失的节点数”的值超出阈值范围时产生该告警。 当“丢失的节