检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败 问题 为什么将非ViewFS文件系统配置为ViewFS时MR作业运行失败? 回答 通过集群将非ViewFS文件系统配置为ViewFS时,ViewFS中的文件夹的用户权限与默认NameService中
为什么将非ViewFS文件系统配置为ViewFS时MapReduce作业运行失败 问题 为什么将非ViewFS文件系统配置为ViewFS时MR作业运行失败? 回答 通过集群将非ViewFS文件系统配置为ViewFS时,ViewFS中的文件夹的用户权限与默认NameService中
ALM-19022 HBase热点检测功能不可用 告警解释 HBase服务安装MetricController实例时,告警模块按120秒周期检测HBase MetricController主实例健康状态。当HBase MetricController主实例不存在或不可用时,热点检测功能不可用,上报该告警。
产生告警的主机名。 对系统的影响 diskmgt磁盘监控服务不可用时,影响系统对磁盘信息和分区信息的监控,如设备分区文件系统只读检测、设备分区丢失检测、磁盘分区扩容检测等。 可能原因 diskmgt磁盘监控服务不存在。 diskmgt磁盘监控服务未启动。 处理步骤 检查diskmgt磁盘监控服务是否存在。
检测Yarn内存使用情况 配置场景 针对所提交应用的内存使用无法预估的情况,可以通过修改服务端的配置项控制是否对内存使用进行检测。 若不检测内存使用,Container会占用内存直到内存溢出;若检测内存使用,当内存使用超过配置的内存大小时,相应的Container会被kill掉。
ALM-19012 HBase系统表目录或文件丢失 告警解释 系统按120秒周期性检测HBase在HDFS上的如下目录和文件是否存在,当检测到文件或者目录不存在时,上报该告警。当文件或目录都恢复后,告警恢复。 检查内容: 命名空间hbase在HDFS上的目录。 hbase.version文件。
ALM-17010 Oozie连接HDFS状态异常 告警解释 Oozie会依赖HDFS,提交任务后系统会检测HDFS连接状态,当检测到与HDFS的连接状态连续3次异常时,产生该告警。 当检测到Oozie连接HDFS状态正常时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 17010
检测Yarn内存使用情况 配置场景 针对所提交应用的内存使用无法预估的情况,可以通过修改服务端的配置项控制是否对内存使用进行检测。 如果不检测内存使用,Container会占用内存直到内存溢出;如果检测内存使用,当内存使用超过配置的内存大小时,相应的Container会被kill掉。
Oozie连接DBService状态异常 告警解释 Oozie会依赖DBService,提交任务后系统会检测DBService连接状态,当检测到与DBService的连接状态连续10次异常时,产生该告警。 当检测到Oozie连接DBService状态正常时,告警清除。 告警属性 告警ID 告警级别
ClickHouse获取临时委托凭据失败 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 系统配置冷热分离功能和委托后,每隔1分钟检测一次临时委托凭据的更新状态,当连续3次检测到获取临时委托凭据失败时,系统产生告警。 当检测到系统获取临时委托凭据成功时,告警自动消除。 告警属性 告警ID 告警级别
ClickHouse访问OBS失败 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 系统配置冷热分离功能后,每隔1分钟检测一次当前访问OBS的状态,当连续3次检测到访问OBS失败时,系统产生告警。 当检测到系统访问OBS成功时,告警自动消除。 告警属性 告警ID 告警级别 是否可自动清除
MRS提供标准的云上弹性大数据集群,目前可安装部署包括Hadoop、Spark等大数据组件。当前标准的云上大数据集群不能满足所有用户需求,例如如下几种场景: 通用的操作系统配置不能满足实际数据处理需求,例如需调大系统最大连接数。 需要安装自身业务所需的软件工具或运行环境,例如需安装Gradle、业务需要依赖R语言包。
ALM-45452 ClickHouse本地磁盘剩余空间低于冷热分离策略配置阈值 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 系统配置冷热分离功能后,每隔5分钟检测一次当前系统冷热分离策略中配置的本地磁盘的剩余空间,如果低于冷热分离策略中配置的move_factor阈值,系统产生告警。
x及以前版本) 告警解释 系统每30秒周期性检查YARN服务处于挂起状态(Pending)的任务数量,并把挂起状态的任务数量和阈值进行比较。当检测到挂起状态的任务数超过阈值时产生该告警。 用户可通过在MRS Manager中的“系统设置 > 阈值配置 > 服务 > Yarn > 队列root正在挂起的任务
ZooKeeper连接断开 告警解释 系统每分钟检测一次ClickHouse和ZooKeeper的连接情况,如果检测连接失败,系统产生告警(告警原因为ZooKeeper连接异常)。如果连续3次检测连接失败,系统产生告警(告警原因为ZooKeeper连接断开)。 当系统检测到有一次连接成功,告警自动清除。
x及以前版本) 告警解释 系统每30秒周期性检测Hive数据仓库空间使用率,该指标可在Hive服务监控界面查看,指标名称为“Hive已经使用的HDFS空间占可使用空间的百分比”。Hive数据仓库空间使用率指标默认提供一个阈值范围(85%),当检测到Hive数据仓库空间使用率超过阈值范围时产生该告警。
ALM-17011 Oozie连接Yarn状态异常 告警解释 Oozie会依赖Yarn,提交任务后系统会检测Yarn连接状态,当检测到与Yarn的连接状态连续5次异常时,产生该告警。 当检测到Oozie连接Yarn状态正常时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 17011
Hive数据仓库空间使用率超过阈值 告警解释 系统每30秒周期性检测Hive数据仓库空间使用率,该指标可在Hive服务监控界面查看,指标名称为“Hive已经使用的HDFS空间占可使用空间的百分比”。Hive数据仓库空间使用率指标默认提供一个阈值范围(85%),当检测到Hive数据仓库空间使用率超过阈值范围时产生该告警。
JobHistory GC 时间超出阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测JobHistory进程的GC时间,当检测到JobHistory进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。 用户可通过“系统设置 > 阈值配置 > 服务 > Spark
ALM-12104 knox资源异常 告警解释 HA每70秒周期性检测Manager的knox资源。当HA连续3次检测到knox资源异常时,产生该告警。 当HA检测到knox资源正常后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12104 重要 是 告警参数 参数名称