检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-38008 Kafka数据目录状态异常 告警解释 系统每60秒周期性检测Kafka数据目录状态,当检测到某数据目录状态异常时产生该告警。 平滑次数为1,当数据目录状态恢复正常后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 38008 重要 是 告警参数 参数名称
ALM-45182 OBS操作被流控次数高于阈值 告警解释 系统每30秒周期性检测OBS操作被流控次数是否高于阈值,当检测到大于所设置阈值时就会产生该告警 。 当OBS操作被流控次数小于阈值时,该告警会自动清除。 告警属性 告警ID 告警级别 是否可自动清除 45182 次要 是
在客户端执行如下命令: source /opt/client/bigdata_env kinit 组件用户 说明:“/opt/client”需要改为实际客户端的安装路径。 执行如下命令,让主NameNode进入安全模式,其中linux22换为主NameNode的主机名。 hdfs dfsadmin -fs
使用Spark 运行Spark应用时修改split值报错 提交Spark任务时提示参数格式错误 磁盘容量不足导致Spark、Hive和Yarn服务不可用 引入jar包不正确导致Spark任务无法运行 Spark任务由于内存不够或提交作业时未添加Jar包,作业卡住 提交Spark任
ALM-14031 DataNode进程状态异常 告警解释 DataNode每20秒周期性检查进程状态,当进程状态异常,且长时间未转换为正常状态时触发该告警。 进程状态正常后告警清除。 告警属性 告警ID 告警级别 是否可自动清除 14031 重要 是 告警参数 参数名称 参数含义
ALM-29010 Impalad 正在提交的查询总数超过阈值 告警解释 以60s为周期检测该Impalad节点正在提交的查询总数,当检测到的数量超过自定义阈值(默认150)时,系统产生此告警。 当系统检测到的数量减少到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否自动清除
ALM-45177 OBS数据读操作接口调用成功率低于阈值 告警解释 系统每30秒周期性检测OBS数据读操作接口调用成功率是否小于阈值,当检测到小于所设置阈值时就会产生该告警 。 当OBS数据读操作接口调用成功率大于阈值时,该告警会自动清除。 告警属性 告警ID 告警级别 是否自动清除
ALM-45181 OBS write接口调用失败数高于阈值 告警解释 系统每30秒周期性检测OBS write接口调用失败数是否高于阈值,当检测到大于所设置阈值时就会产生该告警 。 当OBS write接口调用失败数小于阈值时,该告警会自动清除。 告警属性 告警ID 告警级别 是否自动清除
ALM-18025 Yarn被终止的任务数超过阈值 告警解释 告警模块按60秒周期检测Yarn root队列上被终止的应用的数量,当root队列上该监控周期内新增的被终止的应用的数量超过50,且连续发生3次以上时,触发该告警。 告警属性 告警ID 告警级别 是否自动清除 18025
ALM-24012 Flume证书文件已过期 本章节适用于MRS 3.2.0及以后版本。 告警解释 Flume每隔一个小时,检查当前系统中的证书文件是否已过期。如果服务端证书已过期,产生该告警。服务的证书文件恢复到有效期内,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 24012
ALM-18024 Yarn任务挂起内存量超阈值 告警解释 告警模块按60秒周期检测Yarn当前挂起的内存量大小,当Yarn上面挂起的内存量大小超过阈值时,触发该告警。挂起的内存量表示当前所有提交的Yarn应用还没有满足的内存量总和。 告警属性 告警ID 告警级别 是否自动清除 18024
ALM-14033 ZKFC进程状态异常 告警解释 ZKFC每20秒周期性检查进程状态,当进程状态异常,且长时间未转换为正常状态时触发该告警。 进程状态正常后告警清除。 告警属性 告警ID 告警级别 是否可自动清除 14033 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
数组函数和运算符 下标操作符:[] 描述:下标操作符用于访问数组中的元素,并从1开始建立索引。 select myarr[5] from (values array [1,4,6,78,8,9],array[2,4,6,8,10,12]) as t(myarr); _col0
MRS集群节点规格升级异常 问题现象 升级节点规格可能存在规格升级成功后组件启动失败或组件异常导致节点升级后出现异常的情况,现象如下: 升级失败的节点规格已经升级成功。 失败任务管理中有新增的升级规格失败任务。 若IAM用户已同步,可在组件管理观察到存在异常角色。 若未同步,可在
集群出现ALM-14012 Journalnode数据不同步告警 问题背景与现象 MRS集群出现ALM-14012 Journalnode数据不同步告警。 原因分析 登录告警节点,查找日志路径“/var/log/Bigdata/hdfs/nn”下Journalnode实例的startDetail
查看Spark应用调测结果 操作场景 Spark应用程序运行完成后,您可以查看运行结果数据,也可以通过Spark WebUI查看应用程序运行情况。 操作步骤 查看Spark应用运行结果数据。 结果数据存储路径和格式已经与Spark应用程序指定,您可以通过指定文件中获取到运行结果数据。
ALM-45654 Flink HA证书文件即将过期 本章节适用于MRS 3.3.0及以后版本。 告警解释 Flink首次或者每天01:00:00开始健康检查时,检查当前系统中的HA证书文件是否即将过期。如果剩余有效期小于或等于30天,产生该告警。剩余有效期大于30天,告警恢复。
ALM-14032 JournalNode进程状态异常 告警解释 JournalNode每20秒周期性检查进程状态,当进程状态异常,且长时间未转换为正常状态时触发该告警。 进程状态正常后告警清除。 告警属性 告警ID 告警级别 是否可自动清除 14032 重要 是 告警参数 参数名称
文件块过大导致HBase数据导入失败 问题现象 导入数据到hbase报错:NotServingRegionException。 原因分析 当一个block size大于2G时,hdfs在seek的时候会出现读取异常,持续频繁写入regionserver时出现了full gc,且时
ALM-12206 密码已经过期 告警解释 系统每天凌晨1点开始检测当前系统中用户密码是否已经过期,如果用户密码已经过期则发送告警。 当系统中用户密码在有效期内,告警恢复。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID 告警级别 是否可自动清除 12206 重要