检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置Spark作业失败时清理残留文件 本章节仅适用于MRS 3.3.1-LTS及之后版本。 配置场景 Spark作业失败时可能出现文件残留的情况,可能会长期积累导致磁盘空间告警,因此需要定时清理。 使用约束 本特性需要启动Spark JDBCServer服务,借助JDBCServ
1G,且其仅有一个block块,导致hdfs seek异常,引起splitwal失败,regionserver检测到当前这个wal日志还需要split,又会触发splitwal日志的机制进行回滚,就这样在split与split失败之间不停循环,导致无法上线该regionserver节点上的region,最
HetuEngine计算实例任务失败率超过阈值 本章节适用于MRS 3.5.0及以后版本。 告警解释 系统每30秒周期性检测HetuEngine计算实例的任务失败率,当检测到HetuEngine计算实例的任务失败率大于等于50%时产生该告警。 HetuEngine计算实例运行的任务失败率小于50%时,告警清除。
调用API接口创建集群失败 用户问题 按照参考文档创建集群并执行作业,调用创建集群接口:POST /v1.1/{project_id}/run-job-flow返回500。 问题现象 调用创建集群接口:POST /v1.1/{project_id}/run-job-flow返回500。
ALM-12035 恢复失败后数据状态未知(2.x及以前版本) 告警解释 执行恢复任务失败后,系统会自动回滚,如果回滚失败,可能会导致数据丢失等问题,如果该情况出现,则上报告警,如果下一次该任务恢复成功,则发送恢复告警。 告警属性 告警ID 告警级别 可自动清除 12035 致命
集群外节点安装客户端上传HDFS文件失败 用户问题 集群外节点安装客户端使用hdfs命令上传文件失败。 问题现象 在集群节点上安装客户端,在该客户端使用hdfs命令上传一个文件,报如下错误: 图1 上传文件报错 原因分析 从错误截图可以看到报错是no route to host,且报错信息里面有192
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 当Guardian调用IAM 接口失败时,可能会导致获取访问OBS的临时aksk失败,进而业务无法正常访问OBS。 可能原因 IAM 服务异常。 处理步骤 收集故障信息。 在FusionInsight Manager界面,选择“运维
有大量分区时执行drop partition操作失败 问题背景与现象 执行drop partitions操作,执行异常: MetaStoreClient lost connection. Attempting to reconnect. | org.apache.hadoop.hive
在spark-beeline中创建或删除表失败 用户问题 客户在spark-beeline频繁创建和删除大量用户的场景下,个别用户偶现创建/删除表失败。 问题现象 创建表过程: CREATE TABLE wlg_test001 (start_time STRING,value INT);
执行balance失败报错“Source and target differ in block-size” 问题背景与现象 执行distcp跨集群拷贝文件时,出现部分文件拷贝失败“ Source and target differ in block-size. Use -pb to
ALM-50208 清理历史元数据镜像文件失败的次数超过阈值 告警解释 系统每30秒周期性检查FE节点清理历史元数据镜像文件失败的次数,当检查到失败的次数超出阈值(默认值为1)时产生该告警。 当系统检查到FE节点清理历史元数据镜像文件失败的次数低于阈值时,告警清除。 告警属性 告警ID
执行DBService服务重启操作时,DBService服务启动失败,打印的错误日志中出现20050或20051端口被占用等信息。 原因分析 由于DBService使用的默认端口20050或20051被其他进程占用。 DBService进程没有停止成功,使用的端口未释放。 解决办法 该解决办法以2005
勾选该备NameNode实例,单击“更多 > 重启实例”,等待启动完成。 重启备NameNode业务不受影响。 启动完成后,等待1个NameNode合并元数据的周期时间,然后查看告警是否清除。 是,处理完毕。 否,执行30。 备NameNode合并新的FsImage是否失败。 在FusionInsight Manager首页,选择“集群
ALM-50209 生成元数据镜像文件失败的次数超过阈值 告警解释 系统每30秒周期性检查FE节点生成元数据镜像文件失败的次数,当检查到失败的次数超出阈值(默认值为1)时产生该告警。 当系统检查到FE节点生成元数据镜像文件失败的次数低于阈值时,告警清除。 告警属性 告警ID 告警级别
Flume客户端无法连接服务端 问题现象 安装Flume客户端并设置Avro Sink与服务端通信,发现无法连接Flume服务端。 原因分析 服务端配置错误,监测端口启动失败,例如服务端Avro Source配置了错误的IP,或者已经被占用了的端口。 查看Flume运行日志: 2016-08-31
WebUI”后的链接进入Yarn页面。 根据告警“定位信息”中的任务名找到失败任务,查找并记录失败作业的“application ID”,是否可以在Yarn页面上查看到作业日志。 图1 作业的“application ID” 是,执行4。 否,执行6。 单击失败作业application ID进入作业界面。
执行Kafka Topic设置ACL操作失败,提示“NoAuthException” 问题背景与现象 在使用Kafka客户端命令设置Topic ACL权限时,发现Topic无法被设置。 kafka-acls.sh --authorizer-properties zookeeper
丢失。 可能原因 无法连接OBS服务器。 指定的OBS文件系统不存在。 用户AK/SK信息失效。 本地OBS配置信息获取失败。 处理步骤 登录OBS服务器,检查OBS服务器是否可以正常访问。 是,执行3。 否,执行2。 联系运维人员恢复OBS,然后等任务再次启动后,检查告警是否恢复。
使用IE浏览器在Hue中执行HQL失败 问题背景与现象 使用IE浏览器在Hue中访问Hive Editor并执行所有HQL失败,界面提示“There was an error with your query.”。 原因分析 IE浏览器存在功能问题,不支持在307重定向中处理含有form
提交Storm拓扑失败,提示Failed to check principle for keytab 问题背景与现象 使用MRS流式安全集群,主要安装ZooKeeper、Storm、Kafka等。 定义拓扑访问HDFS、HBase等组件,使用客户端命令,提交Topology失败。 可能原因