检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hive任务执行中报栈内存溢出导致任务执行失败 问题背景与现象 Hive执行查询操作时报错Error running child : java.lang.StackOverflowError,具体报错信息如下: FATAL [main] org.apache.hadoop.mapred
ALM-12070 controller资源异常 告警解释 HA每80秒周期性检测Manager的controller资源。当HA连续2次检测到controller资源异常时,产生该告警。 当HA检测到controller资源正常后,告警恢复。 controller资源为单主资源
ALM-12054 证书文件失效 告警解释 系统每天二十三点检查当前系统中的证书文件是否失效(即当前集群中的证书文件是否过期,或者尚未生效)。如果证书文件失效,产生该告警。 当重新导入一个正常证书,并且状态不为失效状态,在下一个整点触发告警检测机制后,该告警恢复。 MRS 3.2
访问Kudu的WebUI 用户可以通过Kudu的WebUI,在图形化界面查看Kudu作业的相关信息。 前提条件 已安装Kudu服务的集群。 访问KuduMaster WebUI(MRS 3.x及之后版本) 登录Manager页面,请参见访问FusionInsight Manager(MRS
Spark任务由于内存不够或提交作业时未添加Jar包,作业卡住 用户问题 Spark提交作业内存不足或提交作业时未添加Jar包导致任务长时间处于pending状态或者运行中内存溢出。 问题现象 使用Spark提交作业后,长期卡住不动。反复运行作业后报错,内容如下: Exception
ALM-23003 Loader任务执行失败 告警解释 当系统检测到Loader任务执行失败时即时产生该告警。当用户手动处理执行失败的任务后该告警恢复。该告警需要手动清除。 告警属性 告警ID 告警级别 是否自动清除 23003 次要 否 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
DBServer实例一直处于Restoring状态 问题背景与现象 DBServer实例状态一直是Restoring状态,重启之后仍然不恢复。 原因分析 DBService组件会对“${BIGDATA_HOME}/MRS_XXX/install/dbservice/ha/modu
安装补丁前必读 补丁基本信息 MRS_3.1.0_TROS_Tools_patch_20240430补丁基本信息及解决问题列表请参考补丁基本信息。 安装补丁前提条件 集群有以下要求: 请保持网络畅通,请勿随意拔插网线,避免因网络问题导致升级失败。 集群中各组件服务正常、各实例正常、无故障、无退服的实例。
为什么在启动spark-beeline的命令中指定“--hivevar”选项无效 问题 为什么在启动spark-beeline的命令中指定“--hivevar”选项无效? 在MRS集群启动spark-beeline的命令中如果使用了“--hivevar <VAR_NAME>=<v
Presto查询Kudu表时系统报错找不到表 用户问题 使用Presto查询Kudu表报错。 问题现象 使用Presto查询Kudu表,报表找不到的错误: 后台报错: 原因分析 在实际的运行节点(worker实例所在节点)没有Kudu相关配置。 处理步骤 在集群Presto所有的
ALM-13001 ZooKeeper可用连接数不足(2.x及以前版本) 告警解释 系统每30秒周期性检测ZooKeeper服务连接数状态,当检测到ZooKeeper实例连接数超出阈值(最大连接数的百分之八十)时产生该告警。 连接数小于阈值时,告警恢复。 告警属性 告警ID 告警级别
安装补丁前必读 补丁基本信息 MRS 3.3.0.3.1补丁基本信息及解决问题列表请参考补丁基本信息说明。 安装补丁前提条件 集群不能存在被隔离的主机,如果存在,需要先恢复被隔离主机。 集群有以下要求: 请保持网络畅通,请勿随意拔插网线,避免因网络问题导致升级失败。 集群中各组件
安装补丁前必读 补丁基本信息 MRS 3.3.1-LTS.1.1补丁基本信息及解决问题列表请参考补丁基本信息说明。 安装补丁前提条件 集群不能存在被隔离的主机,如果存在,需要先恢复被隔离主机。 集群有以下要求: 请保持网络畅通,请勿随意拔插网线,避免因网络问题导致升级失败。 集群
YARN Command介绍 您可以使用YARN Commands对YARN集群进行一些操作,例如启动ResourceManager、提交应用程序、中止应用、查询节点状态、下载container日志等操作。 完整和详细的Command描述可以参考官网文档:http://hadoop
Presto的coordinator进程无法正常启动 用户问题 Presto的coordinator未知原因被终止,或者Presto的coordinator进程无法正常启动。 问题现象 Presto的coordinator无法正常启动,Manager页面上显示presto coo
YARN Command介绍 您可以使用YARN Commands对YARN集群进行一些操作,例如启动ResourceManager、提交应用程序、中止应用、查询节点状态、下载container日志等操作。 完整和详细的Command描述可以参考官网文档: http://hadoop
安装补丁前必读 补丁基本信息 MRS 3.1.0.0.16补丁基本信息及解决问题列表请参考补丁基本信息说明。 安装补丁前提条件 集群不能存在被隔离的主机,如果存在,需要先恢复被隔离主机。 集群有以下要求: 请保持网络畅通,请勿随意拔插网线,避免因网络问题导致升级失败。 集群中各组
初次启动JobGateway后提交作业失败,无法提交作业到Yarn上 问题 初次启动JobGateway提交作业失败,无法提交到Yarn上,无launcher-job ID生成。 查看Yarn界面,无launcher-job队列: 查看Manager界面接口返回,显示有launcher-job信息:
配置HDFS细粒度锁 操作场景 历史版本的HDFS使用了全局锁,读-写互斥,写-写互斥,即全局一把锁。但是实际上并非所有的读-写,写-写操作都会产生资源竞争。因此在该版本汇总引入了细粒度锁特性(FGL)。FGL对全局锁按照目录以及操作类型进行拆分,只有会产生资源竞争的操作才会使用同一个锁。因此极大地提升了写性能。
beeline客户端报错“Failed to execute session hooks: over max connections” 问题背景与现象 HiveServer连接的最大连接数默认为200,当超过200时,beeline会报Failed to execute session