检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群外节点提交Spark作业时报错无法连接Driver 问题现象 集群外节点和集群各个节点网络已经互通,在集群外节点使用client模式提交Spark任务到Yarn上,任务失败,报错信息为无法连接Driver。 原因分析 使用client模式提交Spark任务的时候,Spark的driver进程是在
/ 否,清理磁盘空间。 是,检查结束。 检查集群是否有非标修改组件配置的操作 询问客户是否有做过相关操作。 查看该客户档案,是否有记录相关非标操作。 是,需要详细评估补丁跟非标配置的兼容性。 否,检查结束。 检查集群是否有安装紧急补丁 登录客户集群的主备节点,进入“/home/omm”目录。
否,节点间网络互通,检查结束。 检查弹性伸缩是否关闭 登录华为云管理控制台界面,选择对应集群,单击“弹性伸缩”。 查看当前集群的弹性伸缩策略是否是关闭状态。 否,请跟业务方确认是否可以关闭,如果可以请关闭弹性伸缩,否则请另择时间进行补丁升级。 是,弹性伸缩关闭,检查结束。 检查Manager是否有正在运行的任务
日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果 问题 为什么日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果,匹配'2016-06-30'时有查询结果。 如下图所示:“select count(*)from trxfintrx2012 a
Loader作业目的连接配置说明 基本介绍 Loader作业需要将数据保存到不同目的存储位置时,应该选择对应类型的目的连接,每种连接在该场景中需要配置连接的属性。 obs-connector 表1 obs-connector目的连接属性 参数 说明 桶名 保存最终数据的OBS文件系统。
登录主Hue的IP地址。 执行ping命令,查看主Hue所在主机与DBService服务所在主机的网络连接是否正常。(获取DBService服务IP地址的方式和获取主Hue IP地址的方式相同。) 是,执行13。 否,执行11。 联系网络管理员恢复网络。 等待几分钟。检查“Hue服务不可用”告警是否恢复。
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 ZooKeeper可用连接数不足,当连接率超过100%时无法处理外部连接,导致上游组件(例如Yarn、Flink等)无法正常运行。 可能原因 该节点ZooKeeper连接量过大,超过阈值。某些连接进程存在连接泄露,或配置的最大连接数不符合实际使用场景。
more 回答 客户端拼接出的HTTP的principal与Kerberos数据库中的不一致(报错1)或获取的token无法链接Presto。 在集群上执行cat /etc/hosts,将Presto coordinator的IP和hostname加入当前节点的/etc/hosts中。
否,节点间网络互通,检查结束。 检查弹性伸缩是否关闭 登录华为云管理控制台界面,选择对应集群,单击“弹性伸缩”。 查看当前集群的弹性伸缩策略是否是关闭状态。 否,请跟业务方确认是否可以关闭,如果可以请关闭弹性伸缩,否则请另择时间进行补丁升级。 是,弹性伸缩关闭,检查结束。 检查Manager是否有正在运行的任务
单击DBService服务的“操作”列的“重启”,重启该服务。 重启服务需要输入MRS Manager管理员密码并勾选“同时重启或启动相关的服务。”。 等待几分钟。检查“ALM-20002 Hue服务不可用”告警是否恢复。 是,操作结束。 否,执行9。 检查与DBService连接的网络是否正常。
是,需要详细评估补丁跟非标配置的兼容性。 否,检查结束。 检查集群是否有安装紧急补丁 登录客户集群的主备节点,并进入“/home/omm”。 查看是否存在紧急补丁的目录,比如MRSxxx或者xxxpatch。 是,需要详细评估紧急补丁的兼容性。 否,检查结束。 补丁下载地址 华东-上海
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名称 拓扑名 产生告警的Knox拓扑名称 对系统的影响 Knox高出阈值的拓扑存在连接满的可能,连接满后无法正常提供请求转发功能,影响整个MRS使用。
timeouts 客户端与服务端建立Socket连接超时时,客户端的重试次数。 取值范围:1~256 45 ipc.client.connect.timeout 客户端与服务端建立socket连接的超时时间。增大该参数值,可以增加建立连接的超时时间。 单位:毫秒。取值范围:1~3600000
连接postgresql或者gaussdb时报错 问题 连接postgresql或者gaussdb时报错。 回答 场景一:(import场景)使用sqoop import命令抽取开源Postgre到MRS HDFS或Hive等。 问题现象: 使用sqoop命令查询postgre表可以,但是执行sqoop
是,需要详细评估补丁跟非标配置的兼容性。 否,检查结束。 检查集群是否有安装紧急补丁 登录客户集群的主备节点,进入“/home/omm”目录。 查看是否存在紧急补丁的目录,比如MRSxxx或者xxxpatch。 是,需要详细评估紧急补丁的兼容性。 否,检查结束。 父主题: MRS 3
是,需要详细评估补丁跟非标配置的兼容性。 否,检查结束。 检查集群是否有安装紧急补丁 登录客户集群的主备节点,进入“/home/omm”目录。 查看是否存在紧急补丁的目录,比如MRSxxx或者xxxpatch。 是,需要详细评估紧急补丁的兼容性。 否,检查结束。 父主题: MRS 3
是,需要详细评估补丁跟非标配置的兼容性。 否,检查结束。 检查集群是否有安装紧急补丁 登录客户集群的主备节点,进入“/home/omm”目录。 查看是否存在紧急补丁的目录,比如MRSxxx或者xxxpatch。 是,需要详细评估紧急补丁的兼容性。 否,检查结束。 父主题: MRS 3
服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 根据告警的定位信息查看是哪个实例进程故障,不同的实例故障会产生不同的影响。 例如HDFS下的实例故障时会分别产生如下影响: DataNode:如果一个DataNode实例故障,客户
连接postgresql或者gaussdb时报错 问题 连接postgresql或者gaussdb时报错。 回答 场景一:(import场景)使用sqoop import命令抽取开源postgre到MRS hdfs或hive等。 问题现象: 使用sqoop命令查询postgre表可以,但是执行sqoop
MRS集群健康检查 执行MRS集群健康检查 执行MRS集群节点健康检查 查看并导出健康检查报告 父主题: MRS集群运维