检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
网络连接超时导致FetchFailedException 问题 在380节点的大集群上,运行29T数据量的HiBench测试套中ScalaSort测试用例,使用以下关键配置(--executor-cores 4)出现如下异常: org.apache.spark.shuffle.F
网络连接超时导致FetchFailedException 问题 在380节点的大集群上,运行29T数据量的HiBench测试套中ScalaSort测试用例,使用以下关键配置(--executor-cores 4)出现如下异常: org.apache.spark.shuffle.F
主机 > 网络读信息 > 网络读吞吐率 > 读吞吐率”修改阈值。 平滑次数为1,网络读吞吐率小于或等于阈值时,告警恢复;平滑次数大于1,网络读吞吐率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12049 严重 是 告警参数 参数名称 参数含义 ServiceName
主机 > 网络写信息 > 网络写吞吐率 > 写吞吐率”修改阈值。 平滑次数为1,网络写吞吐率小于或等于阈值时,告警恢复;平滑次数大于1,网络写吞吐率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12050 严重 是 告警参数 参数名称 参数含义 ServiceName
用于以下场景: 更改DataNode角色的存储目录,所有DataNode实例的存储目录将同步修改。 更改DataNode单个实例的存储目录,只对单个实例生效,其他节点DataNode实例存储目录不变。 对系统的影响 更改DataNode角色的存储目录需要停止并重新启动HDFS服务,集群未完全启动前无法提供服务。
用于以下场景: 更改DataNode角色的存储目录,所有DataNode实例的存储目录将同步修改。 更改DataNode单个实例的存储目录,只对单个实例生效,其他节点DataNode实例存储目录不变。 对系统的影响 更改DataNode角色的存储目录需要停止并重新启动HDFS服务,集群未完全启动前无法提供服务。
> 主机 > 网络读信息 > 网络读包率信息 > 读包错误率”修改阈值。 平滑次数为1,网络读包错误率小于或等于阈值时,告警恢复;平滑次数大于1,网络读包错误率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12047 严重 是 告警参数 参数名称
> 阈值配置 > 设备 > 主机 > 网络读信息 > 网络读包率信息 > 读包丢包率”中更改告警阈值。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行17。 检查网络是否异常。 联系系统管理员,检查网络是否存在异常。 是,恢复网络故障,执行18。 否,执行19 等待5分钟,检查该告警是否恢复。
> 主机 > 网络写信息 > 网络写包率信息 > 写包丢包率”修改阈值。 平滑次数为1,网络写包丢包率小于或等于阈值时,告警恢复;平滑次数大于1,网络写包丢包率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12046 严重 是 告警参数 参数名称
> 主机 > 网络写信息 > 网络写包率信息 > 写包错误率”修改阈值。 平滑次数为1,网络写包错误率小于或等于阈值时,告警恢复;平滑次数大于1,网络写包错误率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12048 严重 是 告警参数 参数名称
修改MRS集群节点机架信息 大型集群的所有主机通常分布在多个机架上,不同机架间的主机通过交换机进行数据通信,且同一机架上的不同机器间的网络带宽要远大于不同机架机器间的网络带宽。在这种情况下网络拓扑规划应满足以下要求: 为了提高通信速率,希望不同主机之间的通信能够尽量发生在同一个机架之内,而不是跨机架。
log-dirs”修改为新的目标目录。 例如:如果修改“yarn.nodemanager.local-dirs”参数,则将其值修改为“/srv/BigData/data2/nm/localdir”。如果修改“yarn.nodemanager.log-dirs”参数,则将其值修改为“/sr
HBase占用网络端口,连接数过大会导致其他服务不稳定 问题 HBase占用网络端口,连接数过大会导致其他服务不稳定。 回答 使用操作系统命令lsof或者netstat发现大量TCP连接处于CLOSE_WAIT状态,且连接持有者为HBase RegionServer,可能导致网络端口耗尽
打开Hue页面的时候提示“Proxy Error”。 原因分析 网络故障(如:错包率高、高延迟等)导致Httpd没有接收到报文或者接收到了错误报文。 时钟跳变或其他因素的影响导致Httpd服务与Hue服务认证关系失效。 排查思路 排查是否发生过网络故障或时钟跳变。 排查当前是否发生过或仍存在Hue服务相关告警。
影响当前已有节点的IP地址和子网。 如需对网络ACL出规则进行配置请参考如何配置网络ACL出规则?。 未关联网络ACL时切换子网 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 在“网络信息”区域的“默认生效子网”右侧单击“切换子网”。
网络问题导致运行应用程序时出现异常 问题 应用程序在Windows环境下运行时,发现连接不上MRS集群,而在Linux环境下(和安装了MRS集群的机器是同一个网络)却运行正常。 回答 由于Kerberos认证需要使用UDP协议,而防火墙做了特殊处理关掉了需要使用的UDP端口,导致
修改MRS集群NTP服务器 如果未配置NTP服务器或已配置的NTP不再使用,管理员可以为MRS集群重新指定或者更换新的NTP服务器,使集群从新的NTP时钟源同步时间。 本章节仅适用于MRS 3.x及以后版本。 修改MRS集群NTP服务器前提条件 请准备新的NTP服务器并获取IP地
持一致。 更改Broker角色的存储目录,所有Broker实例的存储目录将同步修改。 更改Broker单个实例的存储目录,只对单个实例生效,其他节点Broker实例存储目录不变。 对系统的影响 更改Broker角色的存储目录需要重新启动服务,服务重启时无法访问。 更改Broker
MRS集群节点使用pip3安装Python时提示网络不可达 问题现象 执行pip3 install安装Python时报错网络不可达。 具体如下图所示: 原因分析 用户未给Master节点绑定弹性公网IP,造成报错的发生。 处理步骤 登录MRS服务管理控制台。 选择“现有集群”,选
怎么通过客户端设置Map/Reduce内存? 问题现象 客户端怎么设置Map/Reduce内存? 处理步骤 Hive在执行SQL语句前,可以通过set命令来设置Map/Reduce相关客户端参数。 以下为与Map/Reduce内存相关的参数: set mapreduce.map.memory