检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
网络问题导致运行应用程序时出现异常 问题 应用程序在Windows环境下运行时,发现连接不上MRS集群,而在Linux环境下(和安装了MRS集群的机器是同一个网络)却运行正常。 回答 由于Kerberos认证需要使用UDP协议,而防火墙做了特殊处理关掉了需要使用的UDP端口,导致
HDFS网络不稳定场景调优 配置场景 在网络不稳定的情况下,调整如下参数,降低客户端应用运行异常概率。 配置描述 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。 表1 参数说明 参数 描述 默认值 ha.health-monitor.rpc-timeout
网络连接超时导致FetchFailedException 问题 在380节点的大集群上,运行29T数据量的HiBench测试套中ScalaSort测试用例,使用以下关键配置(--executor-cores 4)出现如下异常: org.apache.spark.shuffle.F
HDFS网络不稳定场景调优 配置场景 在网络不稳定的情况下,调整如下参数,降低客户端应用运行异常概率。 配置描述 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。 表1 参数说明 参数 描述 默认值 ha.health-monitor.rpc-timeout
网络连接超时导致FetchFailedException 问题 在380节点的大集群上,运行29T数据量的HiBench测试套中ScalaSort测试用例,使用以下关键配置(--executor-cores 4)出现如下异常: org.apache.spark.shuffle.F
如何解除网络ACL的关联子网 操作场景 用户可根据自身网络需求,解除网络ACL与子网的关联关系。 操作步骤 登录管理控制台。 在服务列表中单击“网络 > 虚拟私有云”。 在左侧导航栏单击“访问控制 > 网络ACL”。 在右侧在“网络ACL”列表区域,选择网络ACL的名称列,单击您需要修改的网络ACL名称进入详情页面。
值。如图1所示。 图1 设置告警阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行8。 检查网络是否异常。 联系网络管理员,检查网络是否存在异常。 是,恢复网络故障,执行9。 否,执行10。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行10。 收集故障信息。
ALM-12050 网络写吞吐率超过阈值 告警解释 系统每30秒周期性检测网络写吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络写吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 > 网络写信息
ALM-12089 节点间网络互通异常 告警解释 告警模块按10s周期检测集群间节点的网络健康状态。当检测到某两台节点之间网络不可达或者网络状态不稳定,产生该告警。 当网络恢复正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12089 重要 是 告警参数 参数名称 参数含义
ALM-12049 网络读吞吐率超过阈值 告警解释 系统每30秒周期性检测网络读吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络读吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 > 网络读信息
如图1所示: 图1 设置告警阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行4。 检查网络是否异常。 联系网络管理员,检查网络是否存在异常。 是,恢复网络故障,执行5。 否,执行6。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行6。 收集故障信息。
如图1所示: 图1 设置告警阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行4。 检查网络是否异常。 联系网络管理员,检查网络是否存在异常。 是,恢复网络故障,执行5。 否,执行6。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行6。 收集故障信息。
如图1所示: 图1 设置告警阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行4。 检查网络是否异常。 联系网络管理员,检查网络是否存在异常。 是,恢复网络故障,执行5。 否,执行6。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行6。 收集故障信息。
网络问题导致运行应用程序时出现异常 问题 应用程序在Windows环境下运行时,发现连接不上MRS集群,而在Linux环境下(和安装了MRS集群的机器是同一个网络)却运行正常。 回答 由于Kerberos认证需要使用UDP协议,而防火墙做了特殊处理关掉了需要使用的UDP端口,导致
MRS集群节点使用pip3安装Python时提示网络不可达 问题现象 执行pip3 install安装Python时报错网络不可达。 具体如下图所示: 原因分析 用户未给Master节点绑定弹性公网IP,造成报错的发生。 处理步骤 登录MRS服务管理控制台。 选择“现有集群”,选
HBase占用网络端口,连接数过大会导致其他服务不稳定 问题 HBase占用网络端口,连接数过大会导致其他服务不稳定。 回答 使用操作系统命令lsof或者netstat发现大量TCP连接处于CLOSE_WAIT状态,且连接持有者为HBase RegionServer,可能导致网络端口耗尽
HBase占用网络端口,连接数过大会导致其他服务不稳定 问题 HBase占用网络端口,连接数过大会导致其他服务不稳定。 回答 使用操作系统命令lsof或者netstat发现大量TCP连接处于CLOSE_WAIT状态,且连接持有者为HBase RegionServer,可能导致网络端口耗尽
主机 > 网络读信息 > 网络读吞吐率 > 读吞吐率”修改阈值。 平滑次数为1,网络读吞吐率小于或等于阈值时,告警恢复;平滑次数大于1,网络读吞吐率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12049 严重 是 告警参数 参数名称 参数含义 ServiceName
主机 > 网络写信息 > 网络写吞吐率 > 写吞吐率”修改阈值。 平滑次数为1,网络写吞吐率小于或等于阈值时,告警恢复;平滑次数大于1,网络写吞吐率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12050 严重 是 告警参数 参数名称 参数含义 ServiceName
> 阈值配置 > 设备 > 主机 > 网络读信息 > 网络读包率信息 > 读包丢包率”中更改告警阈值。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行17。 检查网络是否异常。 联系系统管理员,检查网络是否存在异常。 是,恢复网络故障,执行18。 否,执行19 等待5分钟,检查该告警是否恢复。