ALM-12089 节点间网络互通异常 告警解释 告警模块按10秒周期检测集群间节点的网络健康状态。当检测到某两台节点之间网络不可达或者网络状态不稳定,产生该告警。 当网络恢复正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12089 重要 是 告警参数 参数名称 参数含义
管理Storm拓扑 操作场景 用户可以使用Storm的WebUI管理拓扑。“storm”用户组的用户只能管理由自己提交的拓扑任务,“stormadmin”用户组的用户可以管理所有拓扑任务。 操作步骤 访问Storm的WebUI,请参考访问Storm的WebUI。 在“Topology
提交Storm拓扑失败排查思路 问题背景与现象 使用MRS流式集群,主要安装ZooKeeper、Storm、Kafka。 使用客户端命令,提交Topology失败。 可能原因 Storm服务异常。 客户端用户没有进行安全认证或者认证过期。 提交拓扑中包含storm.yaml文件和服务端冲突。
使用客户端提交Storm拓扑 操作场景 用户可以根据业务需要,在集群的客户端中提交Storm拓扑,持续处理用户的流数据。启用Kerberos认证的集群,需要提交拓扑的用户属于“stormadmin”或“storm”组。 前提条件 已刷新客户端。 操作步骤 根据业务情况,准备好客户端,登录安装客户端的节点。
网络问题导致运行应用程序时出现异常 问题 应用程序在Windows环境下运行时,发现连接不上MRS集群,而在Linux环境下(和安装了MRS集群的机器是同一个网络)却运行正常。 回答 由于Kerberos认证需要使用UDP协议,而防火墙做了特殊处理关掉了需要使用的UDP端口,导致
图1所示。 图1 设置告警阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行步骤 8。 检查网络是否异常。 联系网络管理员,检查网络是否存在异常。 是,恢复网络故障,执行步骤 9。 否,执行步骤 10。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行步骤
优化Flink Netty网络通信参数 操作场景 Flink通信主要依赖netty网络,所以在Flink应用执行过程中,netty的设置尤为重要,网络通信的好坏直接决定着数据交换的速度以及任务执行的效率。 操作步骤 以下配置均可在客户端的“conf/flink-conf.yaml
如何解除网络ACL的关联子网 操作场景 用户可根据自身网络需求,解除网络ACL与子网的关联关系。 操作步骤 登录管理控制台。 在服务列表中单击“网络 > 虚拟私有云”。 在左侧导航栏单击“访问控制 > 网络ACL”。 在右侧在“网络ACL”列表区域,选择网络ACL的名称列,单击您需要修改的网络ACL名称进入详情页面。
ALM-12049 网络读吞吐率超过阈值 告警解释 系统每30秒周期性检测网络读吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络读吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 > 网络读信息
ALM-12050 网络写吞吐率超过阈值 告警解释 系统每30秒周期性检测网络写吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络写吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 > 网络写信息
优化Flink Netty网络通信参数 操作场景 Flink通信主要依赖netty网络,所以在Flink应用执行过程中,netty的设置尤为重要,网络通信的好坏直接决定着数据交换的速度以及任务执行的效率。 操作步骤 以下配置均可在客户端的“conf/flink-conf.yaml
HDFS网络不稳定场景调优 操作场景 在网络不稳定的情况下,可以通过调整如下参数,降低客户端应用运行异常概率。 操作步骤 登录FusionInsight Manager。 登录集群Manager具体操作,请参考访问MRS集群Manager。 选择“集群 > 服务 > HDFS >
如图1所示: 图1 设置告警阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行步骤 4。 检查网络是否异常。 联系网络管理员,检查网络是否存在异常。 是,恢复网络故障,执行步骤 5。 否,执行步骤 6。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行步骤 6。
如图1所示: 图1 设置告警阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行步骤 4。 检查网络是否异常。 联系网络管理员,检查网络是否存在异常。 是,恢复网络故障,执行步骤 5。 否,执行步骤 6。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行步骤 6。
获取IPv4网段地址 在VPC控制台左侧导航处选择“访问控制 > 网络ACL”,单击MRS集群默认生效子网和切换后子网关联的网络ACL名称,选择“入方向规则”页签。 若集群的默认生效子网和切换后子网均关联网络ACL,则两个子网关联的网络ACL中均需参考步骤 6~步骤 8增加入方向规则。 在第一条规则的“操作”列,选择“更多
HDFS网络不稳定场景调优 操作场景 在网络不稳定的情况下,可以通过调整如下参数,降低客户端应用运行异常概率。 操作步骤 登录FusionInsight Manager。 选择“集群 > 服务 > HDFS > 配置 > 全部配置”。 搜索以下参数名称,并根据需要修改参数值。 表1
如图1所示: 图1 设置告警阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行步骤 4。 检查网络是否异常。 联系网络管理员,检查网络是否存在异常。 是,恢复网络故障,执行步骤 5。 否,执行步骤 6。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行步骤 6。
数据迁移到MRS前网络准备 数据迁移网络方案说明 进行大数据迁移时,需要保证源端集群和目的端集群之间的网络互通,例如使用hadoop distcp命令跨集群复制数据时需要所有DataNode节点网络互通。根据不同的迁移场景需要使用不同的方式先打通两套集群之间网络连接。 客户线下数
网络连接超时导致FetchFailedException 问题 在380节点的大集群上,运行29T数据量的HiBench测试套中ScalaSort测试用例,使用以下关键配置(--executor-cores 4)出现如下异常: org.apache.spark.shuffle.F
网络连接超时导致FetchFailedException 问题 在380节点的大集群上,运行29T数据量的HiBench测试套中ScalaSort测试用例,使用以下关键配置(--executor-cores 4)出现如下异常: org.apache.spark.shuffle.F
您即将访问非华为云网站,请注意账号财产安全