检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
网络问题导致运行应用程序时出现异常 问题 应用程序在Windows环境下运行时,发现连接不上MRS集群,而在Linux环境下(和安装了MRS集群的机器是同一个网络)却运行正常。 回答 由于Kerberos认证需要使用UDP协议,而防火墙做了特殊处理关掉了需要使用的UDP端口,导致
数据迁移到MRS前网络准备 数据迁移网络方案说明 进行大数据迁移时,需要保证源端集群和目的端集群之间的网络互通,例如使用hadoop distcp命令跨集群复制数据时需要所有DataNode节点网络互通。根据不同的迁移场景需要使用不同的方式先打通两套集群之间网络连接。 客户线下数
根据实际安装目录修改。 购买ELB并配置对接ClickHouse 购买ELB并获取其私有IP地址 详细操作步骤请参考创建共享型负载均衡器。 登录“弹性负载均衡器”控制台,在“负载均衡器”界面单击“购买弹性负载均衡”。 在“购买弹性负载均衡”界面,“实例规格类型”选择“共享型”,“
优化Flink Netty网络通信参数 操作场景 Flink通信主要依赖netty网络,所以在Flink应用执行过程中,netty的设置尤为重要,网络通信的好坏直接决定着数据交换的速度以及任务执行的效率。 操作步骤 以下配置均可在客户端的“conf/flink-conf.yaml
配置Kafka数据均衡工具 操作场景 该任务指导管理员根据业务需求,在客户端中执行Kafka均衡工具来均衡Kafka集群的负载,一般用于节点的退服、入服以及负载均衡的场景。 前提条件 MRS集群管理员已明确业务需求,并准备一个Kafka管理员用户(属于kafkaadmin组,普通模式不需要)。 已安装Kafka客户端。
产生告警的角色名称。 主机名 产生告警的主机名。 网口名 产生告警的网口名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务延迟:主机网络读包丢包率超过阈值时,导致请求响应减慢、业务延迟。 业务失败:主机网络读包丢包率超过阈值时,请求无法正常响应、超时,可能会导致作业运行失败。
优化Flink Netty网络通信参数 操作场景 Flink通信主要依赖netty网络,所以在Flink应用执行过程中,netty的设置尤为重要,网络通信的好坏直接决定着数据交换的速度以及任务执行的效率。 操作步骤 以下配置均可在客户端的“conf/flink-conf.yaml
机地址及网口。 以root用户登录告警所在主机,用户密码为安装前用户自定义,请咨询系统管理员。 执行命令ethtool 网口名称,查看当前网口速率最大值Speed。 对于虚拟机环境,通过命令可能无法查询到网口速率,建议直接联系系统管理确认网口速率是否满足需求。 若网络写吞吐率超过
配置Kafka数据均衡工具 操作场景 该任务指导管理员根据业务需求,在客户端中执行Kafka均衡工具来均衡Kafka集群的负载,一般用于节点的退服、入服以及负载均衡的场景。 本章节内容适用于MRS 3.x及后续版本。3.x之前版本请参考均衡Kafka扩容节点后数据 前提条件 MRS集群管理员已明确业
地址及网口名称。 以root用户登录告警所在主机,用户密码为安装前用户自定义,请咨询系统管理员。 执行命令ethtool 网口名称,查看当前网口速率最大值Speed。 对于虚拟机环境,通过命令可能无法查询到网口速率,建议直接联系系统管理确认网口速率是否满足需求。 若网络读吞吐率超
HDFS网络不稳定场景调优 配置场景 在网络不稳定的情况下,调整如下参数,降低客户端应用运行异常概率。 配置描述 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。 表1 参数说明 参数 描述 默认值 ha.health-monitor.rpc-timeout
网络连接超时导致FetchFailedException 问题 在380节点的大集群上,运行29T数据量的HiBench测试套中ScalaSort测试用例,使用以下关键配置(--executor-cores 4)出现如下异常: org.apache.spark.shuffle.F
如何解除网络ACL的关联子网 操作场景 用户可根据自身网络需求,解除网络ACL与子网的关联关系。 操作步骤 登录管理控制台。 在服务列表中单击“网络 > 虚拟私有云”。 在左侧导航栏单击“访问控制 > 网络ACL”。 在右侧在“网络ACL”列表区域,选择网络ACL的名称列,单击您需要修改的网络ACL名称进入详情页面。
HDFS网络不稳定场景调优 配置场景 在网络不稳定的情况下,调整如下参数,降低客户端应用运行异常概率。 配置描述 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。 表1 参数说明 参数 描述 默认值 ha.health-monitor.rpc-timeout
网络连接超时导致FetchFailedException 问题 在380节点的大集群上,运行29T数据量的HiBench测试套中ScalaSort测试用例,使用以下关键配置(--executor-cores 4)出现如下异常: org.apache.spark.shuffle.F
如果HDFS出现数据不平衡的状况,可能导致多种问题,比如MapReduce应用程序无法很好地利用本地计算的优势、数据节点之间无法达到更好的网络带宽使用率或节点磁盘无法利用等等。所以MRS集群管理员需要定期检查并保持DataNode数据平衡。 HDFS提供了一个容量均衡程序Bala
ALM-12089 节点间网络互通异常 告警解释 告警模块按10s周期检测集群间节点的网络健康状态。当检测到某两台节点之间网络不可达或者网络状态不稳定,产生该告警。 当网络恢复正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12089 重要 是 告警参数 参数名称 参数含义
使用PuTTY工具,以root用户登录告警所在主机。 执行命令ethtool 网口名称,查看当前网口速率最大值Speed。 对于虚拟机环境,通过命令可能无法查询到网口速率,建议直接联系系统管理确认网口速率是否满足需求。 若网络读吞吐率超过阈值,直接联系系统管理员,提升网口速率。 检查该告警是否恢复。 是,处理完毕。
使用PuTTY工具,以root用户登录告警所在主机。 执行命令ethtool 网口名称,查看当前网口速率最大值Speed。 对于虚拟机环境,通过命令可能无法查询到网口速率,建议直接联系系统管理确认网口速率是否满足需求。 若网络写吞吐率超过阈值,直接联系系统管理员,提升网口速率。 检查该告警是否恢复。 是,处理完毕。
待操作集群的名称 > 主机 > 网络写信息 > 写包错误率”,单击“操作”列的“修改”更改告警阈值。 如图1所示: 图1 设置告警阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行4。 检查网络是否异常。 联系网络管理员,检查网络是否存在异常。 是,恢复网络故障,执行5。 否,执行6。