检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对系统的影响 业务延迟:主机网络读包丢包率超过阈值时,导致请求响应减慢、业务延迟。 业务失败:主机网络读包丢包率超过阈值时,请求无法正常响应、超时,可能会导致作业运行失败。 风险提示:在SUSE内核版本3.0以上或Red Hat 7.2版本,由于系统内核修改了网络读包丢包数的计数机制,在该系
如图1所示: 图1 设置告警阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行4。 检查网络是否异常。 联系网络管理员,检查网络是否存在异常。 是,恢复网络故障,执行5。 否,执行6。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行6。 收集故障信息。
如图1所示: 图1 设置告警阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行4。 检查网络是否异常。 联系网络管理员,检查网络是否存在异常。 是,恢复网络故障,执行5。 否,执行6。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行6。 收集故障信息。
如图1所示: 图1 设置告警阈值 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行4。 检查网络是否异常。 联系网络管理员,检查网络是否存在异常。 是,恢复网络故障,执行5。 否,执行6。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行6。 收集故障信息。
集群基本信息收集 表1 集群基本信息 参数 说明 集群名称 - 集群版本 MRS、CDM等集群的版本信息。 节点数及规格 调研现有集群节点数和节点规格。 如果集群硬件异构,请收集多种规格和对应节点数,参见表2。 例如: 2台32U64G机器部署NameNode + ResourceManager
ALM-12089 节点间网络互通异常 告警解释 告警模块按10s周期检测集群间节点的网络健康状态。当检测到某两台节点之间网络不可达或者网络状态不稳定,产生该告警。 当网络恢复正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12089 重要 是 告警参数 参数名称 参数含义
> 主机 > 网络写信息 > 网络写包率信息 > 写包丢包率”修改阈值。 平滑次数为1,网络写包丢包率小于或等于阈值时,告警恢复;平滑次数大于1,网络写包丢包率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12046 严重 是 告警参数 参数名称
优化Flink Netty网络通信参数 操作场景 Flink通信主要依赖netty网络,所以在Flink应用执行过程中,netty的设置尤为重要,网络通信的好坏直接决定着数据交换的速度以及任务执行的效率。 操作步骤 以下配置均可在客户端的“conf/flink-conf.yaml
2版本,由于系统内核修改了网络读包丢包数的计数机制,在该系统下,即使网络正常运行,也可能会导致该告警出现,对业务无影响,建议优先按照“检查系统环境”进行排查。 可能原因 操作系统问题。 网卡配置了主备bond模式。 告警阈值配置不合理。 网络环境异常。 处理步骤 查看网络丢包率 使用PuT
数据迁移到MRS前网络准备 数据迁移网络方案说明 进行大数据迁移时,需要保证源端集群和目的端集群之间的网络互通,例如使用hadoop distcp命令跨集群复制数据时需要所有DataNode节点网络互通。根据不同的迁移场景需要使用不同的方式先打通两套集群之间网络连接。 客户线下数
优化Flink Netty网络通信参数 操作场景 Flink通信主要依赖netty网络,所以在Flink应用执行过程中,netty的设置尤为重要,网络通信的好坏直接决定着数据交换的速度以及任务执行的效率。 操作步骤 以下配置均可在客户端的“conf/flink-conf.yaml
在“Brokers Metrics”处可查看Broker节点数据流量的jmx指标,包括在不同时段的时间窗口内,Broker节点平均每秒流入消息条数, 每秒流入消息字节数, 每秒流出消息字节数,每秒失败的请求数,每秒总的请求数和每秒生产的请求数。 在页面右上角,用户可以输入主机IP地址或者机架配置信息搜索查看该Broker信息。
网络问题导致运行应用程序时出现异常 问题 应用程序在Windows环境下运行时,发现连接不上MRS集群,而在Linux环境下(和安装了MRS集群的机器是同一个网络)却运行正常。 回答 由于Kerberos认证需要使用UDP协议,而防火墙做了特殊处理关掉了需要使用的UDP端口,导致
在“Brokers Metrics”处可查看Broker节点数据流量的jmx指标,包括在不同时段的时间窗口内,Broker节点平均每秒流入消息条数, 每秒流入消息字节数, 每秒流出消息字节数,每秒失败的请求数,每秒总的请求数和每秒生产的请求数。 在页面右上角,用户可以输入主机IP地址或者机架配置信息搜索查看该Broker信息。
添加HBase数据源前提条件 数据源所在集群域名与HetuEngine集群域名不能相同。 数据源所在集群与HetuEngine集群节点网络互通。 在HetuEngine所在集群的所有节点的“/etc/hosts”文件中,添加待对接数据源所在集群的主机名称和对应的IP映射,及其“/etc/hosts”文件中的“10
网络连接超时导致FetchFailedException 问题 在380节点的大集群上,运行29T数据量的HiBench测试套中ScalaSort测试用例,使用以下关键配置(--executor-cores 4)出现如下异常: org.apache.spark.shuffle.F
网络连接超时导致FetchFailedException 问题 在380节点的大集群上,运行29T数据量的HiBench测试套中ScalaSort测试用例,使用以下关键配置(--executor-cores 4)出现如下异常: org.apache.spark.shuffle.F
证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。元数据包含OMS数据、LdapServer数据、DBService数据和NameNode数据。备份Manager数据包含同时备份OMS数据和LdapServer数据。 默认情况下,元数据备份由“def
为了保持迁移后数据的属性及权限等信息在目标集群上与源集群一致,需要将源集群的元数据信息导出,以便在完成数据迁移后进行必要的元数据恢复。 需要导出的元数据包括HDFS文件属主/组及权限信息、Hive表描述信息。 HDFS元数据导出 HDFS数据需要导出的元数据信息包括文件及文件夹的权限和属主/
集群生命周期管理 MRS支持集群的生命周期管理包括创建集群和删除集群。 创建集群:支持用户定制集群的类型、组件范围、各类型的节点数、虚拟机规格、可用区、VPC网络、认证信息,MRS将为用户自动创建一个符合配置的集群,全程无需用户参与;同时支持用户在集群中运行自定义内容;支持快速创建多应