检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-12049 网络读吞吐率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测网络读吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络读吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息
ALM-12050 网络写吞吐率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测网络写吞吐率,并把实际吞吐率和阈值(系统默认阈值80%)进行比较,当检测到网络写吞吐率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络写信息
ALM-12089 节点间网络互通异常 告警解释 告警模块按10s周期检测集群间节点的网络健康状态。当检测到某两台节点之间网络不可达或者网络状态不稳定,产生该告警。 当网络恢复正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12089 重要 是 告警参数 参数名称 参数含义
MRS集群中Kafka Topic监控是否支持发送告警? 问: 在MRS流式集群中,Kafka Topic的监控是否支持发送告警? 答: 暂不支持Kafka Topic监控发送邮件和短信告警,用户可以在集群Manager界面查看组件相关告警信息。 父主题: 集群管理类
网络问题导致运行应用程序时出现异常 问题 应用程序在Windows环境下运行时,发现连接不上MRS集群,而在Linux环境下(和安装了MRS集群的机器是同一个网络)却运行正常。 回答 由于Kerberos认证需要使用UDP协议,而防火墙做了特殊处理关掉了需要使用的UDP端口,导致
优化Flink Netty网络通信参数 操作场景 Flink通信主要依赖netty网络,所以在Flink应用执行过程中,netty的设置尤为重要,网络通信的好坏直接决定着数据交换的速度以及任务执行的效率。 操作步骤 以下配置均可在客户端的“conf/flink-conf.yaml
产生告警的角色名称。 主机名 产生告警的主机名。 网口名 产生告警的网口名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务延迟:主机网络读包错误率超过阈值时,导致请求响应减慢、业务延迟。 业务失败:主机网络读包错误率超过阈值时,
产生告警的角色名称。 主机名 产生告警的主机名。 网口名 产生告警的网口名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务延迟:主机网络写包错误率超过阈值时,导致请求响应减慢,导致客户业务延迟。 业务失败:主机网络写包错误率超过阈值
c。 否,执行3。 登录故障节点所在主机,执行以下命令切换root用户。 sudo su - root 执行ping Flume Source配置的IP地址命令查看对端主机是否可以ping通。 是,执行3。 否,执行2.d。 联系网络管理员恢复网络。 等待一段时间后,在告警列表中,查看告警是否清除。
产生告警的角色名称。 主机名 产生告警的主机名。 网口名 产生告警的网口名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务延迟:主机网络写包丢包率超过阈值时,导致请求响应减慢、业务延迟。 业务失败:主机网络写包丢包率超过阈值时,
根据实际服务的使用情况在“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息 > 网络读包率信息 > 读包错误率”中更改告警阈值。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行4。 检查网络是否异常。 联系系统管理员,检查网络是否存在异常。 是,恢复网络故障,执行5。 否,执行6 等待5分钟,检查该告警是否恢复。
2补丁基本信息及解决问题列表请参考补丁基本信息说明。 安装补丁前提条件 集群不能存在被隔离的主机,如果存在,需要先恢复被隔离主机。 集群有以下要求: 请保持网络畅通,请勿随意拔插网线,避免因网络问题导致升级失败。 集群中各组件服务正常、各实例正常、无故障、无退服的实例。 安装补丁过程中对现行系统的影响
根据实际服务的使用情况在“系统设置 > 阈值配置 > 设备 > 主机 > 网络写信息 > 网络写包错误率 > 写包错误率”中更改告警阈值。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行4。 检查网络是否异常。 联系系统管理员,检查网络是否存在异常。 是,恢复网络故障,执行5。 否,执行6 等待5分钟,检查该告警是否恢复。
根据实际服务的使用情况在“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息 > 网络读包率信息 > 读包丢包率”中更改告警阈值。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行17。 检查网络是否异常。 联系系统管理员,检查网络是否存在异常。 是,恢复网络故障,执行18。 否,执行19 等待5分钟,检查该告警是否恢复。
根据实际服务的使用情况在“系统设置 > 阈值配置 > 设备 > 主机 > 网络写信息 > 网络写包率信息 > 写包丢包率”中更改告警阈值。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行4。 检查网络是否异常。 联系系统管理员,检查网络是否存在异常。 是,恢复网络故障,执行5。 否,执行6 等待5分钟,检查该告警是否恢复。
如何对Hive表大小数据进行监控 问题 如何对Hive中的表大小数据进行监控? 回答 当用户要对Hive表大小数据进行监控时,可以通过HDFS的精细化监控对指定表目录进行监控,从而到达监控指定表大小数据的目的。 前提条件 Hive、HDFS组件功能正常 HDFS精细化监控功能正常 操作步骤
9补丁基本信息及解决问题列表请参考补丁基本信息说明。 安装补丁前提条件 集群不能存在被隔离的主机,如果存在,需要先恢复被隔离主机。 集群有以下要求: 请保持网络畅通,请勿随意拔插网线,避免因网络问题导致升级失败。 集群中各组件服务正常、各实例正常、无故障、无退服的实例。 安装补丁过程中对现行系统的影响
16补丁基本信息及解决问题列表请参考补丁基本信息说明。 安装补丁前提条件 集群不能存在被隔离的主机,如果存在,需要先恢复被隔离主机。 集群有以下要求: 请保持网络畅通,请勿随意拔插网线,避免因网络问题导致升级失败。 集群中各组件服务正常、各实例正常、无故障、无退服的实例。 安装补丁过程中对现行系统的影响
网络连接超时导致FetchFailedException 问题 在380节点的大集群上,运行29T数据量的HiBench测试套中ScalaSort测试用例,使用以下关键配置(--executor-cores 4)出现如下异常: org.apache.spark.shuffle.F
8补丁基本信息及解决问题列表请参考补丁基本信息。 安装补丁前提条件 集群不能存在被隔离的主机,如果存在,需要先恢复被隔离主机。 集群有以下要求: 请保持网络畅通,请勿随意拔插网线,避免因网络问题导致升级失败。 集群中各组件服务正常、各实例正常、无故障、无退服的实例。 安装补丁过程中对现行系统的影响