检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看MRS集群基本信息 集群创建完成后,可对集群进行监控和管理。选择“现有集群”,选中一集群并单击集群名,进入集群详情页面,查看集群的基本配置信息、网络信息和部署的节点信息等。
可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container GC日志,如果频繁出现Full GC,需要优化GC。
网络问题导致运行应用程序时出现异常 问题 应用程序在Windows环境下运行时,发现连接不上MRS集群,而在Linux环境下(和安装了MRS集群的机器是同一个网络)却运行正常。
访问MRS集群Manager(2.x及之前版本) 操作场景 MRS集群提供Manager对集群进行监控、配置和管理,用户在集群安装后可使用admin用户登录Manager页面。
访问EFKA WebUI界面默认初始账号密码admin/123456 登录后可以查看Kafka集群监控页面、Topic监控页面、Consumer监控页面,例如: 图2 Kafka集群监控 图3 Topic监控 图4 Consumer监控 常见问题 问题现象: 无法获取Kafka CPU
用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息 > 网络读吞吐率 > 读吞吐率”修改阈值。 平滑次数为1,网络读吞吐率小于或等于阈值时,告警恢复;平滑次数大于1,网络读吞吐率小于或等于阈值的90%时,告警恢复。
用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络写信息 > 网络写吞吐率 > 写吞吐率”修改阈值。 平滑次数为1,网络写吞吐率小于或等于阈值时,告警恢复;平滑次数大于1,网络写吞吐率小于或等于阈值的90%时,告警恢复。
开源组件结构复杂,安装、配置、管理过程费时费力,使用Manager将为您提供企业级的集群的统一管理平台。 提供集群状态的监控功能,您能快速掌握服务及主机的运行状态。 提供图形化的指标监控及定制,您能及时的获取系统的关键信息。 提供服务属性的配置功能,满足您实际业务的性能需求。
配置MRS集群对接SNMP网管平台上报告警 如果用户需要在统一的运维网管平台查看集群的告警、监控数据,管理员可以在FusionInsight Manager使用SNMP服务将相关数据上报到网管平台。
HBase占用网络端口,连接数过大会导致其他服务不稳定 问题 HBase占用网络端口,连接数过大会导致其他服务不稳定。
HBase占用网络端口,连接数过大会导致其他服务不稳定 问题 HBase占用网络端口,连接数过大会导致其他服务不稳定。
MRS安全增强 MRS作为一个海量数据管理和分析的平台,具备高安全性。MRS主要从以下几个方面保障用户的数据和业务运行安全。 网络隔离 整个系统部署在公有云上的虚拟私有云中,提供隔离的网络环境,保证集群的业务、管理的安全性。
MRS集群节点使用pip3安装Python时提示网络不可达 问题现象 执行pip3 install安装Python时报错网络不可达。 具体如下图所示: 原因分析 用户未给Master节点绑定弹性公网IP,造成报错的发生。 处理步骤 登录MRS服务管理控制台。
用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络写信息 > 网络写包率信息 > 写包错误率”修改阈值。 平滑次数为1,网络写包错误率小于或等于阈值时,告警恢复;平滑次数大于1,网络写包错误率小于或等于阈值的90%时,告警恢复。
查看MRS集群静态资源 大数据管理平台支持通过静态服务资源池对没有运行在Yarn上的服务资源进行管理和隔离。系统支持基于时间的静态服务资源池自动调整策略,使集群在不同的时间段自动调整参数值,从而更有效地利用资源。
联系网络管理员恢复网络。
用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息 > 网络读包率信息 > 读包错误率”修改阈值。 平滑次数为1,网络读包错误率小于或等于阈值时,告警恢复;平滑次数大于1,网络读包错误率小于或等于阈值的90%时,告警恢复。
用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息 > 网络读包率信息 > 读包丢包率”修改阈值。 平滑次数为1,网络读包丢包率小于或等于阈值时,告警恢复;平滑次数大于1,网络读包丢包率小于或等于阈值的90%时,告警恢复。 该告警检测默认关闭。
用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络写信息 > 网络写包率信息 > 写包丢包率”修改阈值。 平滑次数为1,网络写包丢包率小于或等于阈值时,告警恢复;平滑次数大于1,网络写包丢包率小于或等于阈值的90%时,告警恢复。
ALM-12037 NTP服务器异常 告警解释 系统每60秒周期性检测NTP服务器的状态,当连续10次监控到NTP服务器异常时产生该告警。 当NTP服务器异常消除时,该告警恢复。