检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 监控指标转储失败会影响上层管理系统无法获取到MRS Manager系统的监控指标。 可能原因 无法连接服务器。 无法访问服务器上保存路径。 上传监控指标文件失败。 处理步骤 联系运维人员查看MRS Manager系统与服务器网络连接是否正常。
MRS集群提供可视化、便捷的监控告警功能。用户可以快速获取集群关键性能指标,并评测集群健康状态。MRS支持配置监控指标阈值用于关注各指标的健康情况,如果出现异常的数据并满足预设条件后,系统将会触发告警信息,并在告警页面中出现此告警信息。 如果部分阈值类监控告警经评估后对业务影响可忽
默认生效子网 子网信息,创建集群时所选。 当子网IP不足时,单击“切换子网”切换到当前集群相同VPC下的其他子网,实现可用子网IP的扩充。切换子网不会影响当前已有节点的IP地址和子网。 通过子网提供与其他网络隔离的、可以独享的网络资源,以提高网络安全。 虚拟私有云 VPC信息,创建集群时所选。
Manager关键特性:统一监控告警 Manager提供可视化、便捷的监控告警功能。用户可以快速获取集群关键性能指标,并评测集群健康状态,同时提供性能指标的定制化显示功能及指标转换告警方法。Manager可监控所有组件的运行情况,并在故障时实时上报告警。通过界面的联机帮助,用户可以查看性能指标和告警恢复的详细方法,进行快速排障。
集群运维 告警管理 MRS可以实时监控大数据集群,通过告警和事件可以识别系统健康状态。同时MRS也支持用户自定义配置监控与告警阈值用于关注各指标的健康情况,当监控数据达到告警阈值,系统将会触发一条告警信息。 MRS还可以与华为云消息通知服务(SMN)的消息服务系统对接,将告警信息
转换MRS按需集群为包周期集群 如果用户想要将按需计费的集群转为更经济的包年/包月的包周期集群,可使用该指导进行操作。 集群状态为“运行中”或“停止中”时,可以进行转包周期操作。 转换MRS按需集群为包周期集群 登录MRS管理控制台。 在左侧导航栏中选择“现有集群”。 在需要转包
在MRS集群节点的操作列选择“更多 > 网络设置 > 切换VPC”,切换节点VPC。 每个节点都需要切换VPC。 切换VPC时“虚拟私有云”、“子网”、“安全组”需要和集群初始的配置一致。 “私有IP地址”选择“现在创建”,填写1中查询对应节点的IP。 切换成功后,单击节点名称,需要在节点的“弹性网卡”中重启“源/目的检查”。
操作系统健康状态监控 周期采集操作系统硬件资源使用率数据,包括CPU、内存、硬盘、网络等资源的使用率状态。 进程健康状态监控 MRS提供业务实例的状态以及业务实例进程的健康指标的检查,能够让用户第一时间感知进程健康状态。 硬盘故障的自动处理 MRS对开源版本进行了增强,可以监控各节点上的
WebUI界面默认初始账号密码admin/123456 登录后可以查看Kafka集群监控页面、Topic监控页面、Consumer监控页面,例如: 图2 Kafka集群监控 图3 Topic监控 图4 Consumer监控 常见问题 问题现象: 无法获取Kafka CPU与内存监控信息日志提示。 java.io
MRS是否支持更换网段? 问: MRS集群内节点是否支持更换网段? 答: MRS集群内节点支持更换网段。 在集群详情页“默认生效子网”右侧单击“切换子网”。 选择当前集群所在VPC下的其他子网,即可实现可用子网IP的扩充。 新增子网不会影响当前已有节点的IP地址和子网。 父主题:
ALM-24001 Flume Agent异常(2.x及以前版本) 告警解释 Flume Agent监控模块对Flume Agent状态进行监控,当Flume Agent进程故障时,系统产生此告警。 当检测到Flume Agent进程故障恢复,且告警处理完成时,告警恢复。 告警属性
OBS在小批量频繁请求OBS的场景下,可以通过关闭OBS监控提升性能。 配置描述 在Spark客户端的“core-site.xml”配置文件中修改配置。 表1 参数介绍 参数 描述 默认值 fs.obs.metrics.switch 上报OBS监控指标开关: true表示打开 false表示关闭
指定服务器上用户自定义已经存在的数据监控目录。 查看Flume Agent运行用户对步骤13所指定的监控目录是否有可读可写可执行权限。 是,执行17。 否,执行16。 使用Flume运行用户进入监控目录,若可以创建文件,这说明Flume运行用户是否对该监控目录具有可读可写可执行权限。 执行“chmod
参见配置弹性伸缩规则。 若MRS提供的变更配置方式不满足您的要求,您也可以通过重建集群,然后做数据迁移的方式实现集群配置的变更。 续费 如需续费,请进入“续费管理”页面进行续费操作。 欠费 包年/包月集群,没有欠费的概念。 按需购买的集群是按每小时扣费,当余额不足,无法对上一个小
Spark是内存计算框架,计算过程中内存不够对Spark的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存中RDD的大小来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的GC情况(在客户端的conf/spark-default.conf配置文件中,在spark
Spark是内存计算框架,计算过程中内存不够对Spark的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存中RDD的大小来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的GC情况(在客户端的conf/spark-default.conf配置文件中,在spark
Spark是内存计算框架,计算过程中内存不够对Spark的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存中RDD的大小来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的GC情况(在客户端的conf/spark-defaults.conf配置文件中,在spark
ALM-12005 OKerberos资源异常 告警解释 告警模块对Manager中的Kerberos资源的状态按80秒周期进行监控,当连续6次监控到Kerberos资源异常时,系统产生此告警。 当Kerberos资源恢复时,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别
查看CPU使用情况和内存占用情况,当任务和数据不是平均分布在各节点,而是集中在个别节点时,可以增大并行度使任务和数据更均匀的分布在各个节点。增加任务的并行度,充分利用集群机器的计算能力。 任务的并行度可以通过以下四种层次(按优先级从高到低排列)指定,用户可以根据实际的内存、CPU、数据以及应用程序逻辑的情况调整并行度参数。
告警解释 系统每30秒周期性检测每个HBase服务实例中每个RegionServer的Region数。该指标可以在HBase服务监控界面和RegionServer角色监控界面查看,当检测到某个RegionServer上的Region数超出阈值(默认连续20次超过默认阈值2000)时产生该告警。用户可通过“运维