检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
登录MRS Manager MRS Manager支持监控、配置和管理MRS集群,用户可以在MRS控制台页面打开Manager管理页面。 本章节介绍如何打开MRS Manager方法。 登录MRS Manager 登录MRS管理控制台页面。 在“现有集群” 列表,单击指定的集群名称,进入集群信息页面。
事件记录,系统最多可显示20条历史记录。 图表 主机详情页面的右侧展示图表区,包含该主机的各个关键监控指标报表。 用户可以单击右上角的“ > 定制”,自定义在图表区展示的监控报表。选择时间区间后,单击“ > 导出”,可以导出指定时间区间内的详细监控指标数据。 单击监控指标标题后的可以打开监控指标的解释说明。
支持可视化定义流作业和批作业。 支持作业资源、故障恢复策略、Checkpoint策略可视化配置。 流作业和批作业的状态监控。 Flink作业运维能力增强,包括原生监控页面跳转。 性能&可靠性 流处理支持24小时窗口聚合计算,毫秒级性能。 批处理支持90天窗口聚合计算,分钟级计算完成。
Hive监控告警增强,新增MetaStore只操作DB接口的耗时、HiveServer建立连接/关闭连接耗时 、MetaStore操作DB接口的耗时监控。 Hive新增MetaStore连接数监控告警、SQL平均运行时间监控、扫描分区数监控和user、IP维度监控。 Hive
(sudo脚本执行日志) OS:/var/log/message文件(OS系统日志) OS Performance:/var/log/osperf(OS性能统计日志) OS Statistics:/var/log/osinfo/statistics(OS参数配置信息日志) 日志归档规则:
访问MRS Manager(MRS 3.x之前版本) 操作场景 MRS 3.x之前版本集群使用MRS Manager对集群进行监控、配置和管理,用户可以在MRS控制台页面打开Manager管理页面。 访问MRS Manager 登录MRS管理控制台页面。 单击“现有集群”,在集群
ALM-12015 设备分区文件系统只读(2.x及以前版本) 告警解释 系统周期性进行扫描,如果检测到挂载服务目录的设备分区变为只读模式(如设备有坏扇区、文件系统存在故障等原因),则触发此告警。 系统如果检测到挂载服务目录的设备分区的只读模式消失(比如文件系统修复为读写模式、设备拔出、设备被重新格式化等原因),则告警恢复。
如果某个主机节点的运行状态不是良好,用户可以执行主机健康检查,快速确认某些基本功能是否存在异常。在日常运维中,管理员也可以执行主机健康检查,以保证主机上各角色实例的配置参数以及监控没有异常、能够长时间稳定运行。 执行集群节点健康检查(3.x及之后版本) 登录FusionInsight Manager。 单击“主机”。
MRS对集群管理系统Manager上的数据提供自动备份功能,根据制定的备份策略可自动备份集群上的数据,包括LdapServer、DBService的数据。 手动备份 在系统进行扩容、打补丁等重大操作前,需要通过手动备份集群管理系统的数据,以便在系统故障时,恢复集群管理系统功能。 为进
spark-shell执行SQL跨文件系统load数据到Hive表失败 用户问题 使用spark-shell命令执行SQL或者spark-submit提交的Spark任务里面有SQL的load命令,并且原数据和目标表存储位置不是同一套文件系统,上述两种方式MapReduce任务启动时会报错。
图2 主NameNode RPC队列平均时间 单击,进入监控详细信息界面。 设置监控显示的时间段,从告警产生的时间的前5天开始,到告警产生时刻结束。单击“确定”按钮。 在“NameNode RPC队列平均时间”监控中,查看该监控是否有开始急剧增加的时间点。 是,执行24。 否,执行27。
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDFS出现慢DataNode,会影响HDFS的数据读写性能。 可能原因 HDFS DataNode实例磁盘IO速率低、HDFS
该DataNode的数据存放情况。 NameNode 用于管理文件系统的命名空间、目录结构、元数据信息以及提供备份机制等。 Active NameNode:主NameNode,管理文件系统的命名空间、维护文件系统的目录结构树以及元数据信息;记录写入的每个“数据块”与其归属文件的对应关系。
开启Native Task特性后,Reduce任务在部分操作系统运行失败 问题 开启Native Task特性后,Reduce任务在部分操作系统运行失败。 回答 运行包含Reduce的Mapreduce任务时,通过-Dmapreduce.job.map.output.collector
解决的问题 解决Flume后台卸载客户端后,从Flume管理的页面上无法删除该客户端实例的问题。 解决Kafka时延监控转告警(Topic数量监控、分区数量监控、请求时延监控)的问题。 解决节点ZooKeeper连接占满导致ClickHouse无法启动的问题。 解决NodeAgent进
MRS集群数据备份恢复简介 MRS集群数据备份恢复概述 Manager提供对集群内的用户数据及系统数据的备份恢复能力,备份功能按组件提供。系统支持备份Manager的数据、组件元数据及业务数据。 MRS 3.x及之后版本,备份功能支持将数据备份至本地磁盘(LocalDir)、本端
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 影响任务执行和客户端连接FE。 可能原因
开启Native Task特性后,Reduce任务在部分操作系统运行失败 问题 开启Native Task特性后,Reduce任务在部分操作系统运行失败。 回答 运行包含Reduce的Mapreduce任务时,通过-Dmapreduce.job.map.output.collector
大数据集群的处理能力通常可以通过增加集群的节点数来横向扩展,当集群规模不符合业务要求时,用户可以通过该功能进行集群节点规模的调整,进行扩容或者缩容;在缩容节点时,MRS会智能地选择负载最少或者迁移数据量最小节点,并且在缩容过程中,缩容节点不再接收新的任务,正在执行的任务继续执行,同时将该节点数据拷贝至其他节点,
确定”。 出现此告警时,说明当前Loader实例设置直接内存大小无法满足当前业务使用场景,建议打开实例监控界面,在页面上调出“Loader直接内存资源状况”监控图表,观察该监控图表中“Loader使用的直接内存大小”的变化趋势,根据当前直接内存使用的大小,调整“-XX:MaxDi