检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 如果数据库异常,所有Manager的核心业务和相关业务进程(例如告警和监控入库、查询的功能)都会受影响。 可能原因 数据库异常。
MRS集群数据备份恢复简介 MRS集群数据备份恢复概述 Manager提供对集群内的用户数据及系统数据的备份恢复能力,备份功能按组件提供。系统支持备份Manager的数据、组件元数据及业务数据。 MRS 3.x及之后版本,备份功能支持将数据备份至本地磁盘(LocalDir)、本端
DFS服务异常则会导致Spark、Hive和Yarn服务不可用。 根据该集群出现磁盘容量不足产生Spark、Hive和Yarn服务不可用的报警,扩容磁盘后不再告警,可以判断是磁盘容量不足引起HDFS功能故障所导致。 处理步骤 针对磁盘容量不足产生的告警处理步骤,请参考ALM-12017
登录MRS Manager MRS Manager支持监控、配置和管理MRS集群,用户可以在MRS控制台页面打开Manager管理页面。 本章节介绍如何打开MRS Manager方法。 登录MRS Manager 登录MRS管理控制台页面。 在“现有集群” 列表,单击指定的集群名称,进入集群信息页面。
spark-shell执行SQL跨文件系统load数据到Hive表失败 用户问题 使用spark-shell命令执行SQL或者spark-submit提交的Spark任务里面有SQL的load命令,并且原数据和目标表存储位置不是同一套文件系统,上述两种方式MapReduce任务启动时会报错。
(sudo脚本执行日志) OS:/var/log/message文件(OS系统日志) OS Performance:/var/log/osperf(OS性能统计日志) OS Statistics:/var/log/osinfo/statistics(OS参数配置信息日志) 日志归档规则:
该DataNode的数据存放情况。 NameNode 用于管理文件系统的命名空间、目录结构、元数据信息以及提供备份机制等。 Active NameNode:主NameNode,管理文件系统的命名空间、维护文件系统的目录结构树以及元数据信息;记录写入的每个“数据块”与其归属文件的对应关系。
如果某个主机节点的运行状态不是良好,用户可以执行主机健康检查,快速确认某些基本功能是否存在异常。在日常运维中,管理员也可以执行主机健康检查,以保证主机上各角色实例的配置参数以及监控没有异常、能够长时间稳定运行。 执行集群节点健康检查(3.x及之后版本) 登录FusionInsight Manager。 单击“主机”。
MRS对集群管理系统Manager上的数据提供自动备份功能,根据制定的备份策略可自动备份集群上的数据,包括LdapServer、DBService的数据。 手动备份 在系统进行扩容、打补丁等重大操作前,需要通过手动备份集群管理系统的数据,以便在系统故障时,恢复集群管理系统功能。 为进
告警解释 系统每隔5分钟检查一次系统中关键目录或者文件权限、用户、用户组是否正常,如果不正常,则上报故障告警。 当检查到权限等均正常,则告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12041 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDFS出现慢DataNode,会影响HDFS的数据读写性能。 可能原因 HDFS DataNode实例磁盘IO速率低、HDFS
图2 主NameNode RPC队列平均时间 单击,进入监控详细信息界面。 设置监控显示的时间段,从告警产生的时间的前5天开始,到告警产生时刻结束。单击“确定”按钮。 在“NameNode RPC队列平均时间”监控中,查看该监控是否有开始急剧增加的时间点。 是,执行24。 否,执行27。
x及之后的版本。 Flume对接OBS 创建用于存放数据的OBS文件夹。 登录OBS控制台。 单击“并行文件系统”进入并行文件系统页面。 在OBS控制台并行文件系统列表中,单击已新建的文件系统名称进入详情页面。 在左侧导航栏选择“文件 > 新建文件夹”新建“testFlumeOutput”文件夹。
开启Native Task特性后,Reduce任务在部分操作系统运行失败 问题 开启Native Task特性后,Reduce任务在部分操作系统运行失败。 回答 运行包含Reduce的Mapreduce任务时,通过-Dmapreduce.job.map.output.collector
开启Native Task特性后,Reduce任务在部分操作系统运行失败 问题 开启Native Task特性后,Reduce任务在部分操作系统运行失败。 回答 运行包含Reduce的Mapreduce任务时,通过-Dmapreduce.job.map.output.collector
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 影响任务执行和客户端连接FE。 可能原因
发。 迁移效率高: 基于分布式计算框架进行数据任务执行和数据传输优化,并针对特定数据源写入做了专项优化,迁移效率高。 实时监控:迁移过程中可以执行自动实时监控、告警和通知操作。 约束与限制 搬迁数据量较大时,对网络通信要求较高,执行搬迁任务时,可能会影响其他业务,建议在业务空闲期进行数据迁移任务。
提交作业时系统提示当前用户在Manager不存在如何处理? 问: 安全集群在提交作业时,未进行IAM用户同步,会出现“当前用户在MRS Manager不存在,请先在IAM给予该用户足够的权限,再在概览页签进行IAM用户同步”的错误提示。 答: 在提交作业之前,用户需要先在集群详情
确定”。 出现此告警时,说明当前Loader实例设置直接内存大小无法满足当前业务使用场景,建议打开实例监控界面,在页面上调出“Loader直接内存资源状况”监控图表,观察该监控图表中“Loader使用的直接内存大小”的变化趋势,根据当前直接内存使用的大小,调整“-XX:MaxDi
参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 导致整个系统任务执行变慢阻塞。 可能原因 可能存在较大的任务阻塞了队列执行时长。