检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
1及之后版本。 告警解释 系统每隔1分钟检测一次表的状态,当检测到有表处于只读状态,系统产生告警。当没有表处于只读状态,告警自动消除。 告警属性 告警ID 告警级别 是否可自动清除 45447 次要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。
Hadoop平台开发的列式存储管理器,具有Hadoop生态系统应用程序的共同技术特性:在通用的商用硬件上运行,可水平扩展,提供高可用性。 Kudu的设计具有以下优点: 能够快速处理OLAP工作负载。 支持与MapReduce,Spark和其他Hadoop生态系统组件集成。 与Apache Impal
TokenServer RPC队列平均时间超过阈值 告警解释 系统每30秒周期性检测TokenServer服务RPC队列平均时间,当连续5次检测到TokenServer实例RPC队列平均时间超出阈值时产生该告警。 当系统检测到TokenServer服务RPC队列平均时间小于阈值时,告警恢复。
Yarn任务挂起内存超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检查YARN服务处于挂起状态(Pending)的任务所占内存量,并把挂起状态任务的内存量和阈值进行比较。当检测到挂起状态任务的内存量超过阈值时产生该告警。 用户可通过“系统设置> 阈值配置 > 服务 > Yarn > 队列root挂起的内存量
Storm服务可用Supervisor数量小于阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测Supervisor数量,并把实际Supervisor数量和阈值相比较。当检测到Supervisor数量低于阈值时产生该告警。 用户可通过“系统设置 > 阈值配置”修改阈值。 当Supervisor数量大于或等于阈值时,告警恢复。
HDFS日志文件过大导致OS盘空间不足 用户问题 OS盘/var/log分区空间不足。 问题现象 “/var/log/Bigdata/hdfs/*/hdfs-omm-*.out”日志文件过大,造成OS盘/var/log分区空间不足。 原因分析 在HDFS长时间运行场景下,操作系统会把JVM创建的“/tmp/
图1中各模块的功能说明如表1所示。 表1 模块说明 名称 描述 NameNode 用于管理文件系统的命名空间、目录结构、元数据信息以及提供备份机制等,分为: Active NameNode:管理文件系统的命名空间、维护文件系统的目录结构树以及元数据信息;记录写入的每个“数据块”与其归属文件的对应关系。
Kafka是一个分布式的消息发布-订阅系统。它采用独特的设计提供了类似JMS的特性,主要用于处理活跃的流式数据。 Kafka有很多适用的场景:消息队列、行为跟踪、运维数据监控、日志收集、流处理、事件溯源、持久化日志等。 Kafka有如下几个特点: 高吞吐量 消息持久化到磁盘 分布式系统易扩展 容错性好
Kafka样例程序开发思路 场景说明 Kafka是一个分布式消息系统,在此系统上用户可以做一些消息的发布和订阅操作,假定用户要开发一个Producer,让其每秒向Kafka集群某Topic发送一条消息,另外还需要实现一个Consumer,订阅该Topic,实时消费该类消息。 开发思路
手动恢复Doris数据 Doris支持将当前数据以文件的形式,通过Broker备份到远端存储系统中。再通过恢复命令,从远端存储系统中将数据恢复到任意Doris集群中。可实现将Doris数据定期进行快照备份及数据迁移操作。 该章节操作仅适用于MRS 3.3.1之前版本。 备份恢复相
Doris集群与OBS网络互通,相关操作具体请参考初始化配置。 创建OBS并行文件系统并获取AK/SK和DomainID 创建OBS并行文件系统。 登录OBS管理控制台。 选择“并行文件系统 > 创建并行文件系统”。 填写文件系统名称,例如“doris-obs”。 企业项目需要与MRS集群保持一致,其他参数请根据需要填写。
HBase集群使用Hadoop和HBase组件提供一个稳定可靠、性能优异、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发现数据价值。 操作流程 开始使用如下样例前,请务必按准备工作指导完成必要操作。
基于角色的权限控制 MRS集群通过采用RBAC(role-based access control,基于角色的权限控制)方式对大数据系统进行权限管理,将系统中各组件零散的权限管理功能集中呈现和管理,对普通用户屏蔽掉了内部的权限管理细节,对管理员简化了权限管理的操作方法,提升权限管理的易用性和用户体验。
删除MRS集群用户 根据业务需要,管理员应在Manager删除不再使用的系统用户。 用户删除后,已经发放的TGT在24小时内仍然有效,用户可以使用该TGT继续进行安全认证并访问系统。 如新建用户与已删除用户同名,则会继承已删除用户的拥有的所有Owner权限。建议根据实际业务需求决
中提交一个HadoopStream作业。 前提条件 用户已经将作业所需的程序包和数据文件上传至OBS或HDFS文件系统中。 如果作业程序需要读取以及分析OBS文件系统中的数据,需要先配置MRS集群的存算分离,请参考配置MRS集群存算分离。 提交HadoopStream作业 登录MRS管理控制台。
参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 网口名 产生告警的网口名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务延迟:主机网络读吞吐率
AZ容灾开启后,系统每隔5分钟检查一次当前系统上AZ的健康状态,当检测到AZ健康状态为亚健康或者不健康时产生告警。AZ健康状态恢复健康时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 12101 紧急 是 告警参数 告警参数 参数含义 来源 产生告警的集群或系统名称。 服务名
产生告警的NameService名称。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDFS文件数过多可能造成HDFS系统响应慢或磁盘被占满。 可能原因 HDFS文件数超过阈值。 处理步骤 检查系统中的文件数量。 在FusionInsight Mana
ALM-16009 Map数超过阈值 告警解释 系统每30秒周期性检测执行的HQL的Map数是否超过阈值,超过阈值发出告警。系统默认的平滑次数为3次,默认阈值为5000。 告警属性 告警ID 告警级别 是否自动清除 16009 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
HostName 产生告警的主机名。 对系统的影响 监控指标转储失败会影响上层管理系统无法获取到MRS Manager系统的监控指标。 可能原因 无法连接服务器。 无法访问服务器上保存路径。 上传监控指标文件失败。 处理步骤 联系运维人员查看MRS Manager系统与服务器网络连接是否正常。