检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Compaction预估总大小持续超过阈值”,检查该告警的“定位信息”,查看并记录告警上报的任务名。 选择“集群 > 服务 > Yarn”,单击“ResourceManager WebUI”后的链接进入Yarn原生页面。 根据告警“定位信息”中的任务名找到异常任务,查找并记录作业的“application ID”,是否可以在Yarn页面上查看到作业日志。
Oozie定时任务没有准时运行如何处理 问题 在Hue或者Oozie客户端设置执行Coordinator定时任务,但没有准时执行。 回答 设置任务时,需要使用UTC时间。 例如在“job.properties”中配置“start=2016-12-20T09:00Z”。 修改配置后重新启动定时任务即可。
重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行6。 重启服务期间服务不可用,业务中断。重启实例期间实例不可用,当前实例节点任务会执行失败。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Ranger”。
创建Loader角色 操作场景 该任务指导MRS集群管理员在FusionInsight Manager创建并设置Loader的角色。Loader角色可设置Loader管理员权限、作业连接、作业分组以及Loader作业的操作和调度权限。 前提条件 MRS集群管理员已明确业务需求。 已登录FusionInsight
nimbus/checkavailable.log Nimbus可用性检查日志。 nimbus/checkService.log Nimbus可服务性检查日志。 nimbus/metrics.log Nimbus监控统计的日志。 nimbus/nimbus.log Nimbus进程运行日志。
状态,当检测到磁盘状态异常会触发告警。当磁盘恢复正常后,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 47002 重要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群或系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名
设置并行度 操作场景 并行度控制任务的数量,影响shuffle操作后数据被切分成的块数。调整并行度让任务的数量和每个任务处理的数据与机器的处理能力达到最优。 查看CPU使用情况和内存占用情况,当任务和数据不是平均分布在各节点,而是集中在个别节点时,可以增大并行度使任务和数据更均匀的分布在各
Broadcast(广播)可以把数据集合分发到每一个节点上,Spark任务在执行过程中要使用这个数据集合时,就会在本地查找Broadcast过来的数据集合。如果不使用Broadcast,每次任务需要数据集合时,都会把数据序列化到任务里面,不但耗时,还使任务变得很大。 每个任务分片在执行中都需要同一份数据集合时,就
重新启动受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行6。 重启服务期间服务不可用,业务中断。重启实例期间实例不可用,当前实例节点任务会执行失败。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Ranger”。
重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行6。 重启服务期间服务不可用,业务中断。重启实例期间实例不可用,当前实例节点任务会执行失败。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Ranger”。
重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行6。 重启服务期间服务不可用,业务中断。重启实例期间实例不可用,当前实例节点任务会执行失败。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Ranger”。
12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 14014 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。
0-LTS及之后的版本中,Spark2x服务改名为Spark,服务包含的角色名也有差异,例如JobHistory2x变更为JobHistory。相关涉及服务名称、角色名称的描述和操作请以实际版本为准。 前提条件 已安装Ranger服务且服务运行正常。 已启用Hive服务的Ranger鉴权功能,并
参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 导致任务失败或者数据丢失。 可能原因 网络故障,导致数据无法发送。
开启Native Task特性后,Reduce任务在部分操作系统运行失败 问题 开启Native Task特性后,Reduce任务在部分操作系统运行失败。 回答 运行包含Reduce的Mapreduce任务时,通过-Dmapreduce.job.map.output.collector
kServer和客户端三种方式对接AOM服务,将Flink监控指标上传至AOM服务。 Flink对接AOM服务前提条件 已开通应用运维管理AOM服务。 MRS集群中已安装HDFS、Yarn、Kafka和Flink服务。 包含Flink服务的客户端已安装,例如安装路径为:/opt/client
导入导出Hive数据库 操作场景 在大数据应用场景中,往往存在将Hive中的数据库及数据库下的所有表迁移到另一个集群上,使用Hive的导出导入数据库命令可以实现完整数据库的迁移。 本章节内容适用于MRS 3.2.0及之后版本。 Hive数据库导入导出功能目前不支持对加密表、HBa
使得该应用在备集群上运行。 对系统的影响 切换业务后,写入备集群的数据默认不会同步到主集群。主集群故障修复后,备集群新增的数据需要通过备份恢复的方式同步到主集群。如果需要自动同步数据,需要切换HBase容灾主备集群。 操作步骤 登录备集群FusionInsight Manager。
参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 Manager中的Kerberos资源异常,组件WebUI认证服务不可用,无法对Web上层服务提供安全认证功能,可能引起无法登录FusionInsight
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 MapReduce可用直接内存不足,可能会造成内存溢出导致服务崩溃。 可能原因