检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开源sqoop-shell工具使用示例(SFTP - HDFS) 操作场景 本文将以“从SFTP服务器导入数据到HDFS”的作业为例,介绍如何分别在交互模式和批量模式下使用sqoop-shell工具进行创建和启动Loader作业。 本章节适用于MRS 3.x及后续版本。 前提条件
使用sqoop-shell工具导入数据到HDFS 操作场景 本文将以从SFTP服务器导入数据到HDFS的作业为例,介绍如何分别在交互模式和批量模式下使用sqoop-shell工具进行创建和启动Loader作业。 前提条件 已安装并配置Loader客户端,具体操作请参见使用客户端运行
MapReduce统计样例程序开发思路 场景说明 假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发MapReduce应用程序实现如下功能。 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间
创建Kafka权限角色 操作场景 该任务指导MRS集群管理员创建并设置Kafka的角色。 本章节内容适用于MRS 3.x及后续版本。 安全模式集群支持创建Kafka角色,普通模式集群不支持创建Kafka角色。 如果当前组件使用了Ranger进行权限控制,须基于Ranger配置相关策略进行权限管理
查看作业历史信息 操作场景 该任务指导您在日常运维中,查看某个Loader作业的历史执行状态以及每次执行时长,同时提供该作业两种操作: 脏数据:查看作业执行过程中处理失败的数据、或者被清洗过滤掉的数据,针对该数据可以查看源数据中哪些数据不符合转换、清洗规则。 日志:查看作业在MapReduce
使用Spark 运行Spark应用时修改split值报错 提交Spark任务时提示参数格式错误 磁盘容量不足导致Spark、Hive和Yarn服务不可用 引入jar包不正确导致Spark任务无法运行 Spark任务由于内存不够或提交作业时未添加Jar包,作业卡住 提交Spark任务时报错
MRS管理控制台上提交作业异常处理 用户问题 MRS控制台作业管理提交作业“状态”为“已接受”,“执行结果”为“未定”,作业未成功提交到Yarn上,如下图所示: 原因分析 由于管理控制台的作业管理功能是由集群管理模块Executor来负责调度执行,因此作业未提交到Yarn上,根因需要查看
配置MRS集群审计日志本地备份数 集群组件的审计日志按名称分类,保存在集群各节点“/var/log/Bigdata/audit”,OMS每天凌晨3点自动备份这些审计日志目录。 各节点审计日志目录会按<节点IP>.tar.gz的文件名压缩,所有压缩文件再按<yyyy-MM-dd_HH-mm-ss
组件配置类 MRS是否支持Hive on Kudu? MRS集群是否支持Hive on Spark? 如何修改DBService的IP地址? Kafka支持的访问协议类型有哪些? MRS集群中Spark任务支持哪些Python版本? MRS 2.1.0版本集群对Storm日志的大小有什么限制
REGISTER INDEX TABLE 命令功能 REGISTER INDEX TABLE命令用于将索引表注册到主表。 命令语法 REGISTER INDEX TABLE indextable_name ON db_name.maintable_name; 参数描述 表1 REFRESH
INSERT INTO CARBON TABLE 命令功能 INSERT命令用于将SELECT查询结果加载到CarbonData表中。 命令格式 INSERT INTO [CARBON TABLE] [select query]; 参数描述 表1 INSERT INTO参数 参数
Spark Streaming任务一直阻塞 问题 运行一个Spark Streaming任务,确认有数据输入后,发现没有任何处理的结果。打开Web界面查看Spark Job执行情况,发现如下图所示:有两个Job一直在等待运行,但一直无法成功运行。 图1 Active Jobs 继续查看已经完成的
访问FlinkServer WebUI界面 操作场景 MRS集群安装Flink组件后,用户可以通过Flink的WebUI,在图形化界面进行集群连接、数据连接、流表管理和作业管理等。 该任务指导用户在MRS集群中访问Flink WebUI。第一次访问Manager和Flink WebUI
创建FlinkServer权限角色 该任务指导MRS集群管理员在Manager创建并设置FlinkServer的角色。FlinkServer角色可设置FlinkServer管理员权限以及应用的编辑和查看权限。 用户需要在FlinkServer中对指定的用户设置权限,才能够更新数据、
配置TimelineServer支持HA 操作场景 TimelineServer作为Yarn服务的一个角色,当前版本开始支持HA模式。如果需要避免TimelineServer单点故障问题,可以通过开启TimelineServer HA来确保Yarn TimelineServer角色的高可用性
YARN基本原理 为了实现一个Hadoop集群的集群共享、可伸缩性和可靠性,并消除早期MapReduce框架中的JobTracker性能瓶颈,开源社区引入了统一的资源管理框架YARN。 YARN是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建一个全局的
MapReduce访问多组件样例程序开发思路 场景说明 该样例以MapReduce访问HDFS、HBase、Hive为例,介绍如何编写MapReduce作业访问多个服务组件。帮助用户理解认证、配置加载等关键使用方式。 该样例逻辑过程如下。 以HDFS文本文件为输入数据 log1.txt
运行Flink作业 用户可将自己开发的程序提交到MRS中,执行程序并获取结果,本章节指导您如何在MRS集群中提交一个Flink作业。 Flink作业用于提交jar程序处理流式数据。 用户可以在MRS管理控制台在线创建一个作业并提交运行,也可以通过MRS集群客户端来以命令行形式提交作业
实时数据加载:通过FlinkSQL将订单表Kafka数据实时同步到Doris 应用场景 创建MRS FlinkServer作业,将订单表Kafka数据通过FlinkSQL实时同步到Doris,数据新增。 方案架构 对实时性要求较高的场景,可直接将实时流式数据通过FlinkSQL传入
HBase容灾集群主备倒换 操作场景 当前环境HBase已经是容灾集群,因为某些原因,需要将主备集群互换,即备集群变成主集群,主集群变成备集群。 本章节适用于MRS 3.x及之后版本。 对系统的影响 主备集群互换后,原先主集群将不能再写入数据,原先备集群将变成主集群,接管上层业务。