MAPREDUCE服务 MRS-准备MapReduce样例初始数据:规划MapReduce访问多组件样例程序数据
规划MapReduce访问多组件样例程序数据
- 创建HDFS数据文件。
- 在Linux系统中新建文本文件,将待处理的数据复制到文件中。例如将MapReduce访问多组件样例程序开发思路中log1.txt中的内容复制保存到data.txt。
- 执行以下命令进入HDFS客户端目录并认证用户。
source bigdata_env
kinit 组件业务用户(该用户需要具有操作HDFS的权限,首次认证需要修改密码)
- 在HDFS上创建一个文件夹“/tmp/examples/multi-components/mapreduce/input/”,并上传data.txt到此目录,操作如下:
- 创建HBase表并插入数据。
- 创建Hive表并载入数据。
- 使用以下命令进入Hive客户端。
source bigdata_env
kinit 组件业务用户
beeline
- 执行以下命令在Hive beeline交互窗口创建数据表person,该表有3个字段:name/gender/stayTime。
CREATE TABLE person(name STRING, gender STRING, stayTime INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' stored as textfile;
- 执行以下命令在Hive beeline交互窗口加载数据文件。
LOAD DATA INPATH '/tmp/examples/multi-components/mapreduce/input/' OVERWRITE INTO TABLE person;
- 执行命令!q退出。
- 使用以下命令进入Hive客户端。
- 由于Hive加载数据将HDFS对应数据目录清空,所以需再次执行1。
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- 大数据分析是什么_使用MapReduce_创建MRS服务
- MapReduce服务_什么是MapReduce服务_什么是HBase
- MRS备份恢复_MapReduce备份_数据备份
- MapReduce服务_什么是HetuEngine_如何使用HetuEngine
- MapReduce服务_什么是Hue_如何使用Hue
- MapReduce服务_什么是Kafka_如何使用Kafka
- MapReduce服务_什么是HDFS_HDFS特性
- MapReduce服务_什么是存算分离_如何配置MRS集群存算分离
- 什么是Manager_Manager的功能_MRS运维管理