MAPREDUCE服务 MRS-MapReduce访问多组件样例程序开发思路:数据规划

时间:2024-06-19 14:14:15

数据规划

  1. 创建HDFS数据文件。
    1. 在Linux系统上新建文本文件,将log1.txt中的内容复制保存到data.txt。
    2. 在HDFS上创建一个文件夹,“/tmp/examples/multi-components/mapreduce/input/”,并上传data.txt到此目录,命令如下。
      1. 在Linux系统HDFS客户端使用命令hdfs dfs -mkdir -p /tmp/examples/multi-components/mapreduce/input/
      2. 在Linux系统HDFS客户端使用命令hdfs dfs -put data.txt /tmp/examples/multi-components/mapreduce/input/
  2. 创建HBase表并插入数据。
    1. 在Linux系统HBase客户端使用命令hbase shell
    2. 在HBase shell交互窗口创建数据表table1,该表有一个列族cf,使用命令create 'table1', 'cf'
    3. 插入一条rowkey为1、列名为cid、数据值为123的数据,使用命令put 'table1', '1', 'cf:cid', '123'
    4. 执行命令quit退出。
  3. 创建Hive表并载入数据。
    1. 在Linux系统Hive客户端使用命令beeline
    2. 在Hive beeline交互窗口创建数据表person,该表有3个字段:name/gender/stayTime,使用命令CREATE TABLE person(name STRING, gender STRING, stayTime INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' stored as textfile;
    3. 在Hive beeline交互窗口加载数据文件,LOAD DATA INPATH '/tmp/examples/multi-components/mapreduce/input/' OVERWRITE INTO TABLE person;
    4. 执行命令!q退出。
  4. 由于Hive加载数据将HDFS对应数据目录清空,所以需再次执行1。
support.huaweicloud.com/devg-mrs/mrs_06_0098.html