MAPREDUCE服务 MRS-准备MapReduce样例初始数据:规划MapReduce访问多组件样例程序数据

时间:2024-06-29 14:11:12

规划MapReduce访问多组件样例程序数据

  1. 创建HDFS数据文件。

    1. 在Linux系统中新建文本文件,将待处理的数据复制到文件中。例如将MapReduce访问多组件样例程序开发思路中log1.txt中的内容复制保存到data.txt。
    2. 执行以下命令进入HDFS客户端目录并认证用户。

      cd HDFS客户端安装目录

      source bigdata_env

      kinit 组件业务用户(该用户需要具有操作HDFS的权限,首次认证需要修改密码)

    3. 在HDFS上创建一个文件夹“/tmp/examples/multi-components/mapreduce/input/”,并上传data.txt到此目录,操作如下:
      1. 在HDFS客户端使用以下命令创建目录。

        hdfs dfs -mkdir -p /tmp/examples/multi-components/mapreduce/input/

      2. 执行以下命令上传文件至HDFS。

        hdfs dfs -put local_filepath/data.txt /tmp/examples/multi-components/mapreduce/input/

  2. 创建HBase表并插入数据。

    1. 执行以下命令进入HBase客户端。

      cd HBase客户端安装目录

      source bigdata_env

      kinit 组件业务用户

      hbase shell

    2. 执行以下命令在HBase shell交互窗口创建数据表table1,该表有一个列族cf。

      create 'table1', 'cf'

    3. 执行以下命令插入一条rowkey为1、列名为cid、数据值为123的数据。

      put 'table1', '1', 'cf:cid', '123'

    4. 执行以下命令退出HBase客户端。

      quit

  3. 创建Hive表并载入数据。

    1. 使用以下命令进入Hive客户端。

      cd Hive客户端安装目录

      source bigdata_env

      kinit 组件业务用户

      beeline

    2. 执行以下命令在Hive beeline交互窗口创建数据表person,该表有3个字段:name/gender/stayTime。

      CREATE TABLE person(name STRING, gender STRING, stayTime INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' stored as textfile;

    3. 执行以下命令在Hive beeline交互窗口加载数据文件。

      LOAD DATA INPATH '/tmp/examples/multi-components/mapreduce/input/' OVERWRITE INTO TABLE person;

    4. 执行命令!q退出。

  4. 由于Hive加载数据将HDFS对应数据目录清空,所以需再次执行1
support.huaweicloud.com/devg3-mrs/mrs_07_150035.html