MAPREDUCE服务 MRS-Spark从Hive读取数据再写入HBase样例程序开发思路:数据规划

时间:2024-10-22 10:50:22

数据规划

在开始开发应用前,需要创建Hive表,命名为person,并插入数据。同时,创建HBase table2表,用于将分析后的数据写入。

  1. 将原日志文件放置到HDFS系统中。

    1. 在本地新建一个空白的log1.txt文件,并在文件内写入如下内容:
      1,100
    2. 在HDFS中新建一个目录/tmp/input,并将log1.txt文件上传至此目录。
      1. 在Linux系统HDFS客户端使用命令hadoop fs -mkdir /tmp/input(hdfs dfs命令有同样的作用),创建对应目录。
      2. 在Linux系统HDFS客户端使用命令hadoop fs -put log1.txt /tmp/input,上传数据文件。

  2. 将导入的数据放置在Hive表里。

    首先,确保JD BCS erver已启动。然后使用Beeline工具,创建Hive表,并插入数据。

    1. 执行如下命令,创建命名为person的Hive表。

      create table person

      (

      name STRING,

      account INT

      )

      ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ESCAPED BY '\\' STORED AS TEXTFILE;

    2. 执行如下命令插入数据。

      load data inpath '/tmp/input/log1.txt' into table person;

  3. 创建HBase表。

    确保JDB CS erver已启动,然后使用Spark-beeline工具,创建HBase表,并插入数据。

    1. 执行如下命令,创建命名为table2的HBase表。

      create table table2

      (

      key string,

      cid string

      )

      using org.apache.spark.sql.hbase.HBaseSource

      options(

      hbaseTableName "table2",

      keyCols "key",

      colsMapping "cid=cf.cid");

    2. 通过HBase插入数据,执行如下命令。

      put 'table2', '1', 'cf:cid', '1000'

support.huaweicloud.com/devg3-mrs/mrs_07_410088.html