MAPREDUCE服务 MRS-快速开发Spark应用:上传jar包及准备源数据

时间:2024-06-13 16:32:21

上传jar包及准备源数据

  1. 将编译后的jar包上传到客户端节点,例如上传到“/opt/client/sparkdemo”目录下。

    如果本地网络无法直接连接客户端节点上传文件,可先将jar文件或者源数据上传至OBS文件系统中,然后通过 MRS 管理控制台集群内的“文件管理”页面导入HDFS中,再通过HDFS客户端使用hdfs dfs -get命令下载到客户端节点本地。

  2. 将用于认证的用户keytab文件也上传到代码中指定位置,例如上传到“/opt/client”目录下。
  3. 使用root用户登录安装了集群客户端的节点。

    cd /opt/client

    source bigdata_env

    kinit sparkuser

  4. 创建Hive表并写入初始数据。

    beeline

    在Hive Beeline命令行中执行以下命令创建表并插入数据。

    create table person ( name STRING, account INT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ESCAPED BY '\\' STORED AS TEXTFILE;

    insert into table person(name,account) values("1","100");

    select * from person;

    +--------------+-----------------+
    | person.name  | person.account  |
    +--------------+-----------------+
    | 1            | 100             |
    +--------------+-----------------+

  5. 创建HBase表并写入初始数据。

    退出Hive Beeline命令行,执行spark-beeline,然后执行以下命令创建HBase表。

    create table table2 ( key string, cid string ) using org.apache.spark.sql.hbase.HBaseSource options( hbaseTableName "table2", keyCols "key", colsMapping "cid=cf.cid" );

    退出Spark Beeline命令行,执行hbase shell命令,进入HBase Shell命令行,执行以下命令插入数据。

    put 'table2', '1', 'cf:cid', '1000'

    scan 'table2'

    ROW                                                 COLUMN+CELL                                                                                                                                           
     1                                                 column=cf:cid, timestamp=2023-06-12T21:12:50.711, value=1000                                                                                           
    1 row(s)

support.huaweicloud.com/devg-lts-mrs/mrs_09_0026.html