华为云首页用户手册

MAPREDUCE服务 MRS-快速开发Spark应用:上传jar包及准备源数据

时间：2024-06-13 16:32:21

MAPREDUCE服务 MRS 快速开发MRS组件应用

上传jar包及准备源数据

将编译后的jar包上传到客户端节点，例如上传到“/opt/client/sparkdemo”目录下。

如果本地网络无法直接连接客户端节点上传文件，可先将jar文件或者源数据上传至OBS文件系统中，然后通过 MRS 管理控制台集群内的“文件管理”页面导入HDFS中，再通过HDFS客户端使用hdfs dfs -get命令下载到客户端节点本地。
将用于认证的用户keytab文件也上传到代码中指定位置，例如上传到“/opt/client”目录下。
使用root用户登录安装了集群客户端的节点。
cd /opt/client

source bigdata_env

kinit sparkuser
创建Hive表并写入初始数据。
beeline

在Hive Beeline命令行中执行以下命令创建表并插入数据。

create table person ( name STRING, account INT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ESCAPED BY '\\' STORED AS TEXTFILE;

insert into table person(name,account) values("1","100");

select * from person;
```
+--------------+-----------------+
| person.name  | person.account  |
+--------------+-----------------+
| 1            | 100             |
+--------------+-----------------+
```
创建HBase表并写入初始数据。
退出Hive Beeline命令行，执行spark-beeline，然后执行以下命令创建HBase表。

create table table2 ( key string, cid string ) using org.apache.spark.sql.hbase.HBaseSource options( hbaseTableName "table2", keyCols "key", colsMapping "cid=cf.cid" );

退出Spark Beeline命令行，执行hbase shell命令，进入HBase Shell命令行，执行以下命令插入数据。

put 'table2', '1', 'cf:cid', '1000'

scan 'table2'
```
ROW                                                 COLUMN+CELL                                                                                                                                           
 1                                                 column=cf:cid, timestamp=2023-06-12T21:12:50.711, value=1000                                                                                           
1 row(s)
```