MAPREDUCE服务 MRS-Spark应用开发快速入门:上传jar包及准备源数据
上传jar包及准备源数据
- 将编译后的jar包上传到客户端节点,例如上传到“/opt/client/sparkdemo”目录下。
如果本地网络无法直接连接客户端节点上传文件,可先将jar文件或者源数据上传至OBS文件系统中,然后通过 MRS 管理控制台集群内的“文件管理”页面导入HDFS中,再通过HDFS客户端使用hdfs dfs -get命令下载到客户端节点本地。
- 将用于认证的用户keytab文件也上传到代码中指定位置,例如上传到“/opt/client”目录下。
- 使用root用户登录安装了集群客户端的节点。
cd /opt/client
source bigdata_env
kinit sparkuser
- 创建Hive表并写入初始数据。
beeline
在Hive Beeline命令行中执行以下命令创建表并插入数据。
create table person ( name STRING, account INT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ESCAPED BY '\\' STORED AS TEXTFILE;
insert into table person(name,account) values("1","100");
select * from person;
+--------------+-----------------+ | person.name | person.account | +--------------+-----------------+ | 1 | 100 | +--------------+-----------------+
- 创建HBase表并写入初始数据。
退出Hive Beeline命令行,执行spark-beeline,然后执行以下命令创建HBase表。
create table table2 ( key string, cid string ) using org.apache.spark.sql.hbase.HBaseSource options( hbaseTableName "table2", keyCols "key", colsMapping "cid=cf.cid" );
退出Spark Beeline命令行,执行hbase shell命令,进入HBase Shell命令行,执行以下命令插入数据。
put 'table2', '1', 'cf:cid', '1000'
scan 'table2'
ROW COLUMN+CELL 1 column=cf:cid, timestamp=2023-06-12T21:12:50.711, value=1000 1 row(s)