MAPREDUCE服务 MRS-快速开发Spark应用:上传jar包及准备源数据
上传jar包及准备源数据
- 将编译后的jar包上传到客户端节点,例如上传到“/opt/client/sparkdemo”目录下。
如果本地网络无法直接连接客户端节点上传文件,可先将jar文件或者源数据上传至OBS文件系统中,然后通过 MRS 管理控制台集群内的“文件管理”页面导入HDFS中,再通过HDFS客户端使用hdfs dfs -get命令下载到客户端节点本地。
- 将用于认证的用户keytab文件也上传到代码中指定位置,例如上传到“/opt/client”目录下。
- 使用root用户登录安装了集群客户端的节点。
cd /opt/client
source bigdata_env
kinit sparkuser
- 创建Hive表并写入初始数据。
beeline
在Hive Beeline命令行中执行以下命令创建表并插入数据。
create table person ( name STRING, account INT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ESCAPED BY '\\' STORED AS TEXTFILE;
insert into table person(name,account) values("1","100");
select * from person;
+--------------+-----------------+ | person.name | person.account | +--------------+-----------------+ | 1 | 100 | +--------------+-----------------+
- 创建HBase表并写入初始数据。
退出Hive Beeline命令行,执行spark-beeline,然后执行以下命令创建HBase表。
create table table2 ( key string, cid string ) using org.apache.spark.sql.hbase.HBaseSource options( hbaseTableName "table2", keyCols "key", colsMapping "cid=cf.cid" );
退出Spark Beeline命令行,执行hbase shell命令,进入HBase Shell命令行,执行以下命令插入数据。
put 'table2', '1', 'cf:cid', '1000'
scan 'table2'
ROW COLUMN+CELL 1 column=cf:cid, timestamp=2023-06-12T21:12:50.711, value=1000 1 row(s)
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- 什么是数据湖探索服务_数据湖探索DLI用途与特点
- 什么是Spark_如何使用Spark_Spark的功能是什么
- 大数据分析是什么_使用MapReduce_创建MRS服务
- MapReduce服务_什么是Flink_如何使用Flink
- MapReduce工作原理_MapReduce是什么意思_MapReduce流程_MRS_华为云
- 什么是函数工作流_函数托管计算服务_函数工作流 FunctionGraph-华为云
- 编译构建服务快速试用
- 数据备份归档在哪里_数据分析存储系统_大数据存储管理
- 什么是Spark SQL作业_数据湖探索DLISpark SQL作业