MAPREDUCE服务 MRS-使用Spark BulkLoad工具同步数据到HBase表中:操作步骤
操作步骤
- 以客户端安装用户,登录安装客户端的节点。
- 执行以下命令切换到客户端目录。
cd 客户端安装目录
- 执行以下命令配置环境变量。
source bigdata_env
- 如果当前集群已启用Kerberos认证,执行以下命令认证当前用户
kinit 组件业务用户
如果当前集群未启用Kerberos认证,则执行以下命令设置Hadoop用户名:
export HADOOP_USER_NAME=hbase
- 进入Spark客户端目录,执行如下命令,同步数据到HBase目标表中。
cd Spark/spark/bin
例如,执行以下命令同步test.orc_table表的所有数据到HBase的test:orc_table表中,使用id+uuid组合作为rowkey列,输出路径指定为“/tmp/orc_table”:
spark-submit --master yarn --deploy-mode cluster --jars 客户端安装目录/HBase/hbase/lib/protobuf-java-2.5.0.jar,客户端安装目录/HBase/hbase/conf/* --conf spark.yarn.user.classpath.first=true --class com.huawei.hadoop.hbase.tools.bulkload.SparkBulkLoadTool 客户端安装目录/HBase/hbase/lib/hbase-it-bulk-load-*.jar -sql "select * from test.orc_table" -tb "test:orc_table" -rc "id,uuid" -op "/tmp/orc_table"
- MapReduce服务_什么是MapReduce服务_什么是HBase
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- MapReduce服务_什么是Loader_如何使用Loader
- 大数据分析是什么_使用MapReduce_创建MRS服务
- MapReduce服务_什么是ZooKeeper_如何使用ZooKeeper
- MapReduce服务_什么是HDFS_HDFS特性
- 什么是Spark_如何使用Spark_Spark的功能是什么
- Hudi服务_什么是Hudi_如何使用Hudi
- MapReduce服务_什么是Hue_如何使用Hue
- MapReduce服务_什么是存算分离_如何配置MRS集群存算分离