MAPREDUCE服务 MRS-使用Spark BulkLoad工具同步数据到HBase表中:操作步骤

时间:2024-12-05 16:02:42

操作步骤

  1. 以客户端安装用户,登录安装客户端的节点。
  2. 执行以下命令切换到客户端目录。

    cd 客户端安装目录

  3. 执行以下命令配置环境变量。

    source bigdata_env

  4. 如果当前集群已启用Kerberos认证,执行以下命令认证当前用户

    kinit 组件业务用户

    如果当前集群未启用Kerberos认证,则执行以下命令设置Hadoop用户名:

    export HADOOP_USER_NAME=hbase

  5. 进入Spark客户端目录,执行如下命令,同步数据到HBase目标表中。

    cd Spark/spark/bin

    例如,执行以下命令同步test.orc_table表的所有数据到HBase的test:orc_table表中,使用id+uuid组合作为rowkey列,输出路径指定为“/tmp/orc_table”:

    spark-submit --master yarn --deploy-mode cluster --jars 客户端安装目录/HBase/hbase/lib/protobuf-java-2.5.0.jar,客户端安装目录/HBase/hbase/conf/* --conf spark.yarn.user.classpath.first=true --class com.huawei.hadoop.hbase.tools.bulkload.SparkBulkLoadTool 客户端安装目录/HBase/hbase/lib/hbase-it-bulk-load-*.jar -sql "select * from test.orc_table" -tb "test:orc_table" -rc "id,uuid" -op "/tmp/orc_table"

support.huaweicloud.com/cmpntguide-lts-mrs/mrs_01_300323.html