云服务器内容精选

华为云首页用户手册

HBase企业级能力增强

MAPREDUCE服务 MRS-使用Spark BulkLoad工具同步数据到HBase表中:前提条件

前提条件集群安装了Spark及Hive服务。执行数据导入的用户需要同时具有Spark（对应源表的SELECT权限）、HBase权限（对应HBase NameSpace的RWXA权限）和HDFS权限（对应HFile输出目录的读写权限）。如果集群已启用Kerberos认证（安全模式），需修改Spark“客户端安装目录/Spark/spark/conf/spark-defaults.conf”配置文件中的“spark.yarn.security.credentials.hbase.enabled”参数值为“true”。

MAPREDUCE服务 MRS HBase企业级能力增强
MAPREDUCE服务 MRS-使用Spark BulkLoad工具同步数据到HBase表中:操作步骤

操作步骤以客户端安装用户，登录安装客户端的节点。执行以下命令切换到客户端目录。 cd 客户端安装目录执行以下命令配置环境变量。 source bigdata_env 如果当前集群已启用Kerberos认证，执行以下命令认证当前用户 kinit 组件业务用户如果当前集群未启用Kerberos认证，则执行以下命令设置Hadoop用户名： export HADOOP_USER_NAME=hbase 进入Spark客户端目录，执行如下命令，同步数据到HBase目标表中。 cd Spark/spark/bin 例如，执行以下命令同步test.orc_table表的所有数据到HBase的test:orc_table表中，使用id+uuid组合作为rowkey列，输出路径指定为“/tmp/orc_table”： spark-submit --master yarn --deploy-mode cluster --jars 客户端安装目录/HBase/hbase/lib/protobuf-java-2.5.0.jar,客户端安装目录/HBase/hbase/conf/* --conf spark.yarn.user.classpath.first=true --class com.huawei.hadoop.hbase.tools.bulkload.SparkBulkLoadTool 客户端安装目录/HBase/hbase/lib/hbase-it-bulk-load-*.jar -sql "select * from test.orc_table" -tb "test:orc_table" -rc "id,uuid" -op "/tmp/orc_table"

MAPREDUCE服务 MRS HBase企业级能力增强