Spark从Hive读取数据再写入HBase样例程序-华为云

MAPREDUCE服务 MRS-Spark从Hive读取数据再写入HBase样例程序（Python）:代码样例

代码样例由于pyspark不提供Hbase相关api，本样例使用Python调用Java的方式实现。下面代码片段仅为演示，具体代码参见SparkHivetoHbasePythonExample： # -*- coding:utf-8 -*- from py4j.java_gateway import java_import from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession\ .builder\ .appName("SparkHivetoHbase") \ .getOrCreate() # 向sc._jvm中导入要运行的类 java_import(spark._jvm, 'com.huawei.bigdata.spark.examples.SparkHivetoHbase') # 创建类实例并调用方法 spark._jvm.SparkHivetoHbase().hivetohbase(spark._jsc) # 停止SparkSession spark.stop()

MAPREDUCE服务 MRS Spark从Hive读取数据再写入HBase样例程序

MAPREDUCE服务 MRS-Spark从Hive读取数据再写入HBase样例程序开发思路:场景说明

场景说明假定Hive的person表存储用户当天消费的金额信息，HBase的table2表存储用户历史消费的金额信息。现person表有记录name=1,account=100，表示用户1在当天消费金额为100元。 table2表有记录key=1,cf:cid=1000，表示用户1的历史消息记录金额为1000元。基于某些业务要求，要求开发Spark应用程序实现如下功能：根据用户名累计用户的历史消费金额，即用户总消费金额=100(用户当天的消费金额) + 1000(用户历史消费金额)。上例所示，运行结果table2表用户key=1的总消费金融为cf:cid=1100元。

MAPREDUCE服务 MRS Spark从Hive读取数据再写入HBase样例程序

MAPREDUCE服务 MRS-Spark从Hive读取数据再写入HBase样例程序开发思路:打包项目

打包项目将user.keytab、krb5.conf 两个文件上传客户端所在服务器上。通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。编译打包前，样例代码中的user.keytab、krb5.conf文件路径需要修改为该文件所在客户端服务器的实际路径。例如：“/opt/female/user.keytab”，“/opt/female/krb5.conf”。运行样例程序前，需要在Spark客户端的“spark-defaults.conf”配置文件中将配置项“spark.yarn.security.credentials.hbase.enabled”设置为“true”（该参数值默认为“false”，改为“true”后对已有业务没有影响。如果要卸载HBase服务，卸载前请将此参数值改回“false”）。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“ /opt/female/” ）下。

MAPREDUCE服务 MRS Spark从Hive读取数据再写入HBase样例程序

MAPREDUCE服务 MRS-Spark从Hive读取数据再写入HBase样例程序开发思路:运行任务

运行任务进入Spark客户端目录，调用bin/spark-submit脚本运行代码，运行命令分别如下（类名与文件名等请与实际代码保持一致，此处仅为示例）：运行Java或Scala样例代码 bin/spark-submit --class com.huawei.bigdata.spark.examples.SparkHivetoHbase --master yarn --deploy-mode client /opt/female/SparkHivetoHbase-1.0.jar 运行Python样例程序由于pyspark不提供Hbase相关api，本样例使用Python调用Java的方式实现。将所提供 Java代码使用maven打包成jar，并放在相同目录下，运行python程序时要使用--jars把jar包加载到classpath中。由于Python样例代码中未给出认证信息，请在执行应用程序时通过配置项“--keytab”和“--principal”指定认证信息。 bin/spark-submit --master yarn --deploy-mode client --keytab /opt/FIclient/user.keytab --principal sparkuser --jars /opt/female/SparkHivetoHbasePythonExample/SparkHivetoHbase-1.0.jar /opt/female/SparkHivetoHbasePythonExample/SparkHivetoHbasePythonExample.py

MAPREDUCE服务 MRS Spark从Hive读取数据再写入HBase样例程序

MAPREDUCE服务 MRS-Spark从Hive读取数据再写入HBase样例程序开发思路:场景说明

场景说明假定Hive的person表存储用户当天消费的金额信息，HBase的table2表存储用户历史消费的金额信息。现person表有记录name=1,account=100，表示用户1在当天消费金额为100元。 table2表有记录key=1,cf:cid=1000，表示用户1的历史消息记录金额为1000元。基于某些业务要求，要求开发Spark应用程序实现如下功能：根据用户名累计用户的历史消费金额，即用户总消费金额=100(用户当天的消费金额) + 1000(用户历史消费金额)。上例所示，运行结果table2表用户key=1的总消费金融为cf:cid=1100元。

MAPREDUCE服务 MRS Spark从Hive读取数据再写入HBase样例程序

MAPREDUCE服务 MRS-Spark从Hive读取数据再写入HBase样例程序开发思路:打包项目

打包项目通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“ /opt/female/” ）下。运行样例程序前，需要在Spark客户端的“spark-defaults.conf”配置文件中将配置项“spark.yarn.security.credentials.hbase.enabled”设置为“true”（该参数值默认为“false”，改为“true”后对已有业务没有影响。如果要卸载HBase服务，卸载前请将此参数值改回“false”）。

MAPREDUCE服务 MRS Spark从Hive读取数据再写入HBase样例程序

MAPREDUCE服务 MRS-Spark从Hive读取数据再写入HBase样例程序开发思路:数据规划

数据规划在开始开发应用前，需要创建Hive表，命名为person，并插入数据。同时，创建HBase table2表，用于将分析后的数据写入。将原日志文件放置到HDFS系统中。在本地新建一个空白的log1.txt文件，并在文件内写入如下内容： 1,100 在HDFS中新建一个目录/tmp/input，并将log1.txt文件上传至此目录。在Linux系统HDFS客户端使用命令hadoop fs -mkdir /tmp/input（hdfs dfs命令有同样的作用），创建对应目录。在Linux系统HDFS客户端使用命令hadoop fs -put log1.txt /tmp/input，上传数据文件。将导入的数据放置在Hive表里。首先，确保JD BCS erver已启动。然后使用Beeline工具，创建Hive表，并插入数据。执行如下命令，创建命名为person的Hive表。 create table person ( name STRING, account INT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ESCAPED BY '\\' STORED AS TEXTFILE; 执行如下命令插入数据。 load data inpath '/tmp/input/log1.txt' into table person; 创建HBase表。确保JDB CS erver已启动，然后使用Spark-beeline工具，创建HBase表，并插入数据。执行如下命令，创建命名为table2的HBase表。 create table table2 ( key string, cid string ) using org.apache.spark.sql.hbase.HBaseSource options( hbaseTableName "table2", keyCols "key", colsMapping "cid=cf.cid"); 通过HBase插入数据，执行如下命令。 put 'table2', '1', 'cf:cid', '1000'

MAPREDUCE服务 MRS Spark从Hive读取数据再写入HBase样例程序

MAPREDUCE服务 MRS-Spark从Hive读取数据再写入HBase样例程序开发思路:运行任务

运行任务进入Spark客户端目录，调用bin/spark-submit脚本运行代码，运行命令分别如下（类名与文件名等请与实际代码保持一致，此处仅为示例）：运行Java或Scala样例代码 bin/spark-submit --class com.huawei.bigdata.spark.examples.SparkHivetoHbase --master yarn --deploy-mode client /opt/female/SparkHivetoHbase-1.0.jar 运行Python样例程序由于pyspark不提供Hbase相关api，本样例使用Python调用Java的方式实现。将所提供 Java代码使用maven打包成jar，并放在相同目录下，运行python程序时要使用--jars把jar包加载到classpath中。 bin/spark-submit --master yarn --deploy-mode client --jars /opt/female/SparkHivetoHbasePythonExample/SparkHivetoHbase-1.0.jar /opt/female/SparkHivetoHbasePythonExample/SparkHivetoHbasePythonExample.py

MAPREDUCE服务 MRS Spark从Hive读取数据再写入HBase样例程序

MAPREDUCE服务 MRS-Spark从Hive读取数据再写入HBase样例程序（Python）:代码样例

代码样例由于pyspark不提供Hbase相关api，本样例使用Python调用Java的方式实现。下面代码片段仅为演示，具体代码参见SparkHivetoHbasePythonExample： # -*- coding:utf-8 -*- from py4j.java_gateway import java_import from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession\ .builder\ .appName("SparkHivetoHbase") \ .getOrCreate() # 向sc._jvm中导入要运行的类 java_import(spark._jvm, 'com.huawei.bigdata.spark.examples.SparkHivetoHbase') # 创建类实例并调用方法 spark._jvm.SparkHivetoHbase().hivetohbase(spark._jsc) # 停止SparkSession spark.stop()

MAPREDUCE服务 MRS Spark从Hive读取数据再写入HBase样例程序

MAPREDUCE服务 MRS-Spark从Hive读取数据再写入HBase样例程序开发思路:运行任务

运行任务进入Spark客户端目录，调用bin/spark-submit脚本运行代码，运行命令分别如下（类名与文件名等请与实际代码保持一致，此处仅为示例）：运行Java或Scala样例代码 bin/spark-submit --class com.huawei.bigdata.spark.examples.SparkHivetoHbase --master yarn --deploy-mode client /opt/female/SparkHivetoHbase-1.0.jar 运行Python样例程序由于pyspark不提供Hbase相关api，本样例使用Python调用Java的方式实现。将所提供 Java代码使用maven打包成jar，并放在相同目录下，运行python程序时要使用--jars把jar包加载到classpath中。由于Python样例代码中未给出认证信息，请在执行应用程序时通过配置项“--keytab”和“--principal”指定认证信息。 bin/spark-submit --master yarn --deploy-mode client --keytab /opt/FIclient/user.keytab --principal sparkuser --jars /opt/female/SparkHivetoHbasePythonExample/SparkHivetoHbase-1.0.jar /opt/female/SparkHivetoHbasePythonExample/SparkHivetoHbasePythonExample.py

MAPREDUCE服务 MRS Spark从Hive读取数据再写入HBase样例程序

MAPREDUCE服务 MRS-Spark从Hive读取数据再写入HBase样例程序开发思路:场景说明

场景说明假定Hive的person表存储用户当天消费的金额信息，HBase的table2表存储用户历史消费的金额信息。现person表有记录name=1,account=100，表示用户1在当天消费金额为100元。 table2表有记录key=1,cf:cid=1000，表示用户1的历史消息记录金额为1000元。基于某些业务要求，要求开发Spark应用程序实现如下功能：根据用户名累计用户的历史消费金额，即用户总消费金额=100(用户当天的消费金额) + 1000(用户历史消费金额)。上例所示，运行结果table2表用户key=1的总消费金融为cf:cid=1100元。

MAPREDUCE服务 MRS Spark从Hive读取数据再写入HBase样例程序

MAPREDUCE服务 MRS-Spark从Hive读取数据再写入HBase样例程序开发思路:打包项目

打包项目将user.keytab、krb5.conf 两个文件上传客户端所在服务器上。通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中调测Spark应用。编译打包前，样例代码中的user.keytab、krb5.conf文件路径需要修改为该文件所在客户端服务器的实际路径。例如：“/opt/female/user.keytab”，“/opt/female/krb5.conf”。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“ /opt/female/” ）下。

MAPREDUCE服务 MRS Spark从Hive读取数据再写入HBase样例程序

MAPREDUCE服务 MRS-Spark从Hive读取数据再写入HBase样例程序开发思路:场景说明

场景说明假定Hive的person表存储用户当天消费的金额信息，HBase的table2表存储用户历史消费的金额信息。现person表有记录name=1,account=100，表示用户1在当天消费金额为100元。 table2表有记录key=1,cf:cid=1000，表示用户1的历史消息记录金额为1000元。基于某些业务要求，要求开发Spark应用程序实现如下功能：根据用户名累计用户的历史消费金额，即用户总消费金额=100(用户当天的消费金额) + 1000(用户历史消费金额)。上例所示，运行结果table2表用户key=1的总消费金融为cf:cid=1100元。

MAPREDUCE服务 MRS Spark从Hive读取数据再写入HBase样例程序

MAPREDUCE服务 MRS-Spark从Hive读取数据再写入HBase样例程序开发思路:运行任务

运行任务进入Spark客户端目录，调用bin/spark-submit脚本运行代码，运行命令分别如下（类名与文件名等请与实际代码保持一致，此处仅为示例）：运行Java或Scala样例代码 bin/spark-submit --class com.huawei.bigdata.spark.examples.SparkHivetoHbase --master yarn --deploy-mode client /opt/female/SparkHivetoHbase-1.0.jar 运行Python样例程序由于pyspark不提供Hbase相关api，本样例使用Python调用Java的方式实现。将所提供 Java代码使用maven打包成jar，并放在相同目录下，运行python程序时要使用--jars把jar包加载到classpath中。 bin/spark-submit --master yarn --deploy-mode client --jars /opt/female/SparkHivetoHbasePythonExample/SparkHivetoHbase-1.0.jar /opt/female/SparkHivetoHbasePythonExample/SparkHivetoHbasePythonExample.py

MAPREDUCE服务 MRS Spark从Hive读取数据再写入HBase样例程序

MAPREDUCE服务 MRS-Spark从Hive读取数据再写入HBase样例程序开发思路:数据规划

数据规划在开始开发应用前，需要创建Hive表，命名为person，并插入数据。同时，创建HBase table2表，用于将分析后的数据写入。将原日志文件放置到HDFS系统中。在本地新建一个空白的log1.txt文件，并在文件内写入如下内容： 1,100 在HDFS中新建一个目录/tmp/input，并将log1.txt文件上传至此目录。在Linux系统HDFS客户端使用命令hadoop fs -mkdir /tmp/input（hdfs dfs命令有同样的作用），创建对应目录。在Linux系统HDFS客户端使用命令hadoop fs -put log1.txt /tmp/input，上传数据文件。将导入的数据放置在Hive表里。首先，确保JDBCServer已启动。然后使用Beeline工具，创建Hive表，并插入数据。执行如下命令，创建命名为person的Hive表。 create table person ( name STRING, account INT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ESCAPED BY '\\' STORED AS TEXTFILE; 执行如下命令插入数据。 load data inpath '/tmp/input/log1.txt' into table person; 创建HBase表。确保JDBCServer已启动，然后使用Spark-beeline工具，创建HBase表，并插入数据。执行如下命令，创建命名为table2的HBase表。 create table table2 ( key string, cid string ) using org.apache.spark.sql.hbase.HBaseSource options( hbaseTableName "table2", keyCols "key", colsMapping "cid=cf.cid"); 通过HBase插入数据，执行如下命令。 put 'table2', '1', 'cf:cid', '1000'

MAPREDUCE服务 MRS Spark从Hive读取数据再写入HBase样例程序

云服务器内容精选

Spark从Hive读取数据再写入HBase样例程序

7*24

备案

专业服务

退订

建议反馈

售前咨询热线