Spark读取HBase表样例程序-华为云

MAPREDUCE服务 MRS-操作HBase数据源:提交命令

提交命令假设用例代码打包后的jar包名为spark-hbaseContext-test-1.0.jar，并将jar包放在客户端“$SPARK_HOME”目录下，以下命令均在“$SPARK_HOME”目录执行。 yarn-client模式： java/scala版本（类名等请与实际代码保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode client --jars /opt/female/protobuf-java-2.5.0.jar --conf spark.yarn.user.classpath.first=true --class com.huawei.bigdata.spark.examples.datasources.HBaseSource SparkOnHbaseJavaExample-1.0.jar python版本（文件名等请与实际保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode client --conf spark.yarn.user.classpath.first=true --jars SparkOnHbaseJavaExample-1.0.jar,/opt/female/protobuf-java-2.5.0.jar HBaseSource.py yarn-cluster模式： java/scala版本（类名等请与实际代码保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode cluster --jars /opt/female/protobuf-java-2.5.0.jar --conf spark.yarn.user.classpath.first=true --class com.huawei.bigdata.spark.examples.datasources.HBaseSource SparkOnHbaseJavaExample-1.0.jar python版本（文件名等请与实际保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode cluster --conf spark.yarn.user.classpath.first=true --jars SparkOnHbaseJavaExample-1.0.jar,/opt/female/protobuf-java-2.5.0.jar HBaseSource.py

MAPREDUCE服务 MRS Spark读取HBase表样例程序

MAPREDUCE服务 MRS-操作HBase数据源:Python样例代码

Python样例代码下面代码片段仅为演示，具体代码参见SparkOnHbasePythonExample中的HBaseSource文件： # -*- coding:utf-8 -*- """ 【说明】由于pyspark不提供Hbase相关api,本样例使用Python调用Java的方式实现 """ from py4j.java_gateway import java_import from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession\ .builder\ .appName("HBaseSourceExample")\ .getOrCreate() # 向sc._jvm中导入要运行的类 java_import(spark._jvm, 'com.huawei.bigdata.spark.examples.datasources.HBaseSource') # 创建类实例并调用方法，传递sc._jsc参数 spark._jvm.HBaseSource().execute(spark._jsc) # 停止SparkSession spark.stop()

MAPREDUCE服务 MRS Spark读取HBase表样例程序

MAPREDUCE服务 MRS-操作HBase数据源:打包项目

打包项目通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中调测Spark应用。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“$SPARK_HOME” ）下。若运行“Spark on HBase”样例程序，需要在Spark客户端的“spark-defaults.conf”配置文件中将配置项“spark.yarn.security.credentials.hbase.enabled”设置为“true”（该参数值默认为“false”，改为“true”后对已有业务没有影响。如果要卸载HBase服务，卸载前请将此参数值改回“false”），将配置项“spark.inputFormat.cache.enabled”设置为“false”。

MAPREDUCE服务 MRS Spark读取HBase表样例程序

MAPREDUCE服务 MRS-SparkStreaming批量写入HBase表:打包项目

打包项目通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“$SPARK_HOME” ）下。若运行“Spark on HBase”样例程序，需要在Spark客户端的“spark-defaults.conf”配置文件中将配置项“spark.yarn.security.credentials.hbase.enabled”设置为“true”（该参数值默认为“false”，改为“true”后对已有业务没有影响。如果要卸载HBase服务，卸载前请将此参数值改回“false”），将配置项“spark.inputFormat.cache.enabled”设置为“false”。

MAPREDUCE服务 MRS Spark读取HBase表样例程序

MAPREDUCE服务 MRS-SparkStreaming批量写入HBase表:提交命令

提交命令假设用例代码打包后的jar包名为spark-hbaseContext-test-1.0.jar，并将jar包放在客户端“$SPARK_HOME”目录下，以下命令均在“$SPARK_HOME”目录执行，Java接口对应的类名前有Java字样，请参考具体样例代码进行书写。 yarn-client模式： java/scala版本（类名等请与实际代码保持一致，此处仅为示例），${ip}请使用实际执行nc -lk 9999的命令的机器ip bin/spark-submit --master yarn --deploy-mode client --class com.huawei.bigdata.spark.examples.streaming.JavaHBaseStreamingBulkPutExample SparkOnHbaseJavaExample-1.0.jar ${ip} 9999 streamingTable cf1 python版本（文件名等请与实际保持一致，此处仅为示例） bin/spark-submit --master yarn --jars SparkOnHbaseJavaExample-1.0.jar HBaseStreamingBulkPutExample.py ${ip} 9999 streamingTable cf1 yarn-cluster模式： java/scala版本（类名等请与实际代码保持一致，此处仅为示例），${ip}请使用实际执行nc -lk 9999的命令的机器ip bin/spark-submit --master yarn --deploy-mode client --deploy-mode cluster --class com.huawei.bigdata.spark.examples.streaming.JavaHBaseStreamingBulkPutExample SparkOnHbaseJavaExample-1.0.jar ${ip} 9999 streamingTable cf1 python版本（文件名等请与实际保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode cluster --jars SparkOnHbaseJavaExample-1.0.jar HBaseStreamingBulkPutExample.py ${ip} 9999 streamingTable cf1

MAPREDUCE服务 MRS Spark读取HBase表样例程序

MAPREDUCE服务 MRS-SparkStreaming批量写入HBase表:Python样例代码

Python样例代码下面代码片段仅为演示，具体代码参见SparkOnHbasePythonExample中HBaseStreamingBulkPutExample文件： # -*- coding:utf-8 -*- """ 【说明】由于pyspark不提供Hbase相关api,本样例使用Python调用Java的方式实现 """ from py4j.java_gateway import java_import from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession\ .builder\ .appName("JavaHBaseStreamingBulkPutExample")\ .getOrCreate() # 向sc._jvm中导入要运行的类 java_import(spark._jvm, 'com.huawei.bigdata.spark.examples.streaming.JavaHBaseStreamingBulkPutExample') # 创建类实例并调用方法，传递sc._jsc参数 spark._jvm.JavaHBaseStreamingBulkPutExample().execute(spark._jsc, sys.argv) # 停止SparkSession spark.stop()

MAPREDUCE服务 MRS Spark读取HBase表样例程序

MAPREDUCE服务 MRS-SparkStreaming批量写入HBase表:数据规划

数据规划在客户端执行hbase shell进入HBase命令行。在HBase命令执行下面的命令创建HBase表： create 'streamingTable','cf1' 在客户端另外一个session通过linux命令构造一个端口进行接收数据（不同操作系统的机器，命令可能不同，suse尝试使用netcat -lk 9999）： nc -lk 9999 在构造一个端口进行接收数据时，需要在客户端所在服务器上安装netcat

MAPREDUCE服务 MRS Spark读取HBase表样例程序

MAPREDUCE服务 MRS-操作Avro格式数据:打包项目

打包项目通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“$SPARK_HOME” ）下。若运行“Spark on HBase”样例程序，需要在Spark客户端的“spark-defaults.conf”配置文件中将配置项“spark.yarn.security.credentials.hbase.enabled”设置为“true”（该参数值默认为“false”，改为“true”后对已有业务没有影响。如果要卸载HBase服务，卸载前请将此参数值改回“false”），将配置项“spark.inputFormat.cache.enabled”设置为“false”。

MAPREDUCE服务 MRS Spark读取HBase表样例程序

MAPREDUCE服务 MRS-操作Avro格式数据:提交命令

提交命令假设用例代码打包后的jar包名为spark-hbaseContext-test-1.0.jar，并将jar包放在客户端“$SPARK_HOME”目录下，以下命令均在“$SPARK_HOME”目录执行。 yarn-client模式： java/scala版本（类名等请与实际代码保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode client --jars /opt/female/protobuf-java-2.5.0.jar --conf spark.yarn.user.classpath.first=true --class com.huawei.bigdata.spark.examples.datasources.AvroSource SparkOnHbaseJavaExample-1.0.jar python版本（文件名等请与实际保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode client --conf spark.yarn.user.classpath.first=true --jars SparkOnHbaseJavaExample-1.0.jar,/opt/female/protobuf-java-2.5.0.jar AvroSource.py yarn-cluster模式： java/scala版本（类名等请与实际代码保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode cluster --jars /opt/female/protobuf-java-2.5.0.jar --conf spark.yarn.user.classpath.first=true --class com.huawei.bigdata.spark.examples.datasources.AvroSource SparkOnHbaseJavaExample-1.0.jar python版本（文件名等请与实际保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode cluster --conf spark.yarn.user.classpath.first=true --jars SparkOnHbaseJavaExample-1.0.jar,/opt/female/protobuf-java-2.5.0.jar AvroSource.py

MAPREDUCE服务 MRS Spark读取HBase表样例程序

MAPREDUCE服务 MRS-操作Avro格式数据:Python样例代码

Python样例代码下面代码片段仅为演示，具体代码参见SparkOnHbasePythonExample中的AvroSource文件： # -*- coding:utf-8 -*- """ 【说明】由于pyspark不提供Hbase相关api,本样例使用Python调用Java的方式实现 """ from py4j.java_gateway import java_import from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession\ .builder\ .appName("AvroSourceExample")\ .getOrCreate() # 向sc._jvm中导入要运行的类 java_import(spark._jvm, 'com.huawei.bigdata.spark.examples.datasources.AvroSource') # 创建类实例并调用方法，传递sc._jsc参数 spark._jvm.AvroSource().execute(spark._jsc) # 停止SparkSession spark.stop()

MAPREDUCE服务 MRS Spark读取HBase表样例程序

MAPREDUCE服务 MRS-操作Avro格式数据:数据规划

数据规划在客户端执行hbase shell，进入HBase命令行，使用下面的命令创建样例代码中要使用的HBase表： create 'ExampleAvrotable','rowkey','cf1' （如果表已经存在，则每次执行提交命令前需清空表里的数据：truncate 'ExampleAvrotable'） create 'ExampleAvrotableInsert','rowkey','cf1' （如果表已经存在，则每次执行提交命令前需清空表里的数据：truncate 'ExampleAvrotableInsert'）

MAPREDUCE服务 MRS Spark读取HBase表样例程序

MAPREDUCE服务 MRS-操作Avro格式数据:提交命令

提交命令假设用例代码打包后的jar包名为spark-hbaseContext-test-1.0.jar，并将jar包放在客户端“$SPARK_HOME”目录下，以下命令均在“$SPARK_HOME”目录执行。 yarn-client模式： java/scala版本（类名等请与实际代码保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode client --jars /opt/female/protobuf-java-2.5.0.jar --conf spark.yarn.user.classpath.first=true --class com.huawei.bigdata.spark.examples.datasources.AvroSource SparkOnHbaseJavaExample.jar python版本（文件名等请与实际保持一致，此处仅为示例），假设对应的Java代码打包后包名为SparkOnHbaseJavaExample.jar，且放在当前提交目录。 bin/spark-submit --master yarn --deploy-mode client --conf spark.yarn.user.classpath.first=true --jars SparkOnHbaseJavaExample.jar,/opt/female/protobuf-java-2.5.0.jar AvroSource.py yarn-cluster模式： java/scala版本（类名等请与实际代码保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode cluster --jars /opt/female/protobuf-java-2.5.0.jar --conf spark.yarn.user.classpath.first=true --class com.huawei.bigdata.spark.examples.datasources.AvroSource --files /opt/user.keytab,/opt/krb5.conf SparkOnHbaseJavaExample.jar python版本（文件名等请与实际保持一致，此处仅为示例），假设对应的Java代码打包后包名为SparkOnHbaseJavaExample.jar，且放在当前提交目录。 bin/spark-submit --master yarn --deploy-mode cluster --files /opt/user.keytab,/opt/krb5.conf --conf spark.yarn.user.classpath.first=true --jars SparkOnHbaseJavaExample.jar,/opt/female/protobuf-java-2.5.0.jar AvroSource.py

MAPREDUCE服务 MRS Spark读取HBase表样例程序

MAPREDUCE服务 MRS-操作Avro格式数据:打包项目

打包项目通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“$SPARK_HOME” ）下。将user.keytab、krb5.conf 两个文件上传客户端所在服务器上（文件上传的路径需要和生成的jar包路径一致）。若运行“Spark on HBase”样例程序，需要在Spark客户端的“spark-defaults.conf”配置文件中将配置项“spark.yarn.security.credentials.hbase.enabled”设置为“true”（该参数值默认为“false”，改为“true”后对已有业务没有影响。如果要卸载HBase服务，卸载前请将此参数值改回“false”），将配置项“spark.inputFormat.cache.enabled”设置为“false”。

MAPREDUCE服务 MRS Spark读取HBase表样例程序

MAPREDUCE服务 MRS-操作Avro格式数据:Python样例代码

Python样例代码下面代码片段仅为演示，具体代码参见SparkOnHbasePythonExample中的AvroSource文件： # -*- coding:utf-8 -*- """ 【说明】 (1)由于pyspark不提供Hbase相关api,本样例使用Python调用Java的方式实现 (2)如果使用yarn-client模式运行,请确认Spark2x客户端Spark2x/spark/conf/spark-defaults.conf中 spark.yarn.security.credentials.hbase.enabled参数配置为true """ from py4j.java_gateway import java_import from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession\ .builder\ .appName("AvroSourceExample")\ .getOrCreate() # 向sc._jvm中导入要运行的类 java_import(spark._jvm, 'com.huawei.bigdata.spark.examples.datasources.AvroSource') # 创建类实例并调用方法，传递sc._jsc参数 spark._jvm.AvroSource().execute(spark._jsc) # 停止SparkSession spark.stop()

MAPREDUCE服务 MRS Spark读取HBase表样例程序

MAPREDUCE服务 MRS-操作Avro格式数据:数据规划

数据规划在客户端执行hbase shell，进入HBase命令行，使用下面的命令创建样例代码中要使用的HBase表： create 'ExampleAvrotable','rowkey','cf1' （如果表已经存在，则每次执行提交命令前需清空表里的数据：truncate 'ExampleAvrotable'） create 'ExampleAvrotableInsert','rowkey','cf1' （如果表已经存在，则每次执行提交命令前需清空表里的数据：truncate 'ExampleAvrotable'）

MAPREDUCE服务 MRS Spark读取HBase表样例程序

云服务器内容精选

Spark读取HBase表样例程序

7*24

备案

专业服务

退订

建议反馈

售前咨询热线