Spark SQL样例程序-华为云

MAPREDUCE服务 MRS-通过JDBC访问Spark SQL样例程序开发思路:运行任务

运行任务进入Spark客户端目录，使用java -cp命令运行代码（类名与文件名等请与实际代码保持一致，此处仅为示例）：运行Java样例代码： java -cp $SPARK_HOME/jars/*:$SPARK_HOME/jars/hive/*:$SPARK_HOME/conf:/opt/female/SparkThriftServerJavaExample-1.0.jar com.huawei.bigdata.spark.examples.ThriftServerQueriesTest $SPARK_HOME/conf/hive-site.xml $SPARK_HOME/conf/spark-defaults.conf 运行Scala样例代码： java -cp $SPARK_HOME/jars/*:$SPARK_HOME/jars/hive/*:$SPARK_HOME/conf:/opt/female/SparkThriftServerExample-1.0.jar com.huawei.bigdata.spark.examples.ThriftServerQueriesTest $SPARK_HOME/conf/hive-site.xml $SPARK_HOME/conf/spark-defaults.conf 集群开启ZooKeeper的SSL特性后（查看ZooKeeper服务的ssl.enabled参数），请在执行命令中添加-Dzookeeper.client.secure=true -Dzookeeper.clientCnxnSocket=org.apache.zookeeper.ClientCnxnSocketNetty两项参数： java -Dzookeeper.client.secure=true -Dzookeeper.clientCnxnSocket=org.apache.zookeeper.ClientCnxnSocketNetty -cp $SPARK_HOME/jars/*:$SPARK_HOME/jars/hive/*:$SPARK_HOME/conf:/opt/female/SparkThriftServerJavaExample-1.0.jar com.huawei.bigdata.spark.examples.ThriftServerQueriesTest $SPARK_HOME/conf/hive-site.xml $SPARK_HOME/conf/spark-defaults.conf

MAPREDUCE服务 MRS 通过JDBC访问Spark SQL样例程序

MAPREDUCE服务 MRS-通过JDBC访问Spark SQL样例程序开发思路:打包项目

打包项目将krb5.conf和user.keytab文件上传到客户端所在服务器上。通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。编译打包前，样例代码中的user.keytab、krb5.conf文件路径需要修改为该文件所在客户端服务器的实际路径。例如：“/opt/female/user.keytab”，“/opt/female/krb5.conf”。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“ /opt/female/” ）下。

MAPREDUCE服务 MRS 通过JDBC访问Spark SQL样例程序

MAPREDUCE服务 MRS-通过JDBC访问Spark SQL样例程序开发思路:数据规划

数据规划确保以多主实例模式启动了JD BCS erver服务，并至少有一个实例可连接客户端。在JDB CS erver节点上分别创建“/home/data”文件，内容如下： Miranda,32 Karlie,23 Candice,27 确保其对启动JDBCServer的用户有读写权限。确保客户端classpath下有“hive-site.xml”文件，且根据实际集群情况配置所需要的参数。JDBCServer相关参数详情，请参见Spark JDBCServer接口介绍。

MAPREDUCE服务 MRS 通过JDBC访问Spark SQL样例程序

MAPREDUCE服务 MRS-通过JDBC访问Spark SQL样例程序开发思路:打包项目

打包项目将krb5.conf和user.keytab 文件上传到客户端多在服务器上。通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中调测Spark应用。编译打包前，样例代码中的user.keytab、krb5.conf文件路径需要修改为该文件所在客户端服务器的实际路径。例如：“/opt/female/user.keytab”，“/opt/female/krb5.conf”。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“ /opt/female/” ）下。

MAPREDUCE服务 MRS 通过JDBC访问Spark SQL样例程序

MAPREDUCE服务 MRS-通过JDBC访问Spark SQL样例程序开发思路:运行任务

运行任务进入Spark客户端目录，使用java -cp命令运行代码（类名与文件名等请与实际代码保持一致，此处仅为示例）：运行Java样例代码： java -cp $SPARK_HOME/jars/*:$SPARK_HOME/jars/hive/*:$SPARK_HOME/conf:/opt/female/SparkThriftServerJavaExample-1.0.jar com.huawei.bigdata.spark.examples.ThriftServerQueriesTest $SPARK_HOME/conf/hive-site.xml $SPARK_HOME/conf/spark-defaults.conf 运行Scala样例代码： java -cp $SPARK_HOME/jars/*:$SPARK_HOME/jars/hive/*:$SPARK_HOME/conf:/opt/female/SparkThriftServerExample-1.0.jar com.huawei.bigdata.spark.examples.ThriftServerQueriesTest $SPARK_HOME/conf/hive-site.xml $SPARK_HOME/conf/spark-defaults.conf 集群开启ZooKeeper的SSL特性后（查看ZooKeeper服务的ssl.enabled参数），请在执行命令中添加-Dzookeeper.client.secure=true -Dzookeeper.clientCnxnSocket=org.apache.zookeeper.ClientCnxnSocketNetty两项参数： java -Dzookeeper.client.secure=true -Dzookeeper.clientCnxnSocket=org.apache.zookeeper.ClientCnxnSocketNetty -cp $SPARK_HOME/jars/*:$SPARK_HOME/jars/hive/*:$SPARK_HOME/conf:/opt/female/SparkThriftServerJavaExample-1.0.jar com.huawei.bigdata.spark.examples.ThriftServerQueriesTest $SPARK_HOME/conf/hive-site.xml $SPARK_HOME/conf/spark-defaults.conf

MAPREDUCE服务 MRS 通过JDBC访问Spark SQL样例程序

MAPREDUCE服务 MRS-Spark SQL样例程序开发思路:场景说明

场景说明假定用户有某个周末网民网购停留时间的日志文本，基于某些业务要求，要求开发Spark应用程序实现如下功能：统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。周末两天的日志文件第一列为姓名，第二列为性别，第三列为本次停留时间，单位为分钟，分隔符为“,”。 log1.txt：周六网民停留日志 LiuYang,female,20 YuanJing,male,10 GuoYijun,male,5 CaiXuyu,female,50 Liyuan,male,20 FangBo,female,50 LiuYang,female,20 YuanJing,male,10 GuoYijun,male,50 CaiXuyu,female,50 FangBo,female,60 log2.txt：周日网民停留日志 LiuYang,female,20 YuanJing,male,10 CaiXuyu,female,50 FangBo,female,50 GuoYijun,male,5 CaiXuyu,female,50 Liyuan,male,20 CaiXuyu,female,50 FangBo,female,50 LiuYang,female,20 YuanJing,male,10 FangBo,female,50 GuoYijun,male,50 CaiXuyu,female,50 FangBo,female,60

MAPREDUCE服务 MRS Spark SQL样例程序

MAPREDUCE服务 MRS-Spark SQL样例程序开发思路:数据规划

数据规划首先需要把原日志文件放置在HDFS系统里。本地新建两个文本文件input_data1.txt和input_data2.txt，将log1.txt中的内容复制保存到input_data1.txt，将log2.txt中的内容复制保存到input_data2.txt。在HDFS客户端路径下建立一个文件夹，“/tmp/input”，并上传input_data1.txt，input_data2.txt到此目录，命令如下：在Linux系统HDFS客户端使用命令hadoop fs -mkdir /tmp/input（hdfs dfs命令有同样的作用），创建对应目录。进入到HDFS客户端下的“/tmp/input”目录，在Linux系统HDFS客户端使用命令hadoop fs -put input_data1.txt /tmp/input和hadoop fs -put input_data2.txt /tmp/input，上传数据文件。

MAPREDUCE服务 MRS Spark SQL样例程序

MAPREDUCE服务 MRS-Spark SQL样例程序开发思路:场景说明

场景说明假定用户有某个周末网民网购停留时间的日志文本，基于某些业务要求，要求开发Spark应用程序实现如下功能：统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。周末两天的日志文件第一列为姓名，第二列为性别，第三列为本次停留时间，单位为分钟，分隔符为“,”。 log1.txt：周六网民停留日志 LiuYang,female,20 YuanJing,male,10 GuoYijun,male,5 CaiXuyu,female,50 Liyuan,male,20 FangBo,female,50 LiuYang,female,20 YuanJing,male,10 GuoYijun,male,50 CaiXuyu,female,50 FangBo,female,60 log2.txt：周日网民停留日志 LiuYang,female,20 YuanJing,male,10 CaiXuyu,female,50 FangBo,female,50 GuoYijun,male,5 CaiXuyu,female,50 Liyuan,male,20 CaiXuyu,female,50 FangBo,female,50 LiuYang,female,20 YuanJing,male,10 FangBo,female,50 GuoYijun,male,50 CaiXuyu,female,50 FangBo,female,60

MAPREDUCE服务 MRS Spark SQL样例程序

MAPREDUCE服务 MRS-Spark SQL样例程序开发思路:打包项目

打包项目将user.keytab、krb5.conf 两个文件上传客户端所在服务器上。通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。编译打包前，样例代码中的user.keytab、krb5.conf文件路径需要修改为该文件所在客户端服务器的实际路径。例如：“/opt/female/user.keytab”，“/opt/female/krb5.conf”。运行Python样例代码无需通过Maven打包，只需要上传user.keytab、krb5.conf 文件到客户端所在服务器上。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“ /opt/female/” ）下。

MAPREDUCE服务 MRS Spark SQL样例程序

MAPREDUCE服务 MRS-通过JDBC访问Spark SQL样例程序开发思路:运行任务

运行任务进入Spark客户端目录，使用java -cp命令运行代码（类名与文件名等请与实际代码保持一致，此处仅为示例）：运行Java样例代码： java -cp $SPARK_HOME/jars/*:$SPARK_HOME/jars/hive/*:$SPARK_HOME/conf:/opt/female/SparkThriftServerJavaExample-1.0.jar com.huawei.bigdata.spark.examples.ThriftServerQueriesTest $SPARK_HOME/conf/hive-site.xml $SPARK_HOME/conf/spark-defaults.conf 运行Scala样例代码： java -cp $SPARK_HOME/jars/*:$SPARK_HOME/jars/hive/*:$SPARK_HOME/conf:/opt/female/SparkThriftServerExample-1.0.jar com.huawei.bigdata.spark.examples.ThriftServerQueriesTest $SPARK_HOME/conf/hive-site.xml $SPARK_HOME/conf/spark-defaults.conf 集群开启ZooKeeper的SSL特性后（查看ZooKeeper服务的ssl.enabled参数），请在执行命令中添加-Dzookeeper.client.secure=true -Dzookeeper.clientCnxnSocket=org.apache.zookeeper.ClientCnxnSocketNetty两项参数： java -Dzookeeper.client.secure=true -Dzookeeper.clientCnxnSocket=org.apache.zookeeper.ClientCnxnSocketNetty -cp $SPARK_HOME/jars/*:$SPARK_HOME/jars/hive/*:$SPARK_HOME/conf:/opt/female/SparkThriftServerJavaExample-1.0.jar com.huawei.bigdata.spark.examples.ThriftServerQueriesTest $SPARK_HOME/conf/hive-site.xml $SPARK_HOME/conf/spark-defaults.conf

MAPREDUCE服务 MRS 通过JDBC访问Spark SQL样例程序

MAPREDUCE服务 MRS-通过JDBC访问Spark SQL样例程序开发思路:数据规划

数据规划将数据文件上传至HDFS中。确保以多主实例模式启动了JDBCServer服务，并至少有一个实例可连接客户端。在Linux系统HDFS客户端新建一个文本文件“data”，内容如下： Miranda,32 Karlie,23 Candice,27 在HDFS路径下建立一个目录，例如创建“/home”，并上传“data”文件到此目录，命令如下：登录HDFS客户端节点，执行如下命令： cd {客户端安装目录} source bigdata_env 执行如下命令创建目录“/home”： hdfs dfs -mkdir /home 执行如下命令上传数据文件： hdfs dfs -put data /home 确保其对启动JDBCServer的用户有读写权限。确保客户端classpath下有“hive-site.xml”文件，且根据实际集群情况配置所需要的参数。JDBCServer相关参数详情，请参见Spark JDBCServer接口介绍。

MAPREDUCE服务 MRS 通过JDBC访问Spark SQL样例程序

MAPREDUCE服务 MRS-Spark SQL样例程序开发思路:数据规划

数据规划首先需要把原日志文件放置在HDFS系统里。本地新建两个文本文件input_data1.txt和input_data2.txt，将log1.txt中的内容复制保存到input_data1.txt，将log2.txt中的内容复制保存到input_data2.txt。在HDFS客户端路径下建立一个文件夹，“/tmp/input”，并上传input_data1.txt，input_data2.txt到此目录，命令如下：在Linux系统HDFS客户端使用命令hadoop fs -mkdir /tmp/input（hdfs dfs命令有同样的作用），创建对应目录。进入到HDFS客户端下的“/tmp/input”目录，在Linux系统HDFS客户端使用命令在Linux系统HDFS客户端使用命令hadoop fs -put input_data1.txt /tmp/input和hadoop fs -put input_data2.txt /tmp/input，上传数据文件。

MAPREDUCE服务 MRS Spark SQL样例程序

MAPREDUCE服务 MRS-Spark SQL样例程序开发思路:场景说明

场景说明假定用户有某个周末网民网购停留时间的日志文本，基于某些业务要求，要求开发Spark应用程序实现如下功能：统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。周末两天的日志文件第一列为姓名，第二列为性别，第三列为本次停留时间，单位为分钟，分隔符为“,”。 log1.txt：周六网民停留日志 LiuYang,female,20 YuanJing,male,10 GuoYijun,male,5 CaiXuyu,female,50 Liyuan,male,20 FangBo,female,50 LiuYang,female,20 YuanJing,male,10 GuoYijun,male,50 CaiXuyu,female,50 FangBo,female,60 log2.txt：周日网民停留日志 LiuYang,female,20 YuanJing,male,10 CaiXuyu,female,50 FangBo,female,50 GuoYijun,male,5 CaiXuyu,female,50 Liyuan,male,20 CaiXuyu,female,50 FangBo,female,50 LiuYang,female,20 YuanJing,male,10 FangBo,female,50 GuoYijun,male,50 CaiXuyu,female,50 FangBo,female,60

MAPREDUCE服务 MRS Spark SQL样例程序

MAPREDUCE服务 MRS-通过JDBC访问Spark SQL样例程序开发思路:数据规划

数据规划确保以多主实例模式启动了JDBCServer服务，并至少有一个实例可连接客户端。在JDBCServer节点上分别创建“/home/data”文件，内容如下： Miranda,32 Karlie,23 Candice,27 确保其对启动JDBCServer的用户有读写权限。确保客户端classpath下有“hive-site.xml”文件，且根据实际集群情况配置所需要的参数。JDBCServer相关参数详情，请参见Spark JDBCServer接口介绍。

MAPREDUCE服务 MRS 通过JDBC访问Spark SQL样例程序

MAPREDUCE服务 MRS-通过JDBC访问Spark SQL样例程序开发思路:运行任务

运行任务进入Spark客户端目录，使用java -cp命令运行代码（类名与文件名等请与实际代码保持一致，此处仅为示例）：运行Java样例代码： java -cp $SPARK_HOME/jars/*:$SPARK_HOME/jars/hive/*:$SPARK_HOME/conf:/opt/female/SparkThriftServerJavaExample-1.0.jar com.huawei.bigdata.spark.examples.ThriftServerQueriesTest $SPARK_HOME/conf/hive-site.xml $SPARK_HOME/conf/spark-defaults.conf 运行Scala样例代码： java -cp $SPARK_HOME/jars/*:$SPARK_HOME/jars/hive/*:$SPARK_HOME/conf:/opt/female/SparkThriftServerExample-1.0.jar com.huawei.bigdata.spark.examples.ThriftServerQueriesTest $SPARK_HOME/conf/hive-site.xml $SPARK_HOME/conf/spark-defaults.conf 集群开启ZooKeeper的SSL特性后（查看ZooKeeper服务的ssl.enabled参数），请在执行命令中添加-Dzookeeper.client.secure=true -Dzookeeper.clientCnxnSocket=org.apache.zookeeper.ClientCnxnSocketNetty两项参数： java -Dzookeeper.client.secure=true -Dzookeeper.clientCnxnSocket=org.apache.zookeeper.ClientCnxnSocketNetty -cp $SPARK_HOME/jars/*:$SPARK_HOME/jars/hive/*:$SPARK_HOME/conf:/opt/female/SparkThriftServerJavaExample-1.0.jar com.huawei.bigdata.spark.examples.ThriftServerQueriesTest $SPARK_HOME/conf/hive-site.xml $SPARK_HOME/conf/spark-defaults.conf

MAPREDUCE服务 MRS 通过JDBC访问Spark SQL样例程序

云服务器内容精选

Spark SQL样例程序

7*24

备案

专业服务

退订

建议反馈

售前咨询热线