使用Spark-华为云

MAPREDUCE服务 MRS-Spark使用说明

Spark使用说明 MRS 3.3.0-LTS及之后的版本中，Spark2x服务改名为Spark，服务包含的角色名也有差异，例如JobHistory2x变更为JobHistory。相关涉及服务名称、角色名称的描述和操作请以实际版本为准。 Spark是一个开源的，并行数据处理框架，能够帮助用户简单、快速的开发大数据应用，对数据进行离线处理、流式处理、交互式分析等。相比于Hadoop，Spark拥有明显的性能优势。父主题：使用Spark/Spark2x

MAPREDUCE服务 MRS 使用Spark/Spark2x

数据湖探索 DLI-概述

概述 DLI 支持原生Spark的DataSource能力，并在其基础上进行了扩展，能够通过SQL语句或者Spark作业访问其他数据存储服务并导入、查询、分析处理其中的数据，目前支持的DLI跨源访问服务有：表格存储服务 CloudTable，云搜索服务 CSS，分布式缓存服务D CS ，文档数据库服务DDS，数据仓库服务 GaussDB （DWS）， MapReduce服务 MRS，云数据库RDS等。使用DLI的跨源能力，需要先创建跨源连接。管理控制台界面具体操作请参考《数据湖探索用户指南》。使用Spark作业跨源访问数据源支持使用scala，pyspark和java三种语言进行开发。表格存储服务CloudTable相关介绍请参考《表格存储服务产品介绍》。云搜索服务 CSS 相关介绍请参考《云搜索服务产品介绍》。分布式缓存服务DCS相关介绍请参考《分布式缓存服务产品介绍》。文档数据库服务DDS相关介绍请参考《文档数据库服务产品介绍》。数据仓库服务GaussDB（DWS）相关介绍请参考《数据仓库服务产品介绍》。 MapReduce服务MRS相关介绍请参考《MapReduce服务产品介绍》。云数据库RDS相关介绍请参考《云数据库服务产品介绍》。父主题：使用Spark作业跨源访问数据源

数据湖探索 DLI 使用Spark作业跨源访问数据源

MAPREDUCE服务 MRS-Spark Streaming任务提交问题:原因分析

原因分析问题1：Spark提交任务默认不会加载kafka的相关包，所以需要在启动命令中增加--jars来指定对应kafka版本的jar包问题2：连接Kafka无法使用Spark的认证信息，需要将相关的认证使用JVM的参数设置进去。问题3：Spark默认使用当前客户端的认证信息提交任务，也可以使用代码login的方式。但是这两种认证方式都无法更新任务使用的Token，当提交的时候生成的Token信息过期以后就无法再使用，因此报错。解决办法是使用--keytab和--principal将keytab文件和对应用户带入任务中。

MAPREDUCE服务 MRS 使用Spark

MAPREDUCE服务 MRS-Spark Streaming任务提交问题:处理步骤

处理步骤问题1：启动命令中增加--jars来指定对应kafka版本的jar包，一般是在Spark客户端目录/jars/streamingClient（0.8版本Kafka）和Spark客户端目录/jars/streamingClient010（0.10版本Kafka）。问题2：参考指导文档编辑并运行程序。问题3：使用--keytab和--principal将keytab文件和对应用户带入任务中。如果此处的keytab文件和之前Kafka的jaas.conf中配置的是同一个，则Spark会报一个文件多次上传的问题。解决办法是复制一份keytab文件，使得--files和--keytab上传不同的文件。

MAPREDUCE服务 MRS 使用Spark

MAPREDUCE服务 MRS-提交Spark任务时提示参数格式错误:处理步骤

处理步骤检查用户执行命令./bin/spark-submit --class cn.interf.Test --master yarn-client 客户端安装目录/Spark/spark1-1.0-SNAPSHOT.jar;，排查是否引入了非法字符。如果是，修改非法字符，重新执行命令。重新执行命令后，发生其他错误，查看该jar包的属主属组信息，发现全为root。修改jar包的属主属组为omm:wheel，重新执行成功。

MAPREDUCE服务 MRS 使用Spark

MAPREDUCE服务 MRS-使用Spark执行Hudi样例程序开发思路:运行任务

运行任务登录Spark客户端节点，执行如下命令： source 客户端安装目录/bigdata_env source 客户端安装目录/Hudi/component_env 编译构建样例代码后可以使用spark-submit提交命令，执行命令后会依次执行写入、更新、查询、删除等操作：运行Java样例程序： spark-submit --class com.huawei.bigdata.hudi.examples.HoodieWriteClientExample /opt/example/hudi-java-examples-1.0.jar hdfs://hacluster/tmp/example/hoodie_java hoodie_java 其中：“/opt/example/hudi-java-examples-1.0.jar”为jar包路径，“hdfs://hacluster/tmp/example/hoodie_java”为Hudi表的存储路径，“ hoodie_java”为Hudi表的表名。运行Scala样例程序： spark-submit --class com.huawei.bigdata.hudi.examples.HoodieDataSourceExample /opt/example/hudi-scala-examples-1.0.jar hdfs://hacluster/tmp/example/hoodie_scala hoodie_scala 其中：“/opt/example/hudi-scala-examples-1.0.jar”为jar包路径，“hdfs://hacluster/tmp/example/hoodie_scala”为Hudi表的存储路径，“ hoodie_Scala”为Hudi表的表名。运行Python样例程序： spark-submit /opt/example/HudiPythonExample.py hdfs://hacluster/tmp/huditest/example/python hudi_trips_cow 其中：“hdfs://hacluster/tmp/huditest/example/python”为Hudi表的存储路径，“ hudi_trips_cow”为Hudi表的表名。

MAPREDUCE服务 MRS 使用Spark执行Hudi样例程序

MAPREDUCE服务 MRS-使用Spark执行Hudi样例程序开发思路:打包项目

打包项目将user.keytab、krb5.conf 两个文件上传客户端所在服务器上。通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。编译打包前，样例代码中的user.keytab、krb5.conf文件路径需要修改为该文件所在客户端服务器的实际路径。运行Python样例代码无需通过Maven打包，只需要上传user.keytab、krb5.conf 文件到客户端所在服务器上。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“ /opt/example/” ）下。

MAPREDUCE服务 MRS 使用Spark执行Hudi样例程序

MAPREDUCE服务 MRS-使用Spark执行Hudi样例程序开发思路:运行任务

运行任务登录Spark客户端节点，执行如下命令： source 客户端安装目录/bigdata_env source 客户端安装目录/Hudi/component_env 编译构建样例代码后可以使用spark-submit提交命令，执行命令后会依次执行写入、更新、查询、删除等操作：运行Java样例程序： spark-submit --class com.huawei.bigdata.hudi.examples.HoodieWriteClientExample /opt/example/hudi-java-examples-1.0.jar hdfs://hacluster/tmp/example/hoodie_java hoodie_java 其中：“/opt/example/hudi-java-examples-1.0.jar”为jar包路径，“hdfs://hacluster/tmp/example/hoodie_java”为Hudi表的存储路径，“ hoodie_java”为Hudi表的表名。运行Scala样例程序： spark-submit --class com.huawei.bigdata.hudi.examples.HoodieDataSourceExample /opt/example/hudi-scala-examples-1.0.jar hdfs://hacluster/tmp/example/hoodie_scala hoodie_scala 其中：“/opt/example/hudi-scala-examples-1.0.jar”为jar包路径，“hdfs://hacluster/tmp/example/hoodie_scala”为Hudi表的存储路径，“ hoodie_Scala”为Hudi表的表名。运行Python样例程序： spark-submit /opt/example/HudiPythonExample.py hdfs://hacluster/tmp/huditest/example/python hudi_trips_cow 其中：“hdfs://hacluster/tmp/huditest/example/python”为Hudi表的存储路径，“ hudi_trips_cow”为Hudi表的表名。

MAPREDUCE服务 MRS 使用Spark执行Hudi样例程序

MAPREDUCE服务 MRS-使用Spark执行Hudi样例程序开发思路:打包项目

打包项目将user.keytab、krb5.conf 两个文件上传客户端所在服务器上。通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中调测Spark应用。编译打包前，样例代码中的user.keytab、krb5.conf文件路径需要修改为该文件所在客户端服务器的实际路径。运行Python样例代码无需通过Maven打包，只需要上传user.keytab、krb5.conf 文件到客户端所在服务器上。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“ /opt/example/” ）下。

MAPREDUCE服务 MRS 使用Spark执行Hudi样例程序

云服务器内容精选

使用Spark

7*24

备案

专业服务

退订

建议反馈

售前咨询热线