云服务器内容精选

华为云首页用户手册

使用Spark执行Hudi样例程序

MAPREDUCE服务 MRS-使用Spark执行Hudi样例程序开发思路:运行任务

运行任务登录Spark客户端节点，执行如下命令： source 客户端安装目录/bigdata_env source 客户端安装目录/Hudi/component_env 编译构建样例代码后可以使用spark-submit提交命令，执行命令后会依次执行写入、更新、查询、删除等操作：运行Java样例程序： spark-submit --class com.huawei.bigdata.hudi.examples.HoodieWriteClientExample /opt/example/hudi-java-examples-1.0.jar hdfs://hacluster/tmp/example/hoodie_java hoodie_java 其中：“/opt/example/hudi-java-examples-1.0.jar”为jar包路径，“hdfs://hacluster/tmp/example/hoodie_java”为Hudi表的存储路径，“ hoodie_java”为Hudi表的表名。运行Scala样例程序： spark-submit --class com.huawei.bigdata.hudi.examples.HoodieDataSourceExample /opt/example/hudi-scala-examples-1.0.jar hdfs://hacluster/tmp/example/hoodie_scala hoodie_scala 其中：“/opt/example/hudi-scala-examples-1.0.jar”为jar包路径，“hdfs://hacluster/tmp/example/hoodie_scala”为Hudi表的存储路径，“ hoodie_Scala”为Hudi表的表名。运行Python样例程序： spark-submit /opt/example/HudiPythonExample.py hdfs://hacluster/tmp/huditest/example/python hudi_trips_cow 其中：“hdfs://hacluster/tmp/huditest/example/python”为Hudi表的存储路径，“ hudi_trips_cow”为Hudi表的表名。

MAPREDUCE服务 MRS 使用Spark执行Hudi样例程序
MAPREDUCE服务 MRS-使用Spark执行Hudi样例程序开发思路:打包项目

打包项目将user.keytab、krb5.conf 两个文件上传客户端所在服务器上。通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。编译打包前，样例代码中的user.keytab、krb5.conf文件路径需要修改为该文件所在客户端服务器的实际路径。运行Python样例代码无需通过Maven打包，只需要上传user.keytab、krb5.conf 文件到客户端所在服务器上。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“ /opt/example/” ）下。

MAPREDUCE服务 MRS 使用Spark执行Hudi样例程序
MAPREDUCE服务 MRS-使用Spark执行Hudi样例程序开发思路:运行任务

运行任务登录Spark客户端节点，执行如下命令： source 客户端安装目录/bigdata_env source 客户端安装目录/Hudi/component_env 编译构建样例代码后可以使用spark-submit提交命令，执行命令后会依次执行写入、更新、查询、删除等操作：运行Java样例程序： spark-submit --class com.huawei.bigdata.hudi.examples.HoodieWriteClientExample /opt/example/hudi-java-examples-1.0.jar hdfs://hacluster/tmp/example/hoodie_java hoodie_java 其中：“/opt/example/hudi-java-examples-1.0.jar”为jar包路径，“hdfs://hacluster/tmp/example/hoodie_java”为Hudi表的存储路径，“ hoodie_java”为Hudi表的表名。运行Scala样例程序： spark-submit --class com.huawei.bigdata.hudi.examples.HoodieDataSourceExample /opt/example/hudi-scala-examples-1.0.jar hdfs://hacluster/tmp/example/hoodie_scala hoodie_scala 其中：“/opt/example/hudi-scala-examples-1.0.jar”为jar包路径，“hdfs://hacluster/tmp/example/hoodie_scala”为Hudi表的存储路径，“ hoodie_Scala”为Hudi表的表名。运行Python样例程序： spark-submit /opt/example/HudiPythonExample.py hdfs://hacluster/tmp/huditest/example/python hudi_trips_cow 其中：“hdfs://hacluster/tmp/huditest/example/python”为Hudi表的存储路径，“ hudi_trips_cow”为Hudi表的表名。

MAPREDUCE服务 MRS 使用Spark执行Hudi样例程序
MAPREDUCE服务 MRS-使用Spark执行Hudi样例程序开发思路:打包项目

打包项目将user.keytab、krb5.conf 两个文件上传客户端所在服务器上。通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中调测Spark应用。编译打包前，样例代码中的user.keytab、krb5.conf文件路径需要修改为该文件所在客户端服务器的实际路径。运行Python样例代码无需通过Maven打包，只需要上传user.keytab、krb5.conf 文件到客户端所在服务器上。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“ /opt/example/” ）下。

MAPREDUCE服务 MRS 使用Spark执行Hudi样例程序