MAPREDUCE服务 MRS-Spark2x样例工程介绍

时间：2024-06-29 14:11:08

Spark2x样例工程介绍

MRS 样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example，切换分支为与MRS集群相匹配的版本分支，然后下载压缩包到本地后解压，即可获取各组件对应的样例代码工程。

当前MRS提供以下Spark2x相关样例工程：

表1 Spark2x相关样例工程
样例工程位置	描述
sparknormal-examples/SparkHbasetoCarbonJavaExample	Spark同步HBase数据到CarbonData的应用开发样例代码。本示例工程中，应用将数据实时写入HBase，用于点查业务。数据每隔一段时间批量同步到CarbonData表中，用于分析型查询业务。
sparknormal-examples/SparkHbasetoHbaseJavaExample	Spark从HBase读取数据再写入HBase的Java/Scala/Python示例程序。本示例工程中，Spark应用程序实现两个HBase表数据的分析汇总。
sparknormal-examples/SparkHbasetoHbasePythonExample
sparknormal-examples/SparkHbasetoHbaseScalaExample
sparknormal-examples/SparkHivetoHbaseJavaExample	Spark从Hive读取数据再写入到HBase的应用开发样例代码。
sparknormal-examples/SparkHivetoHbasePythonExample
sparknormal-examples/SparkHivetoHbaseScalaExample
sparknormal-examples/SparkJavaExample	Spark Core任务的Java/Python/Scala示例程序。本工程应用程序实现从HDFS上读取文本数据并计算分析。
sparknormal-examples/SparkPythonExample
sparknormal-examples/SparkSQLJavaExample
sparknormal-examples/SparkLauncherJavaExample	使用Spark Launcher提交作业的Java/Scala示例程序。本工程应用程序通过org.apache.spark.launcher.SparkLauncher类采用Java/Scala命令方式提交Spark应用。
sparknormal-examples/SparkLauncherScalaExample
sparknormal-examples/SparkOnClickHouseJavaExample	Spark通过ClickHouse JDBC的原生接口，以及Spark JDBC驱动，实现对ClickHouse数据库和表的创建、查询、插入等操作样例代码。
sparknormal-examples/SparkOnClickHousePythonExample
sparknormal-examples/SparkOnClickHouseScalaExample
sparknormal-examples/SparkOnHbaseJavaExample	Spark on HBase场景的Java/Scala/Python示例程序。本工程应用程序以数据源的方式去使用HBase，将数据以Avro格式存储在HBase中，并从中读取数据以及对读取的数据进行过滤等操作。
sparknormal-examples/SparkOnHbasePythonExample
sparknormal-examples/SparkOnHbaseScalaExample
sparknormal-examples/SparkOnHudiJavaExample	Spark on Hudi场景的Java/Scala/Python示例程序。本工程应用程序使用Spark操作Hudi执行插入数据、查询数据、更新数据、增量查询、特定时间点查询、删除数据等操作。
sparknormal-examples/SparkOnHudiPythonExample
sparknormal-examples/SparkOnHudiScalaExample
sparknormal-examples/SparkSQLJavaExample	Spark SQL任务的Java/Python/Scala示例程序。本工程应用程序实现从HDFS上读取文本数据并计算分析。
sparknormal-examples/SparkSQLPythonExample
sparknormal-examples/SparkSQLScalaExample
sparknormal-examples/SparkStreamingKafka010JavaExample	Spark Streaming从Kafka接收数据并进行统计分析的Java/Scala示例程序。本工程应用程序实时累加计算Kafka中的流数据，统计每个单词的记录总数。
sparknormal-examples/SparkStreamingKafka010PythonExample
sparknormal-examples/SparkStreamingtoHbaseJavaExample010	Spark Streaming读取Kafka数据并写入HBase的Java/Scala/Python示例程序。本工程应用程序每5秒启动一次任务，读取Kafka中的数据并更新到指定的HBase表中。
sparknormal-examples/SparkStreamingtoHbasePythonExample010
sparknormal-examples/SparkStreamingtoHbaseScalaExample010
sparknormal-examples/SparkStructuredStreamingJavaExample	在Spark应用中，通过使用StructuredStreaming调用Kafka接口来获取单词记录，然后把单词记录分类统计，得到每个单词记录数。
sparknormal-examples/SparkStructuredStreamingPythonExample
sparknormal-examples/SparkStructuredStreamingScalaExample
sparknormal-examples/SparkThriftServerJavaExample	通过JDBC访问Spark SQL的Java/Scala示例程序。本示例中，用户自定义JD BCS erver的客户端，使用JDBC连接来进行表的创建、数据加载、查询和删除。
sparknormal-examples/SparkThriftServerScalaExample
sparknormal-examples/StructuredStreamingADScalaExample	使用Structured Streaming，从kafka中读取广告请求数据、广告展示数据、广告点击数据，实时获取广告有效展示统计数据和广告有效点击统计数据，将统计结果写入kafka中。
sparknormal-examples/StructuredStreamingStateScalaExample	Spark结构流应用中，跨批次统计每个session期间发生了多少次event以及本session的开始和结束timestamp；同时输出本批次被更新状态的session。