Spark Structured Streaming对接Kafka样例程序-华为云

MAPREDUCE服务 MRS-Spark Structured Streaming对接Kafka样例程序开发思路:数据规划

数据规划在kafka中生成模拟数据（需要有Kafka权限用户）。 java -cp $SPARK_HOME/conf:$SPARK_HOME/jars/*:$SPARK_HOME/jars/streamingClient010/*:{ClassPath} com.huawei.bigdata.spark.examples.KafkaADEventProducer {BrokerList} {timeOfProduceReqEvent} {eventTimeBeforeCurrentTime} {reqTopic} {reqEventCount} {showTopic} {showEventMaxDelay} {clickTopic} {clickEventMaxDelay} 确保集群安装完成，包括HDFS、Yarn、Spark2x和Kafka。启动Kafka的Producer，向Kafka发送数据。 {ClassPath}表示工程jar包的存放路径，详细路径由用户指定，可参考在Linux环境中编包并运行Spark程序章节中导出jar包的操作步骤。命令举例： java -cp /opt/client/Spark2x/spark/conf:/opt/StructuredStreamingADScalaExample-1.0.jar:/opt/client/Spark2x/spark/jars/*:/opt/client/Spark2x/spark/jars/streamingClient010/* com.huawei.bigdata.spark.examples.KafkaADEventProducer 10.132.190.170:21005,10.132.190.165:21005 2h 1h req 10000000 show 5m click 5m 此命令将在kafka上创建3个topic：req、show、click，在2h内生成1千万条请求事件数据，请求事件的时间取值范围为{当前时间-1h 至当前时间}，并为每条请求事件随机生成0-5条展示事件，展示事件的时间取值范围为{请求事件时间至请求事件时间+5m }，为每条展示事件随机生成0-5条点击事件，点击事件的时间取值范围为{展示事件时间至展示事件时间+5m }

MAPREDUCE服务 MRS Spark Structured Streaming对接Kafka样例程序

MAPREDUCE服务 MRS-Spark Structured Streaming对接Kafka样例程序开发思路:场景说明

场景说明假定一个广告业务，存在广告请求事件、广告展示事件、广告点击事件，广告主需要实时统计有效的广告展示和广告点击数据。已知：终端用户每次请求一个广告后，会生成广告请求事件，保存到kafka的adRequest topic中。请求一个广告后，可能用于多次展示，每次展示，会生成广告展示事件，保存到kafka的adShow topic中。每个广告展示，可能会产生多次点击，每次点击，会生成广告点击事件，保存到kafka的adClick topic中。广告有效展示的定义如下：请求到展示的时长超过A分钟算无效展示。 A分钟内多次展示，每次展示事件为有效展示。广告有效点击的定义如下：展示到点击时长超过B分钟算无效点击。 B分钟内多次点击，仅首次点击事件为有效点击。基于此业务场景，模拟简单的数据结构如下：广告请求事件数据结构：adID^reqTime 广告展示事件数据结构：adID^showID^showTime 广告点击事件数据结构：adID^showID^clickTime 数据关联关系如下：广告请求事件与广告展示事件通过adID关联。广告展示事件与广告点击事件通过adID+showID关联。数据要求：数据从产生到到达流处理引擎的延迟时间不超过2小时广告请求事件、广告展示事件、广告点击事件到达流处理引擎的时间不能保证有序和时间对齐

MAPREDUCE服务 MRS Spark Structured Streaming对接Kafka样例程序

MAPREDUCE服务 MRS-Spark Structured Streaming对接Kafka样例程序开发思路:打包项目

打包项目将user.keytab、krb5.conf 两个文件上传客户端所在服务器上。通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。编译打包前，样例代码中的user.keytab、krb5.conf文件路径需要修改为该文件所在客户端服务器的实际路径。例如：“/opt/female/user.keytab”，“/opt/female/krb5.conf”。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“ /opt” ）下。

MAPREDUCE服务 MRS Spark Structured Streaming对接Kafka样例程序

MAPREDUCE服务 MRS-Spark Structured Streaming对接Kafka样例程序开发思路:数据规划

数据规划在kafka中生成模拟数据（需要有Kafka权限用户）。 java -cp $SPARK_HOME/conf:$SPARK_HOME/jars/*:$SPARK_HOME/jars/streamingClient010/*:{ClassPath} com.huawei.bigdata.spark.examples.KafkaADEventProducer {BrokerList} {timeOfProduceReqEvent} {eventTimeBeforeCurrentTime} {reqTopic} {reqEventCount} {showTopic} {showEventMaxDelay} {clickTopic} {clickEventMaxDelay} 确保集群安装完成，包括HDFS、Yarn、Spark2x和Kafka。将Kafka的Broker配置参数“allow.everyone.if.no.acl.found”的值修改为“true”。启动Kafka的Producer，向Kafka发送数据。 {ClassPath}表示工程jar包的存放路径，详细路径由用户指定，可参考在Linux环境中编包并运行Spark程序章节中导出jar包的操作步骤。命令举例： java -cp /opt/client/Spark2x/spark/conf:/opt/StructuredStreamingADScalaExample-1.0.jar:/opt/client/Spark2x/spark/jars/*:/opt/client/Spark2x/spark/jars/streamingClient010/* com.huawei.bigdata.spark.examples.KafkaADEventProducer 10.132.190.170:21005,10.132.190.165:21005 2h 1h req 10000000 show 5m click 5m 此命令将在kafka上创建3个topic：req、show、click，在2h内生成1千万条请求事件数据，请求事件的时间取值范围为{当前时间-1h 至当前时间}，并为每条请求事件随机生成0-5条展示事件，展示事件的时间取值范围为{请求事件时间至请求事件时间+5m }，为每条展示事件随机生成0-5条点击事件，点击事件的时间取值范围为{展示事件时间至展示事件时间+5m }

MAPREDUCE服务 MRS Spark Structured Streaming对接Kafka样例程序

MAPREDUCE服务 MRS-Spark Structured Streaming对接Kafka样例程序开发思路:场景说明

场景说明假定一个广告业务，存在广告请求事件、广告展示事件、广告点击事件，广告主需要实时统计有效的广告展示和广告点击数据。已知：终端用户每次请求一个广告后，会生成广告请求事件，保存到kafka的adRequest topic中。请求一个广告后，可能用于多次展示，每次展示，会生成广告展示事件，保存到kafka的adShow topic中。每个广告展示，可能会产生多次点击，每次点击，会生成广告点击事件，保存到kafka的adClick topic中。广告有效展示的定义如下：请求到展示的时长超过A分钟算无效展示。 A分钟内多次展示，每次展示事件为有效展示。广告有效点击的定义如下：展示到点击时长超过B分钟算无效点击。 B分钟内多次点击，仅首次点击事件为有效点击。基于此业务场景，模拟简单的数据结构如下：广告请求事件数据结构：adID^reqTime 广告展示事件数据结构：adID^showID^showTime 广告点击事件数据结构：adID^showID^clickTime 数据关联关系如下：广告请求事件与广告展示事件通过adID关联。广告展示事件与广告点击事件通过adID+showID关联。数据要求：数据从产生到到达流处理引擎的延迟时间不超过2小时广告请求事件、广告展示事件、广告点击事件到达流处理引擎的时间不能保证有序和时间对齐

MAPREDUCE服务 MRS Spark Structured Streaming对接Kafka样例程序

MAPREDUCE服务 MRS-Spark Structured Streaming对接Kafka样例程序开发思路:数据规划

数据规划在kafka中生成模拟数据（需要有Kafka权限用户）。 java -cp $SPARK_HOME/conf:$SPARK_HOME/jars/*:$SPARK_HOME/jars/streamingClient010/*:{ClassPath} com.huawei.bigdata.spark.examples.KafkaADEventProducer {BrokerList} {timeOfProduceReqEvent} {eventTimeBeforeCurrentTime} {reqTopic} {reqEventCount} {showTopic} {showEventMaxDelay} {clickTopic} {clickEventMaxDelay} 确保集群安装完成，包括HDFS、Yarn、Spark2x和Kafka。将Kafka的Broker配置参数“allow.everyone.if.no.acl.found”的值修改为“true”。启动Kafka的Producer，向Kafka发送数据。 {ClassPath}表示工程jar包的存放路径，详细路径由用户指定，可参考在Linux环境中调测Spark应用章节中导出jar包的操作步骤。命令举例： java -cp /opt/client/Spark2x/spark/conf:/opt/StructuredStreamingADScalaExample-1.0.jar:/opt/client/Spark2x/spark/jars/*:/opt/client/Spark2x/spark/jars/streamingClient010/* com.huawei.bigdata.spark.examples.KafkaADEventProducer 10.132.190.170:21005,10.132.190.165:21005 2h 1h req 10000000 show 5m click 5m 此命令将在kafka上创建3个topic：req、show、click，在2h内生成1千万条请求事件数据，请求事件的时间取值范围为{当前时间-1h 至当前时间}，并为每条请求事件随机生成0-5条展示事件，展示事件的时间取值范围为{请求事件时间至请求事件时间+5m }，为每条展示事件随机生成0-5条点击事件，点击事件的时间取值范围为{展示事件时间至展示事件时间+5m }

MAPREDUCE服务 MRS Spark Structured Streaming对接Kafka样例程序

MAPREDUCE服务 MRS-Spark Structured Streaming对接Kafka样例程序开发思路:场景说明

场景说明假定一个广告业务，存在广告请求事件、广告展示事件、广告点击事件，广告主需要实时统计有效的广告展示和广告点击数据。已知：终端用户每次请求一个广告后，会生成广告请求事件，保存到kafka的adRequest topic中。请求一个广告后，可能用于多次展示，每次展示，会生成广告展示事件，保存到kafka的adShow topic中。每个广告展示，可能会产生多次点击，每次点击，会生成广告点击事件，保存到kafka的adClick topic中。广告有效展示的定义如下：请求到展示的时长超过A分钟算无效展示。 A分钟内多次展示，每次展示事件为有效展示。广告有效点击的定义如下：展示到点击时长超过B分钟算无效点击。 B分钟内多次点击，仅首次点击事件为有效点击。基于此业务场景，模拟简单的数据结构如下：广告请求事件数据结构：adID^reqTime 广告展示事件数据结构：adID^showID^showTime 广告点击事件数据结构：adID^showID^clickTime 数据关联关系如下：广告请求事件与广告展示事件通过adID关联。广告展示事件与广告点击事件通过adID+showID关联。数据要求：数据从产生到到达流处理引擎的延迟时间不超过2小时广告请求事件、广告展示事件、广告点击事件到达流处理引擎的时间不能保证有序和时间对齐

MAPREDUCE服务 MRS Spark Structured Streaming对接Kafka样例程序

云服务器内容精选

Spark Structured Streaming对接Kafka样例程序

7*24

备案

专业服务

退订

建议反馈

售前咨询热线