华为云首页用户手册

MAPREDUCE服务 MRS-Spark Structured Streaming对接Kafka样例程序开发思路:数据规划

MAPREDUCE服务 MRS-Spark Structured Streaming对接Kafka样例程序开发思路:数据规划

时间：2024-06-29 14:11:27

MAPREDUCE服务 MRS Spark Structured Streaming对接Kafka样例程序

数据规划

在kafka中生成模拟数据（需要有Kafka权限用户）。
java -cp $SPARK_HOME/conf:$SPARK_HOME/jars/*:$SPARK_HOME/jars/streamingClient010/*:{ClassPath} com.huawei.bigdata.spark.examples.KafkaADEventProducer {BrokerList} {timeOfProduceReqEvent} {eventTimeBeforeCurrentTime} {reqTopic} {reqEventCount} {showTopic} {showEventMaxDelay} {clickTopic} {clickEventMaxDelay}
- 确保集群安装完成，包括HDFS、Yarn、Spark2x和Kafka。
- 启动Kafka的Producer，向Kafka发送数据。
- {ClassPath}表示工程jar包的存放路径，详细路径由用户指定，可参考在Linux环境中编包并运行Spark程序章节中导出jar包的操作步骤。
命令举例：

java -cp /opt/client/Spark2x/spark/conf:/opt/StructuredStreamingADScalaExample-1.0.jar:/opt/client/Spark2x/spark/jars/*:/opt/client/Spark2x/spark/jars/streamingClient010/* com.huawei.bigdata.spark.examples.KafkaADEventProducer 10.132.190.170:21005,10.132.190.165:21005 2h 1h req 10000000 show 5m click 5m

此命令将在kafka上创建3个topic：req、show、click，在2h内生成1千万条请求事件数据，请求事件的时间取值范围为{当前时间-1h 至当前时间}，并为每条请求事件随机生成0-5条展示事件，展示事件的时间取值范围为{请求事件时间至请求事件时间+5m }，为每条展示事件随机生成0-5条点击事件，点击事件的时间取值范围为{展示事件时间至展示事件时间+5m }

上一篇：MAPREDUCE服务 MRS-配置ClickHouse连接属性

下一篇：MAPREDUCE服务 MRS-Spark Structured Streaming对接Kafka样例程序开发思路:场景说明

华为云11.11 2核1G 2M 云服务器

29元/年

立即注册领万元上云礼券

抽奖赢11111元免单

续费同价 L实例 2核2G 4M

98元/年

热门域名 1元随心购

1元/年

MAPREDUCE服务 MRS-Spark Structured Streaming对接Kafka样例程序开发思路:数据规划

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题