MAPREDUCE服务 MRS-Spark Structured Streaming对接Kafka样例程序开发思路:数据规划
数据规划
- 在kafka中生成模拟数据(需要有Kafka权限用户)。
java -cp $SPARK_HOME/conf:$SPARK_HOME/jars/*:$SPARK_HOME/jars/streamingClient010/*:{ClassPath} com.huawei.bigdata.spark.examples.KafkaADEventProducer {BrokerList} {timeOfProduceReqEvent} {eventTimeBeforeCurrentTime} {reqTopic} {reqEventCount} {showTopic} {showEventMaxDelay} {clickTopic} {clickEventMaxDelay}
- 确保集群安装完成,包括HDFS、Yarn、Spark2x和Kafka。
- 启动Kafka的Producer,向Kafka发送数据。
- {ClassPath}表示工程jar包的存放路径,详细路径由用户指定,可参考在Linux环境中编包并运行Spark程序章节中导出jar包的操作步骤。
命令举例:
java -cp /opt/client/Spark2x/spark/conf:/opt/StructuredStreamingADScalaExample-1.0.jar:/opt/client/Spark2x/spark/jars/*:/opt/client/Spark2x/spark/jars/streamingClient010/* com.huawei.bigdata.spark.examples.KafkaADEventProducer 10.132.190.170:21005,10.132.190.165:21005 2h 1h req 10000000 show 5m click 5m
此命令将在kafka上创建3个topic:req、show、click,在2h内生成1千万条请求事件数据,请求事件的时间取值范围为{当前时间-1h 至 当前时间},并为每条请求事件随机生成0-5条展示事件,展示事件的时间取值范围为{请求事件时间 至请求事件时间+5m },为每条展示事件随机生成0-5条点击事件,点击事件的时间取值范围为{展示事件时间 至展示事件时间+5m }
- 什么是Spark_如何使用Spark_Spark的功能是什么
- MapReduce服务_什么是Kafka_如何使用Kafka
- 小程序免费开发_免费小程序开发平台_免费开发小程序_免费的小程序平台
- Kafka架构_Kafka如何实现负载均衡_Kafka数据存储方式-华为云
- 分布式消息系统Kafka_分布式消息系统_分布式消息kafka可以解决什么问题-华为云
- MapReduce服务_什么是存算分离_如何配置MRS集群存算分离
- 数据备份归档在哪里_数据分析存储系统_大数据存储管理
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- 免费店铺小程序_免费制作小程序_小程序免费开发平台_免费的小程序
- MapReduce工作原理_MapReduce是什么意思_MapReduce流程_MRS_华为云