MAPREDUCE服务 MRS-Spark Streaming对接Kafka0-10样例程序开发思路:数据规划

时间:2024-06-29 14:11:32

数据规划

Spark Streaming样例工程的数据存储在Kafka组件中。向Kafka组件发送数据(需要有Kafka权限用户)。
  1. 确保集群安装完成,包括HDFS、Yarn、Spark和Kafka。
  2. 本地新建文件“input_data1.txt”,将“log1.txt”的内容复制保存到“input_data1.txt”

    在客户端安装节点下创建文件目录:“/home/data”。将上述文件上传到此“/home/data”目录下。

  3. 创建Topic。

    {zkQuorum}表示ZooKeeper集群信息,格式为IP:port。

    $KAFKA_HOME/bin/kafka-topics.sh --create --zookeeper {zkQuorum}/kafka --replication-factor 1 --partitions 3 --topic {Topic}

  4. 启动Kafka的Producer,向Kafka发送数据。

    java -cp {ClassPath} com.huawei.bigdata.spark.examples.StreamingExampleProducer {BrokerList} {Topic}

    其中,ClassPath除样例工程jar包路径外,还应包含Spark客户端Kafka jar包的绝对路径,例如:/opt/client/Spark2x/spark/jars/*:/opt/client/Spark2x/spark/jars/streamingClient010/*:{ClassPath}

support.huaweicloud.com/devg3-mrs/mrs_07_410098.html