MAPREDUCE服务 MRS-Spark Structured Streaming样例程序开发思路:数据规划

时间:2024-06-29 14:10:58

数据规划

StructuredStreaming样例工程的数据存储在Kafka组件中。向Kafka组件发送数据(需要有Kafka权限用户)。
  1. 确保集群安装完成,包括HDFS、Yarn、Spark和Kafka。
  2. 将Kafka的Broker配置参数“allow.everyone.if.no.acl.found”的值修改为“true”
  3. 创建Topic。

    {zkQuorum}表示ZooKeeper集群信息,格式为IP:port。

    $KAFKA_HOME/bin/kafka-topics.sh --create --zookeeper {zkQuorum}/kafka --replication-factor 1 --partitions 1 --topic {Topic}

  4. 启动Kafka的Producer,向Kafka发送数据。

    {ClassPath}表示工程jar包的存放路径,详细路径由用户指定,可参考在Linux环境中编包并运行Spark程序章节中导出jar包的操作步骤。

    java -cp $SPARK_HOME/jars/*:$SPARK_HOME/jars/streamingClient010/*:{ClassPath} com.huawei.bigdata.spark.examples.KafkaWordCountProducer {BrokerList} {Topic} {messagesPerSec} {wordsPerMessage}

support.huaweicloud.com/devg3-mrs/mrs_07_200104.html