Flink开发指南（安全模式）-华为云

MAPREDUCE服务 MRS-Flink应用开发简介:基本概念

基本概念 DataStream 数据流，是指Flink系统处理的最小数据单元。该数据单元最初由外部系统导入，可以通过Socket、Kafka和文件等形式导入，在Flink系统处理后，在通过Socket、Kafka和文件等输出到外部系统，这是Flink的核心概念。 Data Transformation 数据处理单元，会将一或多个DataStream转换成一个新的DataStream。具体可以细分如下几类：一对一的转换：如Map。一对0、1或多个的转换：如FlatMap。一对0或1的转换，如Filter。多对1转换，如Union。多个聚合的转换，如window、keyby。 CheckPoint CheckPoint是Flink数据处理高可靠、最重要的机制。该机制可以保证应用在运行过程中出现失败时，应用的所有状态能够从某一个检查点恢复，保证数据仅被处理一次（Exactly Once）。 SavePoint Savepoint是指允许用户在持久化存储中保存某个checkpoint，以便用户可以暂停自己的任务进行升级。升级完后将任务状态设置为savepoint存储的状态开始恢复运行，保证数据处理的延续性。

MAPREDUCE服务 MRS Flink开发指南（安全模式）

MAPREDUCE服务 MRS-Flink应用开发简介:样例工程介绍

样例工程介绍 MRS 样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example，切换分支为与MRS集群相匹配的版本分支，然后下载压缩包到本地后解压，即可获取各组件对应的样例代码工程。当前MRS提供以下Flink相关样例工程，安全模式路径为“flink-examples/flink-examples-security”，普通模式路径为“flink-examples/flink-examples-normal”：表2 Flink相关样例工程样例工程描述 FlinkCheckpointJavaExample 异步Checkpoint机制程序的应用开发示例。假定用户需要每隔1秒钟需要统计4秒中窗口中数据的量，并做到状态严格一致性，即：当应用出现异常并恢复后，各个算子的状态能够处于统一的状态，相关业务场景介绍请参见Flink开启Checkpoint样例程序。 FlinkCheckpointScalaExample FlinkKafkaJavaExample 向Kafka生产并消费数据程序的应用开发示例。通过调用flink-connector-kafka模块的接口，生产并消费数据，相关业务场景介绍请参见Flink Kafka样例程序。 FlinkKafkaScalaExample FlinkPipelineJavaExample Job Pipeline程序的应用开发示例。相关业务场景介绍请参见Flink Job Pipeline样例程序。发布者Job自己每秒钟产生10000条数据，然后经由该job的NettySink算子向下游发送。另外两个Job作为订阅者，分别订阅一份数据并打印输出。 FlinkPipelineScalaExample FlinkSqlJavaExample 使用客户端通过jar作业提交SQL作业的应用开发示例。 FlinkStreamJavaExample DataStream程序的应用开发示例。相关业务场景介绍请参见Flink DataStream样例程序。假定用户有某个网站周末网民网购停留时间的日志文本，另有一张网民个人信息的csv格式表，可通过Flink应用程序实现例如实时统计总计网购时间超过2个小时的女性网民信息，包含对应的个人详细信息的功能。 FlinkStreamScalaExample FlinkStreamSqlJoinExample Stream SQL Join程序的应用开发示例。相关业务场景介绍请参见Flink Join样例程序。假定某个Flink业务1每秒就会收到1条消息记录，消息记录某个用户的基本信息，包括名字、性别、年龄。另有一个Flink业务2会不定时收到1条消息记录，消息记录该用户的名字、职业信息。实现实时的以根据业务2中消息记录的用户名字作为关键字，对两个业务数据进行联合查询的功能。

MAPREDUCE服务 MRS Flink开发指南（安全模式）

MAPREDUCE服务 MRS-Flink应用开发简介:结构

结构 Flink结构如图2所示。图2 Flink结构 Flink整个系统包含三个部分： Client Flink Client主要给用户提供向Flink系统提交用户任务（流式作业）的能力。 TaskManager Flink系统的业务执行节点，执行具体的用户任务。TaskManager可以有多个，各个TaskManager都平等。 JobManager Flink系统的管理节点，管理所有的TaskManager，并决策用户任务在哪些Taskmanager执行。JobManager在HA模式下可以有多个，但只有一个主JobManager。 Flink系统提供的关键能力：低时延提供ms级时延的处理能力。 ExactlyOnce 提供异步快照机制，保证所有数据真正只处理一次。 HA JobManager支持主备模式，保证无单点故障。水平扩展能力 TaskManager支持手动水平扩展。

MAPREDUCE服务 MRS Flink开发指南（安全模式）

MAPREDUCE服务 MRS-Flink应用开发简介:简介

简介 Flink是一个批处理和流处理结合的统一计算框架，其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理，是业界最顶级的开源流处理引擎。 Flink最适合的应用场景是低时延的数据处理（Data Processing）场景：高并发pipeline处理数据，时延毫秒级，且兼具可靠性。 Flink技术栈如图1所示。图1 Flink技术栈 Flink在当前版本中重点构建如下特性，其他特性继承开源社区，不做增强，具体请参考：https://ci.apache.org/projects/flink/flink-docs-release-1.15。 DataStream Checkpoint 窗口 Job Pipeline 配置表

MAPREDUCE服务 MRS Flink开发指南（安全模式）

MAPREDUCE服务 MRS-Flink应用开发流程介绍:Flink应用程序开发流程

Flink应用程序开发流程 Flink开发流程参考如下步骤：图1 Flink应用程序开发流程表1 Flink应用开发的流程说明阶段说明参考章节了解基本概念在开始开发应用前，需要了解Flink的基本概念。基本概念准备开发和运行环境 Flink的应用程序支持使用Scala、Java两种语言进行开发。推荐使用IDEA工具，请根据指导完成不同语言的开发环境配置。Flink的运行环境即Flink客户端，请根据指导完成客户端的安装和配置。准备本地应用开发环境准备连接集群配置文件准备工程 Flink提供了样例程序，您可以导入样例工程进行程序学习。或者您可以根据指导，新建一个Flink工程。导入并配置Flink样例工程准备安全认证如果您使用的是安全集群，需要进行安全认证。准备Flink安全认证根据场景开发工程提供了Scala、Java两种不同语言的样例工程，帮助用户快速了解Flink各部件的编程接口。开发Flink应用编译并运行程序指导用户将开发好的程序编译并提交运行。编译并调测Flink应用查看程序运行结果程序运行结果会写在用户指定的路径下，用户还可以通过UI查看应用运行情况。查看Flink应用调测结果调优程序您可以根据程序运行情况，对程序进行调优，使其性能满足业务场景需求。调优完成后，请重新进行编译和运行。组件操作指南中的“Flink性能调优”

MAPREDUCE服务 MRS Flink开发指南（安全模式）

MAPREDUCE服务 MRS-Flink应用开发流程介绍:Flink应用程序开发流程

Flink应用程序开发流程 Flink开发流程参考如下步骤：图1 Flink应用程序开发流程表1 Flink应用开发的流程说明阶段说明参考章节了解基本概念在开始开发应用前，需要了解Flink的基本概念。基本概念准备开发和运行环境 Flink的应用程序支持使用Scala、Java两种语言进行开发。推荐使用IDEA工具，请根据指导完成不同语言的开发环境配置。Flink的运行环境即Flink客户端，请根据指导完成客户端的安装和配置。准备本地应用开发环境准备工程 Flink提供了样例程序，您可以导入样例工程进行程序学习。或者您可以根据指导，新建一个Flink工程。导入并配置Flink样例工程准备安全认证如果您使用的是安全集群，需要进行安全认证。配置Flink应用安全认证根据场景开发工程提供了Scala、Java两种不同语言的样例工程，帮助用户快速了解Flink各部件的编程接口。开发Flink应用编译并运行程序指导用户将开发好的程序编译并提交运行。编译并调测Flink应用查看程序运行结果程序运行结果会写在用户指定的路径下，用户还可以通过UI查看应用运行情况。查看Flink应用调测结果调优程序您可以根据程序运行情况，对程序进行调优，使其性能满足业务场景需求。调优完成后，请重新进行编译和运行。组件操作指南中的“Flink性能调优”

MAPREDUCE服务 MRS Flink开发指南（安全模式）

MAPREDUCE服务 MRS-Flink应用开发简介:样例工程介绍

样例工程介绍 MRS样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example，切换分支为与MRS集群相匹配的版本分支，然后下载压缩包到本地后解压，即可获取各组件对应的样例代码工程。当前MRS提供以下Flink相关样例工程，安全模式路径为“flink-examples/flink-examples-security”，普通模式路径为“flink-examples/flink-examples-normal”：表2 Flink相关样例工程样例工程描述 FlinkCheckpointJavaExample 异步Checkpoint机制程序的应用开发示例。假定用户需要每隔1秒钟需要统计4秒中窗口中数据的量，并做到状态严格一致性，即：当应用出现异常并恢复后，各个算子的状态能够处于统一的状态。相关业务场景介绍请参见Flink开启Checkpoint样例程序。 FlinkCheckpointScalaExample FlinkHBaseJavaExample 通过Flink API作业读写HBase数据的应用开发示例。相关业务场景介绍请参见Flink读取HBase表样例程序。 FlinkHudiJavaExample 通过Flink API作业读写Hudi数据的应用开发示例。相关业务场景介绍请参见Flink读取Hudi表样例程序。 FlinkKafkaJavaExample 向Kafka生产并消费数据程序的应用开发示例。通过调用flink-connector-kafka模块的接口，生产并消费数据。相关业务场景介绍请参见Flink Kafka样例程序。 FlinkKafkaScalaExample FlinkPipelineJavaExample Job Pipeline程序的应用开发示例。相关业务场景介绍请参见Flink Job Pipeline样例程序。发布者Job自己每秒钟产生10000条数据，然后经由该job的NettySink算子向下游发送。另外两个Job作为订阅者，分别订阅一份数据并打印输出。 FlinkPipelineScalaExample FlinkRESTAPIJavaExample 调用FlinkServer的RestAPI创建租户的应用开发示例。相关业务场景介绍请参见FlinkServer REST API样例程序。 FlinkStreamJavaExample DataStream程序的应用开发示例。相关业务场景介绍请参见Flink DataStream样例程序。假定用户有某个网站周末网民网购停留时间的日志文本，另有一张网民个人信息的csv格式表，可通过Flink应用程序实现例如实时统计总计网购时间超过2个小时的女性网民信息，包含对应的个人详细信息的功能。 FlinkStreamScalaExample FlinkStreamSqlJoinExample Stream SQL Join程序的应用开发示例。相关业务场景介绍请参见Flink Join样例程序。假定某个Flink业务1每秒就会收到1条消息记录，消息记录某个用户的基本信息，包括名字、性别、年龄。另有一个Flink业务2会不定时收到1条消息记录，消息记录该用户的名字、职业信息。实现实时的以根据业务2中消息记录的用户名字作为关键字，对两个业务数据进行联合查询的功能。 FlinkStreamSqlJoinScalaExample flink-sql 使用客户端通过jar作业提交SQL作业的应用开发示例。相关业务场景介绍请参见Flink Jar作业提交SQL样例程序。 pyflink-example 提供Python读写Kafka作业和Python提交SQL作业的样例。相关业务场景介绍请参见PyFlink样例程序。

MAPREDUCE服务 MRS Flink开发指南（安全模式）

MAPREDUCE服务 MRS-Flink应用开发简介:组件介绍

组件介绍 Flink是一个批处理和流处理结合的统一计算框架，其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理，是业界最顶级的开源流处理引擎。 Flink最适合的应用场景是低时延的数据处理（Data Processing）场景：高并发pipeline处理数据，时延毫秒级，且兼具可靠性。 Flink技术栈如图1所示。图1 Flink技术栈 Flink在当前版本中重点构建如下特性，其他特性继承开源社区，不做增强。 DataStream Checkpoint 窗口 Job Pipeline 配置表

MAPREDUCE服务 MRS Flink开发指南（安全模式）

MAPREDUCE服务 MRS-Flink应用开发简介:基本概念

基本概念 DataStream 数据流，是指Flink系统处理的最小数据单元。该数据单元最初由外部系统导入，可以通过Socket、Kafka和文件等形式导入，在Flink系统处理后，在通过Socket、Kafka和文件等输出到外部系统，这是Flink的核心概念。 Data Transformation 数据处理单元，会将一或多个DataStream转换成一个新的DataStream。具体可以细分如下几类：一对一的转换：如Map。一对0、1或多个的转换：如FlatMap。一对0或1的转换，如Filter。多对1转换，如Union。多个聚合的转换，如window、keyby。 CheckPoint CheckPoint是Flink数据处理高可靠、最重要的机制。该机制可以保证应用在运行过程中出现失败时，应用的所有状态能够从某一个检查点恢复，保证数据仅被处理一次（Exactly Once）。 SavePoint Savepoint是指允许用户在持久化存储中保存某个checkpoint，以便用户可以暂停自己的任务进行升级。升级完后将任务状态设置为savepoint存储的状态开始恢复运行，保证数据处理的延续性。

MAPREDUCE服务 MRS Flink开发指南（安全模式）

MAPREDUCE服务 MRS-Flink应用开发简介:架构

架构 Flink架构如图2所示。图2 Flink架构 Flink整个系统包含三个部分： Client Flink Client主要给用户提供向Flink系统提交用户任务（流式作业）的能力。 TaskManager Flink系统的业务执行节点，执行具体的用户任务。TaskManager可以有多个，各个TaskManager都平等。 JobManager Flink系统的管理节点，管理所有的TaskManager，并决策用户任务在哪些Taskmanager执行。JobManager在HA模式下可以有多个，但只有一个主JobManager。 Flink系统提供的关键能力：低时延提供ms级时延的处理能力。 Exactly Once 提供异步快照机制，保证所有数据真正只处理一次。 HA JobManager支持主备模式，保证无单点故障。水平扩展能力 TaskManager支持手动水平扩展。

MAPREDUCE服务 MRS Flink开发指南（安全模式）

云服务器内容精选

Flink开发指南（安全模式）

7*24

备案

专业服务

退订

建议反馈

售前咨询热线