云服务器内容精选

华为云首页用户手册

Flink应用开发概述

MAPREDUCE服务 MRS-Flink应用开发常用概念

Flink应用开发常用概念 DataStream 数据流，是指Flink系统处理的最小数据单元。该数据单元最初由外部系统导入，可以通过socket、Kafka和文件等形式导入，在Flink系统处理后，在通过Socket、Kafka和文件等输出到外部系统，这是Flink的核心概念。 Data Transformation 数据处理单元，会将一或多个DataStream转换成一个新的DataStream。具体可以细分如下几类：一对一的转换：如Map。一对0、1或多个的转换：如FlatMap。一对0或1的转换，如Filter。多对1转换，如Union。多个聚合的转换，如window、keyby。 Topology 一个Topology代表用户的一个执行任务。一个Topology由输入（如kafka soruce）、输出（如kafka sink）和多个Data Transformation组成。 CheckPoint CheckPoint是Flink数据处理高可靠、最重要的机制。该机制可以保证应用在运行过程中出现失败时，应用的所有状态能够从某一个检查点恢复，保证数据仅被处理一次（Exactly Once）。 SavePoint Savepoint是指允许用户在持久化存储中保存某个checkpoint，以便用户可以暂停自己的任务进行升级。升级完后将任务状态设置为savepoint存储的状态开始恢复运行，保证数据处理的延续性。父主题： Flink应用开发概述

MAPREDUCE服务 MRS Flink应用开发概述
MAPREDUCE服务 MRS-Flink应用开发简介

Flink应用开发简介 Flink是一个批处理和流处理结合的统一计算框架，其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。 Flink最适合的应用场景是低时延的数据处理（Data Processing）场景：高并发pipeline处理数据，时延毫秒级，且兼具可靠性。 Flink整个系统包含三个部分： Client Flink Client主要给用户提供向Flink系统提交用户任务（流式作业）的能力。 TaskManager Flink系统的业务执行节点，执行具体的用户任务。TaskManager可以有多个，各个TaskManager都平等。 JobManager Flink系统的管理节点，管理所有的TaskManager，并决策用户任务在哪些Taskmanager执行。JobManager在HA模式下可以有多个，但只有一个主JobManager。 Flink系统提供的关键能力：低时延提供ms级时延的处理能力。 Exactly Once 提供异步快照机制，保证所有数据真正只处理一次。 HA JobManager支持主备模式，保证无单点故障。水平扩展能力 TaskManager支持手动水平扩展。 Flink DataStream API提供Scala和Java两种语言的开发方式，如表1所示。表1 Flink DataStream API接口功能说明 Scala API 提供Scala语言的API，提供过滤、join、窗口、聚合等数据处理能力。由于Scala语言的简洁易懂，推荐用户使用Scala接口进行程序开发。 Java API 提供Java语言的API，提供过滤、join、窗口、聚合等数据处理能力。有关Flink的详细信息，请参见：https://flink.apache.org/ 父主题： Flink应用开发概述

MAPREDUCE服务 MRS Flink应用开发概述