Flink-华为云

数据湖探索 DLI-开启Flink作业动态扩缩容:操作场景

操作场景在实际作业运行中，由于作业的数据流量变化，导致所需计算资源不同，造成流量较小时计算资源浪费，流量较大时计算资源不足以满足计算所需。 DLI 提供的动态扩缩容功能可以根据当前作业的负载情况，例如：数据输入输出量、数据输入输出速率、反压等情况，动态的调整当前作业所用的计算资源，提升资源利用率。开启Flink作业动态扩缩容后，系统将根据Flink作业的实际资源需求动态调整资源分配。当弹性资源池中剩余的Pod资源足以支持作业的最小资源需求时，系统将自动减少作业所在节点的数量，确保作业高效运行，同时提高资源的利用效率。当前仅Flink 1.12版本的作业支持开启动态扩缩容。

数据湖探索 DLI 管理Flink作业

数据湖探索 DLI-开启Flink作业动态扩缩容:使用须知

使用须知在Flink作业进行动态扩缩容时如果队列资源被抢占，剩余资源不满足作业启动所需资源则可能存在作业无法正常恢复的情况。在Flink作业进行动态扩缩时后台作业需要停止继而从savepoint恢复，因此未恢复成功前，作业无法处理数据。因扩缩容过程中需要触发savepoint，因此必须配置obs桶，并保存日志，同时请注意开启checkpoint。扩缩容检测周期不要设置过小，避免频繁启停作业。扩缩容作业恢复过程中的时间长短受savepoint的大小影响，如果保存点较大，可能恢复时间较慢。如果需要调整动态扩缩容的配置项，则需要停止作业进行编辑，并提交运行才能生效。

数据湖探索 DLI 管理Flink作业

数据湖探索 DLI-配置Flink作业权限:Flink作业权限操作场景

Flink作业权限操作场景针对不同用户，可以通过权限设置分配不同的作业，不同用户之间的作业效率互不影响，保障作业性能。管理员用户和作业的所有者拥有所有权限，不需要进行权限设置且其他用户无法修改其作业权限。给新用户设置作业权限时，该用户所在用户组的所属区域需具有Tenant Guest权限。关于Tenant Guest权限的介绍和开通方法，详细参见《权限策略》和《统一身份认证服务用户指南》中的创建用户组。

数据湖探索 DLI 使用DLI提交Flink作业

数据湖探索 DLI-配置Flink作业权限:Flink作业权限使用说明

Flink作业权限使用说明查看作业详情租户以及admin用户可以查看和操作所有作业。子用户以及拥有只读权限的用户只能查看自己的作业。他人赋权给该子用户查看权限外的任意权限，则该作业仅显示在作业列表中，但不支持该子用户查看作业详情。启动作业用户需要同时拥有队列的提交作业权限以及作业的启动作业权限。停止作业用户需要同时拥有队列的停止作业权限以及作业的停止作业权限。删除作业如果作业在可删除状态，则用户拥有作业的删除权限即可。如果作业在不可删除状态，用户删除作业时，系统会先停止作业，停止作业权限说明可以参考•停止作业，并且用户还需要拥有作业的删除权限。创建作业子用户默认不能创建作业。创建作业时，用户需要拥有创建作业的权限。目前只有admin用户创建作业的权限，同时用户还需要拥有该作业使用的相关程序包组权限或者程序包权限。编辑作业编辑作业时，用户需要拥有更新作业的权限，同时用户还需要拥有该作业使用的相关程序包所属组权限或者程序包权限。

数据湖探索 DLI 使用DLI提交Flink作业

数据仓库服务 GaussDB(DWS)-引入依赖:概述

概述 dws-connector-flink是在dws-client的基础上对接Flink的一个工具，工具为对dws-client的包装，整体入库能力跟dws-client一致。dws-connector-flink为 GaussDB (DWS)团队自研工具，后续将根据GaussDB(DWS)数据库持续优化。 dws-flink-connector的DWS-Connector只支持单并发查询存量数据，暂不支持并行读取。

数据仓库服务 GaussDB(DWS) dws-connector-flink

数据仓库服务 GaussDB(DWS)-做结果表:UDF函数DnHashFunction参数说明

UDF函数DnHashFunction参数说明参数格式 dn_hash（'dws表名',sink并行度,最大并行度,dws作为分布列的数据在源数据的字段名称{1,}）参数说明使用时上游并行度必须不多于sink并行度，DnHashFunction同样是通过进程内获取sink 算子初始化的dws client实例获取到的表元数据，如果当前进程无sin算子就会导致无法获取client实例。使用后会增加一个hash算子，如果链路有多个算子处理业务，当执行hash算子后不可以再有改变数据分区的算子，否则数据会被再次分区就不能到达指定sink算子。最大并行度默认flink自动调整的，算法中需要使用，因此自动调整的无法使用，必须通过参数设置固定并把设置额值作为UDF的参数，可以通过参数pipeline.max-parallelism设置或者jar方式通过API设置： StreamExecutionEnvironment evn = StreamExecutionEnvironment.getExecutionEnvironment();evn.setParallelism(1);evn.setMaxParallelism(1024); 如果分布列包含多个字段，分布列的字段顺序需要保持和DWS一致，分布列支持的字段类型和dws client一致参考参数WRITE_PARTITION_POLICY，使用功能同样需要额外配置，不可自行使用。