-
性能调优 - 数据湖探索 DLI
性能调优 Flink作业推荐配置指导 Flink作业如何进行性能调优 如何在一个Flink作业中将数据写入到不同的Elasticsearch集群中? Flink作业重启后,如何保证不丢失数据? 父主题: Flink作业相关问题
-
Flink作业如何进行性能调优 - 数据湖探索 DLI
UI或者作业任务列表查看,一般情况下反压和高时延成对出现: 图2 反压状态和时延 性能分析 由于Flink的反压机制,流作业在存在性能问题的情况下,会导致数据源消费速率跟不上生产速率,从而引起Kafka消费组的积压。在这种情况下,可以通过算子的反压和时延,确定算子的性能瓶颈点。 作业最后一个算子(Sink)反压正常(绿色),前面算子反压高(红色)
-
Flink作业推荐配置指导 - 数据湖探索 DLI
checkpoint参数 “Checkpoint间隔”为两次触发Checkpoint的间隔,执行Checkpoint机制会影响实时计算性能,配置间隔时间需权衡对业务的性能影响及恢复时长,最好大于Checkpoint的完成时间,建议设置为5分钟。 Exactly Once模式保证每条数据只被消费一次,At
-
Flink作业重启后,如何保证不丢失数据? - 数据湖探索 DLI
对于Flink SQL作业,您可以勾选“开启Checkpoint”,并合理配置Checkpoint间隔(权衡执行Checkpoint对业务性能的影响以及异常恢复的时长),同时勾选“异常自动重启”,并勾选“从Checkpoint恢复”。配置后,作业异常重启,会从最新成功的Check
-
DLI表与OBS表的区别 - 数据湖探索 DLI
OBS表表示数据存储在用户自己账户的OBS桶中,源数据文件由用户自己管理。 DLI表相较于OBS表提供了更多权限控制和缓存加速的功能,性能相较于外表性能更好,但是会收取存储费用。 父主题: 使用咨询
-
如何在一个Flink作业中将数据写入到不同的Elasticsearch集群中? - 数据湖探索 DLI
es1 select * from ssource; insert into es2 select * from ssource; 父主题: 性能调优
-
Flink作业相关问题 - 数据湖探索 DLI
Flink作业相关问题 使用咨询 Flink SQL作业相关问题 Flink Jar作业相关问题 性能调优 运维指导
-
ClickHouse结果表 - 数据湖探索 DLI
DLI支持将Flink作业数据输出到ClickHouse数据库中。ClickHouse是面向联机分析处理的列式数据库,支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。详细请参考ClickHouse组件操作。 前提条件 该场景作业需要运行在DLI的独享队列即非共享队列上。
-
ClickHouse结果表 - 数据湖探索 DLI
DLI支持将Flink作业数据输出到ClickHouse数据库中。ClickHouse是面向联机分析处理的列式数据库,支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。详细请参考ClickHouse组件操作。 前提条件 该场景作业需要运行在DLI的独享队列即非共享队列上。
-
ClickHouse - 数据湖探索 DLI
kHouse数据库中,表类型仅支持结果表。 ClickHouse是面向联机分析处理的列式数据库,支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。详细请参考ClickHouse组件操作。 表1 支持类别 类别 详情 支持表类型
-
ClickHouse结果表 - 数据湖探索 DLI
DLI将Flink作业数据输出到ClickHouse中。 ClickHouse是面向联机分析处理的列式数据库,支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。详细请参考ClickHouse组件操作。 前提条件 该场景作业需要运行在DLI的独享队列即非共享队列上。
-
Flink Jar作业相关问题 - 数据湖探索 DLI
Flink Jar作业相关问题 Flink Jar作业配置checkpoint保存到OBS Flink Jar作业是否支持上传配置文件,要如何操作? Flink Jar 包冲突,导致提交失败 Flink Jar作业访问DWS启动异常,提示客户端连接数太多错误 Flink Jar作
-
ClickHouse结果表 - 数据湖探索 DLI
DLI将Flink作业数据输出到ClickHouse中。 ClickHouse是面向联机分析处理的列式数据库,支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。详细请参考ClickHouse组件操作。 前提条件 该场景作业需要运行在DLI的独享队列即非共享队列上。
-
REFRESH TABLE刷新表元数据 - 数据湖探索 DLI
REFRESH TABLE刷新表元数据 功能描述 Spark为了提高性能会缓存Parquet的元数据信息。当更新了Parquet表时,缓存的元数据信息未更新,导致Spark SQL查询不到新插入的数据作业执行报错,报错信息参考如下: DLI.0002: FileNotFoundException:
-
BlackHole结果表 - 数据湖探索 DLI
Connector允许接收所有输入记录,常用于高性能测试和UDF 输出,其不是实质性Sink。Blackhole结果表是系统内置的Connector。 例如,如果您在注册其他类型的Connector结果表时报错,但您不确定是系统问题还是结果表WITH参数错误,您可以将WITH参数修改为'connector'
-
BlackHole - 数据湖探索 DLI
Connector允许接收所有输入记录,常用于高性能测试和UDF输出,其不是实质性Sink。Blackhole结果表是系统内置的Connector。 例如,如果您在注册其他类型的Connector结果表时报错,但您不确定是系统问题还是结果表WITH参数错误,您可以将WITH参数修改为'connector'
-
BlackHole结果表 - 数据湖探索 DLI
Connector允许接收所有输入记录,常用于高性能测试和UDF 输出,其不是实质性Sink。Blackhole结果表是系统内置的Connector。 例如,如果您在注册其他类型的Connector结果表时报错,但您不确定是系统问题还是结果表WITH参数错误,您可以将WITH参数修改为'connector'
-
REFRESH TABLE刷新表元数据 - 数据湖探索 DLI
REFRESH TABLE刷新表元数据 功能描述 Spark为了提高性能会缓存Parquet的元数据信息。当更新了Parquet表时,缓存的元数据信息未更新,导致Spark SQL查询不到新插入的数据作业执行报错,报错信息参考如下: DLI.0002: FileNotFoundException:
-
Spark作业管理概述 - 数据湖探索 DLI
Spark作业管理概述 DLI在开源Spark基础上进行了大量的性能优化与服务化改造,兼容Apache Spark生态和接口,执行批处理任务。 DLI还支持使用Spark作业访问DLI元数据,具体请参考《数据湖探索开发指南》。 Spark作业管理主要包括如下功能: 创建Spark作业
-
SQL防御概述 - 数据湖探索 DLI
当前大数据领域的SQL引擎层出不穷,在带给解决方案多样性的同时,也暴露出一定的问题,例如SQL输入语句质量良莠不齐、SQL问题难定位、大SQL语句消耗资源过多等。 低质量的SQL会对数据分析平台系统带来不可预料的冲击,影响系统的性能或者平台稳定性。 仅Spark 3.3及以上版本支持SQL防御功能。