检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用,指定作业运行使用的DLI基础Flink镜像的版本。 operator_config 否 String 各算子并行度参数,以json的形式展示各算子id和并行度。 static_estimator_config 否 String 静态流图资源预估参数,以json的形式展示。 real_cu_number
precombine.field 是 无 String 数据合并字段。 read.tasks 否 4 Integer 读hudi表task并行度。 read.streaming.enabled 是 false Boolean 设置 true 开启流式增量模式,false批量读。建议值为true
包括位置应用、金融保险、互联网电商等。 数据仓库服务(Data Warehouse Service,简称DWS)是一种基于基础架构和平台的在线数据处理数据库,为用户提供海量数据挖掘和分析服务。DWS的更多信息,请参见《数据仓库服务管理指南》。 前提条件 请务必确保您的账户下已在数
示例 下面的示例展示了一个经典的业务流水线,维度表来自 Hive,每天通过批处理流水线作业或 Flink 作业更新一次,kafka流来自实时在线业务数据或日志,需要与维度表连接以扩充流。 使用spark sql 创建 hive obs 外表,并插入数据。 CREATE TABLE if
DLI Flink作业专为实时数据流处理设计,适用于低时延、需要快速响应的场景,支持与多种云服务跨源连通,形成丰富的流生态圈。适用于实时监控、在线分析等场景。 · Flink OpenSource作业:DLI提供了标准的连接器(connectors)和丰富的API,便于快速与其他数据系统的集成。
用,指定作业运行使用的DLI基础Flink镜像的版本。 operator_config 否 String 各算子并行度参数,以json的形式展示各算子id和并行度。 static_estimator_config 否 String 静态流图资源预估参数,以json的形式展示。 runtime_config
exactly-once none sink.parallelism 否 无 Integer 定义Kafka sink算子的并行度。 默认情况下,由框架确定并行度,与上游链接算子的并行度保持一致。 ssl_auth_name 否 无 String DLI侧创建的Kafka_SSL类型的跨源认证名称。Kafka配置SSL时使用该配置。
sink.parallelism 否 无 Integer 定义upsert-kafka sink 算子的并行度。默认情况下,由框架确定并行度,与上游连接算子的并行度保持一致。 sink.buffer-flush.max-rows 否 0 Integer 缓存刷新前,最多能缓存的记录条数。
m_cus)/(cu_number-manager_cu_number)”。 operator_config 否 String 算子的并行度配置。 resume_checkpoint 否 Boolean 异常重启是否从checkpoint恢复。 resume_max_num 否 Integer
= 管理单元 * 4。 Spark资源并行度由Executor数量和Executor CPU核数共同决定。 管理单元 管理单元CU数量。 并行数 作业的并行数是指作业中各个算子的并行执行的子任务的数量,即算子的子任务数就是其对应算子的并行度。 说明: 最大并行数不能大于计算单元(CU数量-管理单元)的4倍。
scan.incremental.snapshot.chunk.key-column 时,如果表中存在索引,请使用索引中的列来加快 select 度。 无主键表的处理语义由 scan.incremental.snapshot.chunk.key-column 指定的列的行为决定: 如果指定的列不存在更新操作,此时可以保证
ms等,默认为ms。 sink.parallelism 否 无 Integer 为 HBase sink operator 定义并行度。 默认情况下,并行度由框架决定,和连接在一起的上游operator一样。 krb_auth_name 否 无 String DLI侧创建的Kerberos类型的跨源认证名称。
String Redis 表schema的key source.parallelism 否 无 int 定义源的自定义并行度。默认情况下,如果未定义此选项,使用全局配置来的并行度。 示例 该示例是从DCS Redis数据源中读取数据,并写入Print到结果表中,其具体步骤如下: 参考增强型
Partition 对应的Doris Tablet 个数。 此数值设置越小,则会生成越多的 Partition。从而提升 Flink 侧的并行度,但同时会对 Doris 造成更大的压力。 doris.batch.size 1024 否 一次从 BE 读取数据的最大行数。增大此数值可减
包括位置应用、金融保险、互联网电商等。 数据仓库服务(Data Warehouse Service,简称DWS)是一种基于基础架构和平台的在线数据处理数据库,为用户提供海量数据挖掘和分析服务。DWS的更多信息,请参见《数据仓库服务管理指南》。 前提条件 创建Flink OpenSource
ms等,默认为ms。 sink.parallelism 否 无 Integer 为 HBase sink operator 定义并行度。 默认情况下,并行度由框架决定,和连接在一起的上游operator一样。 properties.connector.auth.open 否 无 Boolean
包括位置应用、金融保险、互联网电商等。 数据仓库服务(Data Warehouse Service,简称DWS)是一种基于基础架构和平台的在线数据处理数据库,为用户提供海量数据挖掘和分析服务。DWS的更多信息,请参见《数据仓库服务管理指南》。 推荐使用DWS服务自研的DWS Connector。
单TM所占CU数 manager_cu_number 否 Integer 管理单元CU数。 parallel_number 否 Integer 最大并行度。 并行数为作业每个算子的并行数,适度增加并行数会提高作业整体算力,但也须考虑线程增多带来的切换开销,上限是计算单元CU数的4倍,最佳实践为计算单元CU数的1-2倍。
该配置项用于启用或禁用动态分区修剪。在执行SQL查询时,动态分区修剪可以帮助减少需要扫描的数据量,提高查询性能。 配置为true时,代表启用动态分区修剪,SQL会在查询中自动检测并删除那些不满足WHERE子句条件的分区,适用于在处理具有大量分区的表时。 如果SQL查询中包含大量的嵌套left join操作,并且表有
li_management_agency的委托信息。 步骤1:开发Jar包并上传数据至OBS DLI控制台不提供Jar包的开发能力,您需要在线下完成Jar包的开发。Jar包的开发样例请参考Flink Jar开发基础样例。 参考Flink作业样例代码开发Flink Jar作业程序,