检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Flink 1.12版本说明 数据湖探索(DLI)遵循开源Flink计算引擎的发布一致性。本文介绍Flink 1.12版本所做的变更说明。 更多Flink 1.12版本说明请参考Release Notes - Flink 1.12。 Flink 1.12版本发布时间 版本名称 发布时间
读取数据时,每一批次获取数据的记录数,默认值1000。设置越大性能越好,但占用内存越多,该值设置过大会有内存溢出的风险。 batchsize 写入数据时,每一批次写入数据的记录数,默认值1000。设置越大性能越好,但占用内存越多,该值设置过大会有内存溢出的风险。 truncate 执行overwrite
LI一致。 集群创建好以后不支持修改规格,如果需要使用更高规格,需要重新创建。 更多CDM集群参数配置说明请参考创建集群。 确认无误后单击“立即购买”进入规格确认界面。 单击“提交”,系统开始自动创建CDM集群,在“集群管理”界面可查看创建进度。 步骤2:创建数据源与CDM的数据连接
支持对接企业内部统一监控告警系统(prometheus)。 支持Flink作业速率、输入输出数据量、作业算子反压值、算子延迟、作业cpu和内存使用率查看。 仅支持Flink UI 多版本支持 支持不同作业使用不同Flink版本 单Flink集群仅支持单版本下的作业开发 易用性 即
FileSystem结果表 功能描述 FileSystem sink用于将数据输出到分布式文件系统HDFS或者对象存储服务OBS等文件系统。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。 考虑到输入流可以是无界的,每个桶中的数据被组织成有限大小的Part文件。完
MAXCOLUMNS 2000 20000 设置MAXCOLUMNS Option的值后,导入数据会对executor的内存有要求,所以导入数据可能会由于executor内存不足而失败。 DATEFORMAT:指定列的日期格式。 OPTIONS('DATEFORMAT'='dateFormat')
对象存储OBS结果表 功能描述 FileSystem sink用于将数据输出到分布式文件系统HDFS或者对象存储服务OBS等文件系统。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。 考虑到输入流可以是无界的,每个桶中的数据被组织成有限大小的Part文件。完全可以
后续查看作业日志。 认证用的username和password等硬编码到代码中或者明文存储都有很大的安全风险,建议使用DEW管理凭证。配置文件或者环境变量中密文存放,使用时解密,确保安全。Flink Opensource SQL使用DEW管理访问凭据 with参数中字段只能使用单引号,不能使用双引号。
Spark jar 如何读取上传文件 Spark可以使用SparkFiles读取 –-file中提交上来的文件的本地路径,即:SparkFiles.get("上传的文件名")。 Driver中的文件路径与Executor中获取的路径位置是不一致的,所以不能将Driver中获取到的
15版本的Jar作业开发指导请参考Flink Jar写入数据到OBS开发指南。 配置文件使用方法 方案一:直接在main函数里面加载文件内容到内存,然后广播到各个taskmanager,这种方式适合那种需要提前加载的少量变量。 方案二:在open里面初始化算子的时候加载文件,可以使用相对路径/绝对路径的方式
BUCKET。默认是INMEMORY index.bootstrap.enabled 否 true Boolean Flink默认采用的是内存索引(使用Bueckt索引时不配置该项),需要将数据的主键缓存到内存中,保证目标表的数据唯一,因此需要配置该值,否则会导致数据重复,默认值:true。 write.index_bootstrap
建立DLI与共享VPC中资源的网络连接 共享VPC简介 共享VPC是通过资源访问管理服务(RAM)将本账号的VPC资源共享给其他账号使用。例如,账号A可以将自己账号下创建的VPC和子网共享给账号B。在账号B接受共享以后,账号B可以查看到共享的VPC和子网,并可以使用该共享VPC和子网创建资源。
sink三个部分。长度限制:0-1024*1024个字符。 run_mode 否 String 作业运行模式: shared_cluster:共享。 exclusive_cluster:独享。 edge_node:边缘节点。 默认值为“shared_cluster”。 cu_number
schema_name 描述 DATABASE和SCHEMA在此处是等价的,可互换的,它们有这相同的含义。 该语法用于显示SCHEMA的名称、注释、还有它在文件系统上的根路径。 可选项EXTENDED可以用来显示SCHEMA的数据库属性。 示例 CREATE SCHEMA web; DESCRIBE
购买弹性资源池并在弹性资源池中添加队列的具体操作步骤请参考创建弹性资源池并添加队列。 全局共享模式: 全局共享模式是一种根据SQL查询中实际扫描的数据量来分配计算资源的模式,不支持指定或预留计算资源。 DLI服务预置的“default”队列即为全局共享模式的计算资源,资源的大小是按需分配的。在不确定数据量大小或
配各计算节点的内存和CPU大小,具体计算节点个数客户端不感知。 选择“包年/包月”计费模式时,可选择“固定规格”,也可以“自定义规格”。“按需计费”只支持选择固定规格。 请按需选择队列规格。队列规格指的是计算节点所有CU数的总和,DLI系统会自动分配各计算节点的内存和CPU大小,具体计算节点个数客户端不感知。
每个批量请求的最大缓冲操作数。可以设置'0'为禁用它。 sink.bulk-flush.max-size 否 2mb MemorySize 每个批量请求的缓冲操作的内存中的最大大小。必须是MB粒度。可以设置'0'为禁用它。 sink.bulk-flush.interval 否 1s Duration 刷新
由于世界各国家与地区经度不同,地方时也有所不同,因此会划分为不同的时区。时区可在创建实例时选择,后期可修改。 默认 性能规格 实例的CPU和内存。不同性能规格对应不同连接数和最大IOPS。 2vCPUs | 4GB 存储空间 如果存储类型为SSD云盘或极速型SSD,可设置存储空间
支持包年包月+按需组合使用(超出包周期规格按需计费);支持套餐包+按需计费组合使用(超出套餐包使用量按需计费)。 存储计费 按照存储在DLI服务中的表数据存储量(单位为“GB”)收取存储费用。 在估算存储费用时,请特别注意,DLI采用压缩存储,通常能压缩到原文件大小的 1/5 。DLI存储按照压缩后的大小计费。
管理子网的网段。 cidr_in_subnet 否 String 子网网段。 resource_mode 否 Integer 资源模式。 0:共享队列 1:专属队列 platform 否 String 队列计算资源的cpu架构。 x86_64 aarch64 is_restarting