检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
COMMENT:字段或表描述。 PARTITIONED BY:指定分区字段。 ROW FORMAT:行数据格式。 STORED AS:指定所存储的文件格式,当前该关键字只支持指定TEXTFILE, AVRO, ORC, SEQUENCEFILE, RCFILE, PARQUET格式。 LO
在“设置”页输入驱动相关参数说明,单击“确定”创建驱动。 驱动参数配置说明请参考表2。 图2 编辑驱动连接 表2 驱动相关参数说明 参数 说明 驱动名称 命名为便于识别的名称,例如GaussDB Driver。 驱动类型 驱动类型选择Generic。 类名 类名 URL模板 DLI JDBC驱动连接的格式:
个唯一的id值。 使用NULL值:如果您需要在插入数据时明确指定某些字段由数据库自动填充,可以在这些字段的位置填写NULL。这样,数据库会识别到这些字段应该由系统自动生成值,而不是由用户指定。 父主题: 增强型跨源连接类
调度Clustering:使用可插拔的Clustering策略创建Clustering计划。 识别符合Clustering条件的文件:根据所选的Clustering策略,调度逻辑将识别符合Clustering条件的文件。 根据特定条件对符合Clustering条件的文件进行分组。
[asc|desc]...]: 指定排序列,不同列的排序方向可以不一样。 WHERE rownum <= N: Flink 需要 rownum <= N 才能识别一个查询是否为 Top-N 查询。 其中, N 代表最大或最小的 N 条记录会被保留。 [AND conditions]: 在 where
[asc|desc]...]: 指定排序列,不同列的排序方向可以不一样。 WHERE rownum <= N: Flink 需要 rownum <= N 才能识别一个查询是否为 Top-N 查询。 其中, N 代表最大或最小的 N 条记录会被保留。 [AND conditions]: 在 where
[asc|desc]...]: 指定排序列,不同列的排序方向可以不一样。 WHERE rownum <= N: Flink 需要 rownum <= N 才能识别一个查询是否为 Top-N 查询。 其中, N 代表最大或最小的 N 条记录会被保留。 [AND conditions]: 在 where
关联OBS桶中嵌套的JSON格式数据如何创建表 如果需要关联OBS桶中嵌套的JSON格式数据,可以使用异步模式创建表。 以下是一个示例的建表语句,展示了如何使用 JSON 格式选项来指定 OBS 中的路径: create table tb1 using json options(path
compression = 'zstd' ); 示例6:创建OBS非分区表,自定义表的OPTIONS参数 示例说明:CSV表是一种以逗号分隔的纯文本文件格式,用于存储和交换数据。它通常用于简单的数据交换,但是它没有结构化数据的概念,因此不适合存储复杂数据类型。于是当file_format为c
新建SQL作业 功能介绍 该API用于创建Flink SQL作业。 调试 您可以在API Explorer中调试该接口。 URI URI格式 POST /v1.0/{project_id}/streaming/sql-jobs 参数说明 表1 URI参数说明 参数名称 是否必选 参数类型
NET SDK视频指导 SDK列表提供了DLI云服务支持的SDK列表,您可以在GitHub仓库查看SDK更新历史、获取安装包以及查看指导文档。 在线生成SDK代码 【样例】 API Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 您可以在API E
如何合并小文件 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 推荐使用临时表进行数据中转 自读自写在突发异常场景下存在数据丢失的风险 执行SQL: INSERT OVERWRITE TABLE tablename select
详细操作请参考创建并提交SQL作业。 适用于数据仓库查询、报表生成、OLAP(在线分析处理)等场景。 Flink作业 专为实时数据流处理设计,适用于低时延、需要快速响应的场景。适用于实时监控、在线分析等场景。 Flink OpenSource作业:DLI提供了标准的连接器(co
rownum <=1 | rownum < 2): 优化器通过 rownum = 1 | rownum <=1 | rownum < 2 来识别查询能否被翻译成窗口去重。 注意事项 Flink 只支持在滚动窗口、滑动窗口和累积窗口的窗口表值函数后进行窗口去重 窗口去重只支持根据事件时间属性进行排序
Kafka源表 功能描述 创建source流从Kafka获取数据,作为作业的输入数据。 Apache Kafka是一个快速、可扩展的、高吞吐、可容错的分布式发布订阅消息系统,具有高吞吐量、内置分区、支持数据副本和容错的特性,适合在大规模消息处理场景中使用。 前提条件 Kafka是
使用DLI将CSV数据转换为Parquet数据 应用场景 Parquet是面向分析型业务的列式存储格式,这种格式可以加快查询速度,查询Parquet格式数据时,只检查所需要的列并对它们的值执行计算,也就是说,只读取一个数据文件或表的一小部分数据。Parquet还支持灵活的压缩选项
Spark jar 如何读取上传文件 Spark可以使用SparkFiles读取 –-file中提交上来的文件的本地路径,即:SparkFiles.get("上传的文件名")。 Driver中的文件路径与Executor中获取的路径位置是不一致的,所以不能将Driver中获取到的
导入数据的编码格式仅支持UTF-8。 数据导出 只支持将DLI表(表类型为“Managed”)中的数据导出到OBS桶中,且导出的路径必须指定到文件夹级别。 导出文件格式为json格式,且文本格式仅支持UTF-8。 支持跨账号导出数据,即B账户对A账户授权后,A账户拥有B账户OBS桶的元数据信息和权限信息
connector 是 无 String 固定位filesystem。 path 是 无 String OBS路径。 format 是 无 String 文件格式。 支持csv、parquet格式。 sink.rolling-policy.file-size 否 128MB MemorySize
在“创建程序包”对话框,配置以下参数。 包类型:选择“JAR”。 OBS路径:程序包所在的OBS路径。 分组设置和组名称根据情况选择设置,方便后续识别和管理程序包。 单击“确定”,完成创建程序包。 创建UDF函数。 登录DLI管理控制台,单击“SQL编辑器”,执行引擎选择“spark”,选择已创建的SQL队列和数据库。