上传数据到OBS桶:通过OBS管理控制台或者使用命令行工具将存储在sftp中的文件数据上传到OBS桶中。 Spark读取OBS文件数据,详见使用Spark Jar作业读取和查询OBS数据。 配置Spark作业:配置Spark作业访问OBS中存储的数据。 提交Spark作业:完成作业编写后,提交并执行作业。
Catalog HiveCatalog可以用来处理两种类型的表:Hive兼容表和通用表。 Hive兼容表是以Hive兼容的方式存储的,他们的元数据和实际的数据都在分层存储中。因此,通过flink创建的与hive兼容的表,可以通过hive查询。 Hive通用表是特定于Flink的。当使用H
taSource语法的CTAS创建table1_ctas。 本例中table1中DLI表的存储格式为orc,而table1_ctas表的存储格式可以为parquet,即CTAS创建的表存储格式可以不同于原表。 在AS关键字后使用select语句选择需要插入到table1_ctas表中的数据。
urce语法的CTAS创建table1_ctas。 此外,本例中table1DLI表的存储格式为orc,而table1_ctas表的存储格式可以为orc或者parquet,即CTAS创建的表存储格式可以不同于原表。 在AS关键字后使用SELECT语句选择需要的数据插入到table1_ctas表中。
taSource语法的CTAS创建table1_ctas。 本例中table1中DLI表的存储格式为orc,而table1_ctas表的存储格式可以为parquet,即CTAS创建的表存储格式可以不同于原表。 在AS关键字后使用select语句选择需要插入到table1_ctas表中的数据。
trans_array trans_array函数用于将一行数据转为多行的UDTF,将列中存储的以固定分隔符格式分隔的数组转为多行。 使用限制 所有作为key的列必须位于在前面,而要转置的列必须放在后面。 在一个select中只能有一个UDTF,不可以再出现其他的列。 不可以与group
urce语法的CTAS创建table1_ctas。 此外,本例中table1DLI表的存储格式为orc,而table1_ctas表的存储格式可以为orc或者parquet,即CTAS创建的表存储格式可以不同于原表。 在AS关键字后使用SELECT语句选择需要的数据插入到table1_ctas表中。
创建Password类型跨源认证 操作场景 通过在DLI控制台创建的Password类型的跨源认证,将DWS、RDS、DCS和DDS数据源的密码信息存储到DLI,无需在SQL作业中配置账号密码,安全访问DWS、RDS、DDS、DCS数据源。 Password类型跨源认证支持连接的数据源 P
Workshop, DEW)是一个综合的云上数据加密服务,为您解决数据安全、密钥安全、密钥管理复杂等问题。本节操作介绍使用数据加密服务DEW存储数据源的认证信息的操作步骤。 了解数据加密服务。 在DEW创建通用凭据 本例以配置RDS实例访问凭据为例,介绍在DEW保存凭据,并在DLI作业中的配置示例。
功能描述 DLI将Flink作业的输出数据输出到分布式缓存服务(DCS)的Redis中。Redis是一种支持Key-Value等多种数据结构的存储系统。可用于缓存、事件发布或订阅、高速队列等场景,提供字符串、哈希、列表、队列、集合结构直接存取,基于内存,可持久化。有关Redis的详细
Message Service,简称DMS)是一项基于高可用分布式集群技术的消息中间件服务,提供了可靠且可扩展的托管消息队列,用于收发消息和存储消息。分布式消息服务Kafka是一款基于开源社区版Kafka提供的消息队列服务,向用户提供可靠的全托管式的Kafka消息队列。 DLI支持
Redis结果表 功能描述 DLI将Flink作业的输出数据输出到Redis中。Redis是一种支持Key-Value等多种数据结构的存储系统。可用于缓存、事件发布或订阅、高速队列等场景,提供字符串、哈希、列表、队列、集合结构直接存取,基于内存,可持久化。有关Redis的详细信息
struct(<value1>,<value2>[, ...]) 具体使用示例详见:STRUCT示例。 使用限制 创建含有复杂数据类型字段的表时,该表存储格式不支持CSV(txt)。 如果表中含有复杂数据类型字段时,该表不支持CSV(txt)格式的文件数据导入。 MAP数据类型建表必须指定s
struct(<value1>,<value2>[, ...]) 具体使用示例详见:STRUCT示例。 使用限制 创建含有复杂数据类型字段的表时,该表存储格式不支持CSV(txt)。 如果表中含有复杂数据类型字段时,该表不支持CSV(txt)格式的文件数据导入。 MAP数据类型建表必须指定s
trans_array trans_array函数用于将一行数据转为多行的UDTF,将列中存储的以固定分隔符格式分隔的数组转为多行。 使用限制 所有作为key的列必须位于在前面,而要转置的列必须放在后面。 在一个select中只能有一个UDTF,不可以再出现其他的列。 不可以与group
Redis结果表 功能描述 DLI将Flink作业的输出数据输出到Redis中。Redis是一种支持Key-Value等多种数据结构的存储系统。可用于缓存、事件发布或订阅、高速队列等场景,提供字符串、哈希、列表、队列、集合结构直接存取,基于内存,可持久化。有关Redis的详细信息
创建CSS类型跨源认证 操作场景 通过在DLI控制台创建的CSS类型的跨源认证,将CSS安全集群的认证信息存储到DLI,无需在SQL作业中配置账号密码,安全访问CSS安全集群。 本节操作介绍在DLI控制台创建CSS安全集群的跨源认证的操作步骤。 操作须知 已创建CSS安全集群,且集群满足以下条件:
作业相关 完整样例代码和依赖包说明请参考:Python SDK概述。 导入数据 DLI提供导入数据的接口。您可以使用该接口将存储在OBS中的数据导入到已创建的DLI表中。示例代码如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Message Service,简称DMS)是一项基于高可用分布式集群技术的消息中间件服务,提供了可靠且可扩展的托管消息队列,用于收发消息和存储消息。分布式消息服务Kafka是一款基于开源社区版Kafka提供的消息队列服务,向用户提供可靠的全托管式的Kafka消息队列。 DLI支持
功能描述 DLI将Flink作业的输出数据输出到分布式缓存服务(DCS)的Redis中。Redis是一种支持Key-Value等多种数据结构的存储系统。可用于缓存、事件发布或订阅、高速队列等场景,提供字符串、哈希、列表、队列、集合结构直接存取,基于内存,可持久化。有关Redis的详细
您即将访问非华为云网站,请注意账号财产安全