检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发现数据价值。
如果华为云账号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用DLI服务的其它功能。 本章节介绍创建IAM用户并授权使用DLI的方法,操作流程如图1所示。 前提条件 给用户组授权之前,请您先了解用户组可以添加的DLI权限,并结合实际需求进行选择。
HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发现数据价值。
通过跨源表向CloudTable Hbase表导入数据,executor报错:RegionTooBusyException 问题现象 客户通过DLI跨源表向CloudTable Hbase导入数据,原始数据:HBASE表,一个列簇,一个rowkey运行一个亿的模拟数据,数据量为9.76GB
示例代码 去除字符串 yxabcxx 的右边空格。命令示例如下。 返回字符串 yxabcxx。 select rtrim('yxabcxx '); 等效于如下语句。
Top-N 功能描述 Top-N 查询是根据列排序找到N个最大或最小的值。最大值集和最小值集都被视为是一种 Top-N 的查询。若在批处理或流处理的表中需要显示出满足条件的 N 个最底层记录或最顶层记录, Top-N 查询将会十分有用。 语法格式 SELECT [column_list
levenshtein levenshtein函数用于返回两个字符串之间的Levenshtein距离,如levenshtein('kitten','sitting') =3。 Levenshtein距离,是编辑距离的一种。指两个字串之间,由一个转成另一个所需的最少编辑操作次数。 命令格式
自定义函数 概述 DLI支持三种自定义函数: UDF:自定义函数,支持一个或多个输入参数,返回一个结果值。 UDTF:自定义表值函数,支持一个或多个输入参数,可返回多行多列。 UDAF:自定义聚合函数,将多条记录聚合成一个值。 暂不支持通过python写UDF、UDTF、UDAF自定义函数
图2 安装Python SDK Python开发环境配置 SDK获取与安装 初始化DLI客户端 父主题: Python SDK
CREATE TABLE语句 语法定义 CREATE TABLE table_name ( { <column_definition> | <computed_column_definition> }[ , ...n] [ <watermark_definition
步骤3:创建DWS数据库和表 参考使用gsql命令行客户端连接DWS集群连接已创建的DWS集群。
步骤6:发送数据和查询结果 Kafaka端发送数据。 使用Kafka客户端向步骤2:创建Kafka的Topic中的Topic发送数据,模拟实时数据流。 Kafka生产和发送数据的方法请参考:DMS - 连接实例生产消费信息。
集合操作 Union/Union ALL/Intersect/Except 语法格式 1 query UNION [ ALL ] | Intersect | Except query 语法说明 UNION返回多个查询结果的并集。 Intersect返回多个查询结果的交集。 Except
自定义函数 概述 DLI支持三种自定义函数: UDF:自定义函数,支持一个或多个输入参数,返回一个结果值。 UDTF:自定义表值函数,支持一个或多个输入参数,可返回多行多列。 UDAF:自定义聚合函数,将多条记录聚合成一个值。 POM依赖 <dependency>
将OBS数据导入至DLI 本节操作介绍将OBS上的数据导入到DLI控制台的表中。 注意事项 导入数据时只能指定一个路径,路径中不能包含逗号。 如果将CSV格式数据导入分区表,需在数据源中将分区列放在最后一列。 不建议对同一张表并发导入数据,因为有一定概率发生并发冲突,导致导入失败。
Flink 1.15版本说明 数据湖探索(DLI)遵循开源Flink计算引擎的发布一致性。本文介绍Flink 1.15版本所做的变更说明。 更多Flink 1.15版本说明请参考Release Notes - Flink Jar 1.15、Flink OpenSource SQL1.15
示例代码 去除字符串" abc"的左边空格。命令示例如下。 返回字符串abc 。 select ltrim(' abc'); 等效于如下语句。
Top-N 功能描述 Top-N 查询是根据列排序找到N个最大或最小的值。最大值集和最小值集都被视为是一种 Top-N 的查询。如果在批处理或流处理的表中需要显示出满足条件的 N 个最底层记录或最顶层记录, Top-N 查询将会十分有用。 语法格式 SELECT [column_list
如果两个 RAND_INTGER 函数具有相同的初始种子和边界,它们将返回相同的数字序列。 UUID() 根据 RFC 4122 类型 4(伪随机生成)UUID,返回 UUID(通用唯一标识符)字符串。
split_cursor split_cursor表值函数可以将一行转多行,一列转为多列,仅支持在JOIN LATERAL TABLE中使用。 表1 split_cursor表值函数表 函数 返回值类型 描述 split_cursor(value, delimiter) cursor