检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SDK获取与安装 Python SDK安装方式 本节操作介绍安装Python SDK的操作指导。 获取DLI SDK 在“DLI SDK DOWNLOAD”页面,单击选择所需的SDK链接,即可获取对应的SDK安装包。 “dli-sdk-python-x.x.x.zip”压缩包,解压后目录结构如下:
DATE或STRING 需要处理的日期。 格式: yyyy-mm-dd yyyy-mm-dd hh:mi:ss yyyy-mm-dd hh:mi:ss.ff3 format 是 STRING 代表需要转换的目标日期格式。 format:格式为代表年月日时分秒的时间单位与任意字符的组合,其中: yyyy代表年份。
考虑到输入流可以是无界的,每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据,比如可以设置每个小时的数据写入一个新桶中。即桶中将包含一个小时间隔内接收到的记录。 桶目录中的数据被拆分成多个Part文件。对于相应的接收数据的桶的Sink的每个Subta
sum(expression) FROM table; 注意事项 所要分组的表必须是已经存在的表,否则会出错。 示例 根据group_id与job两个字段生成聚合行、超聚合行和总计行,返回每种聚合情况下的salary总和。 1 2 3 SELECT group_id, job, SUM(salary)
INITCAP(string) 返回新形式的 STRING,其中每个单词的第一个字符转换为大写,其余字符转换为小写。这里的单词表示字母数字的字符序列。 CONCAT(string1, string2, ...) 返回连接 string1,string2, … 的字符串。如果有任一参数为 NULL,则返回
STRING 代表需要转换的格式。 格式为代表年月日时分秒的时间单位与任意字符的组合,其中: yyyy代表年份。 MM代表月份。 dd代表天。 HH代表24小时制时。 hh代表12小时制时。 mm代表分钟。 ss代表秒。 返回值说明 按指定类型返回STRING类型的日期。 date非D
所要修改位置的表分区必须是已经存在的,否则将报错。 “partition_specs”中的参数默认带有“( )”,例如:PARTITION (dt='2009-09-09',city='xxx')。 所指定的新的OBS路径必须是已经存在的绝对路径,否则将报错。 若新增分区指定的路径包含
col 是 数据类型为数值的列。其他类型返回NULL。 p 是 0<=P<=1,否则返回NULL。 B 是 参数B控制近似的精确度,B值越大,近似度越高,默认值为10000。当列中非重复值的数量小于B时,返回精确的百分数。 返回值说明 返回DOUBLE类型的值。 示例代码 计算所有商品库存(items)的
查看弹性资源池扩缩容历史 操作场景 当弹性资源池添加队列、删除队列,或添加的队列扩缩容时,可能会引起弹性资源CUs扩缩容变化。控制台提供的“扩缩容历史”功能,可以查看弹性资源池的CUs变化历史。 约束与限制 当前控制台仅支持查看30天以内的弹性资源池扩缩容历史。 查看弹性资源池扩缩容历史 在DLI管理控制台左侧,选择“资源管理
UNION返回多个查询结果的并集。 Intersect返回多个查询结果的交集。 Except返回多个查询结果的差集。 注意事项 集合运算是以一定条件将表首尾相接,所以其中每一个SELECT语句返回的列数必须相同,列的类型一定要相同,列名不一定要相同。 UNION默认是去重的,UNION ALL是不去重的。
UNION返回多个查询结果的并集。 Intersect返回多个查询结果的交集。 Except返回多个查询结果的差集。 注意事项 集合运算是以一定条件将表首尾相接,所以其中每一个SELECT语句返回的列数必须相同,列的类型一定要相同,列名不一定要相同。 UNION默认是去重的,UNION ALL是不去重的。
format:格式为代表年月日时分秒的时间单位与任意字符的组合,其中: yyyy代表年份。 mm代表月份。 dd代表天。 hh代表小时。 mi代表分钟。 ss代表秒。 返回值说明 返回STRING类型的日期值。 date非DATE或STRING类型时,返回报错,错误信息:data
HBase表之前确保HBase的表是存在的。以样例代码为例,具体的流程是: 远程登录ECS,通过hbase shell命令查看表信息。其中,“hbtest”是要查询的表名。 describe 'hbtest' (可选)如果不存在对应的HBase表,可以创建该表,具体的命令是: create
UNION返回多个查询结果的并集。 Intersect返回多个查询结果的交集。 Except返回多个查询结果的差集。 注意事项 集合运算是以一定条件将表首尾相接,所以其中每一个SELECT语句返回的列数必须相同,列的类型一定要相同,列名不一定要相同。 UNION默认是去重的,UNION ALL是不去重的。
和 Hive非分区表的临时连接,对于分区表,Flink 支持自动跟踪Hive表的最新分区。详情可参考:Apache Flink Hive Read & Write 注意事项 Flink目前不支持与Hive表进行基于事件时间event-time的时间关联。 Temporal Join
STRING类型常量,不支持日期扩展格式。 format:格式为代表年月日时分秒的时间单位与任意字符的组合,其中: yyyy代表年份。 mm代表月份。 dd代表天。 hh代表小时。 mi代表分钟。 ss代表秒。 返回值说明 返回STRING类型。 date非DATE或STRING类型时,返回报错,错误信息:data
ar。 BINARY 兼容hive的Binary,底层实现为varbinary。 SQL表达式中,支持简单的字符表达式,也支持Unicode方式,一个Unicode字符串是以U&为固定前缀,以4位数值表示的Unicode前需要加转义符。 -- 字符表达式 select 'hello
操作场景 通过在DLI控制台创建的Kafka_SSL类型的跨源认证,将Kafka的认证信息存储到DLI,无需在SQL作业中配置账号密码,安全访问Kafka实例。 MRS Kafka开启Kerberos认证,未开启SSL认证时,创建Kerberos类型的认证。建表时通过krb_auth_name关联跨源认证。
是否必填 table 需要查询的表的表名,支持database.tablename格式 table,path须选填其中之一 path 需要查询的表的路径 table,path须选填其中之一 predicate 需要定义的谓语句,筛选需要Clustering的分区 否 order 指定clustering的排序字段
弹性资源池为DLI作业运行提供所需的计算资源(CPU和内存)。弹性资源池的单位为CU,1CU包含1CPU和4GB内存。 您可以在弹性资源池中创建多个队列, 队列之间的计算资源支持共享。 通过合理设置队列的计算资源池分配策略,提高计算资源利用率。 DLI弹性资源池之间为物理集群隔离,同一个弹性资源池中的队列之间为逻辑隔离。