检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
迁移数据场景概述 为了将分散在不同系统中的数据迁移到DLI,确保数据可以在DLI集中分析和管理,您可以通过云数据迁移服务CDM等迁移工具迁移数据至DLI,再使用DLI提交作业分析数据。 CDM支持数据库、数据仓库、文件等多种类型的数据源,通过可视化界面对数据源迁移任务进行配置,提高数据迁移和集成的效率。
percentile percentlie函数用于返回数值区域的百分比数值点。 命令格式 percentile(BIGINT col, p) 参数说明 表1 参数说明 参数 是否必选 说明 col 是 数据类型为数值的列。其他类型返回NULL。 p 是 0<=P<=1,否则返回NULL。
UNION | INTERSECT | EXCEPT UNION、INTERSECT和EXCEPT都是集合操作。都用来将多个SELECT语句的结果集合并成单个结果集。 UNION UNION将第一个查询的结果集中的所有行与第二个查询的结果集中的行合并。 query UNION [ALL
停止计费 包年/包月资源 对于包年/包月计费模式的资源,例如包年/包月的弹性资源池、包年/包月的队列等,用户在购买时会一次性付费,服务将在到期后自动停止使用。 如果在计费周期内不再使用包年/包月资源,您可以执行退订操作,系统将根据资源是否属于五天无理由退订、是否使用代金券和折扣券
自定义函数 概述 DLI支持三种自定义函数: UDF:自定义函数,支持一个或多个输入参数,返回一个结果值。 UDTF:自定义表值函数,支持一个或多个输入参数,可返回多行多列。 UDAF:自定义聚合函数,将多条记录聚合成一个值。 POM依赖 <dependency>
last_value last_value函数用于取当前行所对应窗口的最后一条数据的值。 使用限制 窗口函数的使用限制如下: 窗口函数只能出现在select语句中。 窗口函数中不能嵌套使用窗口函数和聚合函数。 窗口函数不能和同级别的聚合函数一起使用。 命令格式 last_value(<expr>[
函数概览 DLI提供了的decode1、javahash、max_pt等函数的说明如下。 表1 其他新增函数说明 函数 命令格式 返回值 功能简介 decode1 decode1(<expression>, <search>, <result>[, <search>, <result>]
DLI弹性资源池与队列简介 DLI的计算资源是执行作业的基础,本节内容介绍DLI计算资源的模式和队列类型。 什么是弹性资源池和队列? 在了解DLI计算资源模式前首先了解弹性资源池和队列的基本概念。 弹性资源池是DLI计算资源的一种池化管理模式,可以看做DLI计算资源的集合。DLI
创建集群(废弃) 功能介绍 该API用于创建集群,该集群将会绑定用户指定的计算资源。 当前接口已废弃,不推荐使用。 URI URI格式: POST /v2.0/{project_id}/clusters 参数说明 表1 URI参数 名称 是否必选 说明 project_id 是
JOIN Equi-join 语法格式 1 2 FROM tableExpression INNER | LEFT | RIGHT | FULL JOIN tableExpression ON value11 = value21 [ AND value12 = value22]
CLUSTERING 命令功能 对Hudi表进行clustering操作,具体作用可以参考Hudi Clustering操作说明章节。 命令格式 执行clustering: call run_clustering(table=>'[table]', path=>'[path]',
DLI“包年/包月”和“按需计费”计费模式队列和“队列CU时套餐包”下线(EOL)公告 公告说明 为了更好的实现资源共享,提高计算资源利用率,DLI将“包年/包月”和“按需计费”计费模式队列升级为“弹性资源池队列”。即使用DLI计算资源需先购买弹性资源池,并在弹性资源池中创建队列。
窗口 GROUP WINDOW 语法说明 Group Window定义在GROUP BY里,每个分组只输出一条记录,包括以下几种: 分组函数 在流处理表中的 SQL 查询中,分组窗口函数的 time_attr 参数必须引用一个合法的时间属性,且该属性需要指定行的处理时间或事件时间。
获取Spark作业委托临时凭证用于访问其他云服务 功能描述 DLI提供了一个通用接口,可用于获取用户在启动Spark作业时设置的委托的临时凭证。该接口将获取到的该作业委托的临时凭证封装到com.huaweicloud.sdk.core.auth.BasicCredentials类中。
如何给子用户授权查看Flink作业? 子用户使用DLI时,可以查看队列,但是不能查看Flink作业,可以通过在DLI中对子用户授权,或在IAM中对子用户授权: DLI授权管理 使用租户账号,或者作业owner账号,或有DLI Service Administrator权限的账号,登录DLI控制台。
Print结果表 功能描述 Print connector用于将用户输出的数据打印到error文件或者taskmanager的文件中,方便用户查看,主要用于代码调试,查看输出结果。 前提条件 无。 注意事项 Print结果表支持以下四种格式内容输出: 打印内容 条件1 条件2 标识符:任务
CLEAN 命令功能 用于根据配置对Timeline上的Instant进行clean,删除老旧的历史版本文件,以减少hudi表的数据存储及读写压力。 命令格式 RUN CLEAN ON tableIdentifier; RUN CLEAN ON tablelocation; 参数描述
管理DLI全局变量 什么是全局变量 DLI支持在管理控制台设置全局变量,将作业开发过程中频繁使用的变量设置为全局变量,可以避免在编辑作业过程中重复定义,减少开发与维护成本。通过使用全局变量可以替换长难复杂变量,简化复杂参数,提升SQL语句可读性。 本节操作为您介绍如何创建全局变量。
查询所有弹性资源池 功能介绍 查询所有弹性资源池。 调试 您可以在API Explorer中调试该接口。 URI URI格式 GET /v3/{project_id}/elastic-resource-pools 参数说明 表1 路径参数 参数 是否必选 参数类型 描述 project_id
cume_dist cume_dist函数用于求累计分布,相当于求分区中大于等于或小于等于当前行的数据在分区中的占比。 使用限制 窗口函数的使用限制如下: 窗口函数只能出现在select语句中。 窗口函数中不能嵌套使用窗口函数和聚合函数。 窗口函数不能和同级别的聚合函数一起使用。