检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
到数据怎么办? 为什么insert overwrite覆盖分区表数据的时候,覆盖了全量数据? 跨源连接RDS表中create_date字段类型是datetime,为什么DLI中查出来的是时间戳呢? SQL作业执行完成后,修改表名导致datasize不正确怎么办? 从DLI导入数据到OBS,数据量不一致怎么办?
典型场景DLI委托权限配置示例 表1 DLI委托权限配置场景开发指南 类型 操作指导 说明 Flink作业场景 Flink Opensource SQL使用DEW管理访问凭据 Flink Opensource SQL场景使用DEW管理和访问凭据的操作指导,将Flink作业的输出数
中NULL代表未知。优先级顺序为:NOT>AND>OR。 运算规则请参见表1,表中的A和B代表逻辑表达式。 表1 逻辑运算符 运算符 返回类型 描述 A AND B BOOLEAN 若A与B都为TRUE则返回TRUE,否则返回FALSE。若A或B为NULL,则返回NULL。 A OR
析和管理,您可以通过云数据迁移服务CDM等迁移工具迁移数据至DLI,再使用DLI提交作业分析数据。 CDM支持数据库、数据仓库、文件等多种类型的数据源,通过可视化界面对数据源迁移任务进行配置,提高数据迁移和集成的效率。 具体操作请参考迁移外部数据源数据至DLI。 图1 迁移数据至DLI
ORC升级到1.5.12。 【SPARK-33092】:增强子表达式消减。 【SPARK-33480】:支持char/varchar数据类型。 【SPARK-32302】: 部分谓词下推优化。 【SPARK-30648】:支持JSON datasource表谓词下推。 【SPARK-32346】:支持avro
描述 分组名称 如果创建程序包时选择了分组,显示所在的分组名称。 如果创建程序包时没有选择分组,则不显示该参数。 名称 程序包名称。 选择类型 如果创建程序包时选择了分组,可选择修改“组”的所有者或者“程序包”的所有者。 如果创建程序包时没有选择分组,则不显示该参数。 用户名 程序包所有者的名称。
配置队列的基础配置,具体参数信息如下。 表3 弹性资源池添加队列基础配置 参数名称 参数说明 配置样例 名称 弹性资源池添加的队列名称。 dli_queue_01 类型 选择创建的队列类型。 执行SQL作业请选择SQL队列。 执行Flink或Spark作业请选择通用队列。 _ 执行引擎 SQL队列可以选择队列引擎为Spark或者HetuEngine。
4548249', limit=>1); 返回结果 参数 描述 action instant_time对应的commit所属的action类型,如compaction、deltacommit、clean等 partition_path 指定的instant所更新或插入的文件位于哪个分区
SQL作业时,在作业编辑界面的“运行参数”处,“Flink版本”需要选择“1.15”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 数据类型的使用,请参考Format章节。 Hive 方言支持的 DDL 语句,Flink 1.15 当前仅支持使用Hive语法创建OBS表和使用hive语法的DLI
data)时由于数据源不支持事务性,在系统故障或队列资源重启后,可能会导致数据重复或数据不一致等问题。 为了避免这种情况,建议优先选择支持事务性的数据源,如Hudi类型数据源,该类数据源具备ACID(Atomicity、Consistency、Isolation、Durability)能力,有助于确保数据的一致性和准确性。
SETS ((supplier_id, rating), (supplier_id), ()) ROLLUP ROLLUP 是一种特定通用类型 Grouping Sets 的简写。代表着指定表达式和所有前缀的列表,包括空列表。 SELECT supplier_id, rating
Key)或Token两种认证方式初始化客户端,具体操作请参考初始化DLI客户端 Python SDK列表 表1 Python SDK列表 类型 说明 队列相关 介绍查询所有队列的Python SDK使用说明。 资源相关 介绍上传资源包、查询所有资源包、查询制定资源包、删除资源包的Python
建议您对测试业务场景和生产业务场景分别创建弹性资源池,通过资源物理隔离的方式,保障资源管理的独立性和安全性。 DLI提供的弹性资源池规格如表1所示。 表1 弹性资源池规格 类型 规格 约束限制 适用场景 基础版 16-64CUs规格 不支持高可靠与高可用。 不支持设置队列属性和作业优先级。 不支持对接Notebook实例。
Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 您可以在API Explorer中具体API页面的“代码示例”页签查看对应编程语言类型的SDK代码。 如图1所示。 图1 获取SDK代码示例
LOCATION 'obs_path'。 若新增分区指定的路径包含子目录(或嵌套子目录),则子目录下面的所有文件类型及内容也将作为该分区的记录。 您需要保证该分区目录下所有文件类型和文件内容与表的字段一致,否则查询将报错。 您可以在建表语句OPTIONS中设置“multiLevelDi
务。 图1 DLI云服务委托 DLI委托 在使用DLI前,为了确保正常使用DLI的功能,建议先进行DLI委托权限设置。 DLI默认提供以下类型的委托:dli_admin_agency、dli_management_agency、dli_data_clean_agency(名称固定
Access Key)或Token两种认证方式初始化客户端,具体操作请参考初始化DLI客户端 Java SDK列表 表1 Java SDK列表 类型 说明 OBS授权 介绍将OBS桶的操作权限授权给DLI的Java SDK使用说明。 队列相关 介绍创建队列、获取默认队列、查询所有队列、删除队列的Java
弹性资源池添加的队列名称。 类型 SQL队列:用于运行SQL作业。 通用队列:用于运行Spark作业 、Flink 作业。 执行引擎 如果队列类型选择为“SQL队列”,则可以选择队列引擎是:Spark或者HetuEngine HetuEngine类型的SQL队列最小CU不能小于96CUs。
1~65535。 本例中选择TCP协议,端口值不填或者填写为步骤1:获取外部数据源的内网IP、端口和安全组获取的数据源的端口。 类型 IP地址类型。 IPv4 源地址 源地址用于放通来自IP地址或另一安全组内的实例的访问。 本例填写步骤2:获取DLI队列网段获取的队列网段。 描述
配置队列的基础配置,具体参数信息如下。 表3 弹性资源池添加队列基础配置 参数名称 参数说明 配置样例 名称 弹性资源池添加的队列名称。 dli_queue_01 类型 选择创建的队列类型。 执行SQL作业请选择SQL队列。 执行Flink或Spark作业请选择通用队列。 _ 执行引擎 SQL队列可以选择队列引擎为Spark或者HetuEngine。