检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用DLI服务前需配置DLI作业桶,该桶用于存储DLI作业运行过程中产生的临时数据,例如:作业日志、作业结果。 本节操作指导您在DLI管理控制台的“全局配置 > 工程配置”页面配置DLI作业桶。 操作前准备 配置前,请先购买OBS桶或并行文件系统。 大数据场景推荐使用并行文件系统,并行文件系统(Parallel
创建Delta表时会在元数据仓创建表的相关元数据信息。 Delta支持对接DLI元数据和Lakeformation元数据(仅Spark 3.3.1及以上版本支持对接Lakeformation元数据),对接方式与Spark一致。 DLI元数据可在数据湖探索管理控制台的“数据管理 > 库表管理”中查看。
already exists”错误 该提示信息说明您将数据导出到一个已经存在的OBS路径。 解决方案: 新建OBS目录。 您可以新建一个不存在的OBS目录用于存储导出的数据。 删除已存在的OBS目录。 删除已存在的OBS目录后,目录下的所有数据将会被删除。请谨慎执行此删除操作。 检查目录权限
关联出来数据库服务器地址。 端口 RDS实例的端口。选择数据库服务器后自动自动关联。 数据库名称 当前需要迁移的RDS MySQL数据库名称。当前示例为3中创建的数据库“testrdsdb”。 用户名 待连接数据库的用户。该数据库用户需要有数据表的读写权限,以及对元数据的读取权限。
参数说明 表1 参数说明 参数 描述 db_name 数据库名称,由字母、数字和下划线(_)组成。不能是纯数字,且不能以数字和下划线开头。 示例 已参考示例中描述创建对应的数据库,如testdb。 若存在testdb数据库,则删除数据库testdb。 1 DROP DATABASE IF
指定筛选条件删除分区(只支持OBS表) 修改表分区位置(只支持OBS表) 更新表分区信息(只支持OBS表) REFRESH TABLE刷新表元数据 父主题: 表相关
table-name 否 table存储模式下必配,redis中存储表名。在table存储模式下,数据将以hash类型存储到redis,其中key为:${table-name}:${ext-key},field名为列名。 说明: table存储模式:将connector.table-name、connector
创建函数 删除函数 显示函数详情 显示所有函数 数据多版本相关语法 创建OBS表时开启数据多版本 修改表时开启或关闭数据多版本 设置多版本备份数据保留周期 查看多版本备份数据 恢复多版本备份数据 配置多版本过期数据回收站 清理多版本数据
数据定义语句DDL 创建源表 创建结果表 创建维表 Format 父主题: Flink Opensource SQL1.12语法参考
"2021-03-24 10:02:03" 常见问题 Q:当data-type为set时,最终结果数据相比输入数据个数少了是什么原因? A:这是因为输入数据中有重复数据,导致在Redis的set中会进行排重,因此个数变少了。 Q:若Flink作业的日志中有如下报错信息,应该怎么解决? org
源表:源表是Flink作业的数据输入表,例如Kafka等实时流数据输入。 维表:数据源表的辅助表,用于丰富和扩展源表的数据。在Flink作业中,因为数据采集端采集到的数据往往比较有限,在做数据分析之前,就要先将所需的维度信息补全,而维表就是代表存储数据维度信息的数据源。常见的用户维表有 MySQL,Redis等。
DLI_TABLE 创建的DLI表名称。 注意事项 插入的数据不能为null;插入的数据相同,会覆盖原数据;插入的数据只有value值不同,也会覆盖原数据。 不支持INSERT OVERWRITE语法。 不建议对同一张表并发插入数据,因为有一定概率发生并发冲突,导致插入失败。 时间戳格式只支持yyyy-MM-dd
表相关 创建DLI表 DLI提供创建DLI表的接口。您可以使用该接口创建数据存储在DLI内部的表。示例代码如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
以参考创建CDM集群。 如果目标数据源为云下的数据库,则需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 数据源为云上的MRS、DWS时,网络互通需满足如下条件:
INTERSECT:返回多个查询结果的交集,且每一个SELECT语句返回的列数必须相同,列的类型和列名不一定要相同。INTERSECT默认去重。 注意事项 不能在多个集合运算间(UNION,INTERSECT,EXCEPT)加括号,否则会出错 示例 返回“SELECT * FROM
object 是 String 被赋权的数据对象,命名方式为: “databases.数据库名”,数据库下面的所有数据都将被共享。 “databases.数据库名.tables.表名”,指定的表的数据将被共享。 “databases.数据库名.tables.表名.columns.列名”,指定的列将被共享。
h_name关联跨源认证。 Kafka_SSL类型跨源认证支持连接的数据源 Kafka_SSL类型跨源认证支持连接的数据源如表1所示。 表1 Kafka_SSL类型跨源认证支持连接的数据源 作业类型 表类型 数据源 约束与限制 Flink OpenSource SQL 源表、结果表
将写好的代码生成jar包,上传至DLI中。 控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《上传资源包》。 在Spark作业编辑器中选择对应的Module模块并执行Spark作业。 控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《创建批处理作业》。
数据定义语句DDL 创建源表 创建结果表 创建维表 父主题: Flink Opensource SQL1.10语法参考
以参考创建CDM集群。 如果目标数据源为云下的数据库,则需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 数据源为云上的MRS、DWS等服务时,网络互通需满足如下条件: