检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SQL,支持多种接入方式,并兼容主流数据格式。数据无需复杂的抽取、转换、加载,使用SQL或程序就可以对云上CloudTable、RDS、DWS、CSS、OBS、ECS自建数据库以及线下数据库的异构数据进行探索。 您可以使用本文档提供API对数据湖探索进行相关操作,包括队列、SQL作业、Flink
方法查询的数据都为DataFrame对象,可以直接进行查询单条记录等操作(在“步骤4”中,提到将DataFrame数据注册为临时表)。 where where 方法中可传入包含and 和 or 的条件筛选表达式,返回过滤后的DataFrame对象,示例如下: 1 jdbcDF.where("id
自拓展生态: 云服务生态 DLI服务在Stream SQL中支持与其他服务的连通。用户可以直接使用SQL从这些服务中读写数据,如DIS、OBS、CloudTable、MRS、RDS、SMN、DCS等。 开源生态 通过对等连接建立与其他VPC的网络连接后,用户可以在DLI的租户独享
具体内容请参见《数据湖探索开发指南》。 存算分离 用户将数据存储到OBS后,DLI可以直接和OBS对接进行数据分析。存算分离的架构下,使得存储资源和计算资源可以分开申请和计费,降低了成本并提高了资源利用率。 存算分离场景下,DLI支持OBS在创建桶时数据冗余策略选择单AZ或者多AZ存储,两种存储策略区别如下:
]table_name|DELTA.`obs_path` [TO] TIMESTAMP AS OF timestamp_expression 还原Delta表到某一历史版本的状态: RESTORE [TABLE] [database_name.]table_name|DELTA.`obs_path` [TO]
contact DLI service. DLI.0002: FileNotFoundException: getFileStatus on obs://xxx: status [404] 解决方案 请排查在同一时间点是否还有另外作业对当前报错作业操作的表信息有删除操作。 DLI不允许
(partColumnList) ] LOCATION location_path 通过delta.`Obs路径`创建Delta表 CREATE[ OR REPLACE] TABLE [ IF NOT EXISTS] DELTA.`obs://bucket_name/tbl_path` [ (columnTypeList)]
table_name 表名称。 obs桶多版本回收站目录 当前OBS表所在桶下的一个目录,您可以根据需要调整目录路径。比如当前OBS表所在路径为“obs://bucketName/filePath”,OBS表目录下已创建Trash目录,则该回收站目录可以指定为“obs://bucketName/filePath/Trash”。
Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v1.0/{project_id}/streaming/jobs/{job_id}/import-savepoint 表1 路径参数 参数 是否必选 参数类型 描述 job_id 是 String Flink作业的作业ID。
dir"='obs://dli-test/Lifecycle-Trash' ); Hive语法创建OBS表 1 2 3 4 CREATE TABLE table_name(name string, id int) STORED AS parquet LOCATION 'obs://
sql-dialect 属性指定 1 set table.sql-dialect=hive; 注意事项 Hive方言只能用于操作Hive对象,并要求当前Catalog是一个HiveCatalog 。 Hive方言只支持db.table这种两级的标识符,不支持带有Catalog名字的标识符。更多信息请参考Apache
Overwrite) .save() 表1 redis操作参数 参数 描述 host 需要连接的redis集群的IP。 获取方式为:登录华为云官网,之后搜索redis,进入“分布式缓存服务”,接着选择“缓存管理”,根据主机名称需要的IP,可选择其中任意一个IP进行复制即可(其中也包含了port信息),请参考图1。
Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v1.0/{project_id}/streaming/jobs/{job_id}/savepoint 表1 路径参数 参数 是否必选 参数类型 描述 job_id 是 String Flink作业的作业ID。
(格式),默认取值为“application/json”。 提交SQL作业的URI为:POST /v1.0/{project_id}/jobs/submit-job 其“Content-Type”只支持“application/json”,若设置为“text”则会报错,报错信息为“unsupported
String 新增OBS表数据的类型,目前支持:Parquet、ORC、CSV、JSON和Avro格式。 说明: OBS表必选参数。 data_path 否 String 新增OBS表数据的存储路径,必须是OBS的路径。 说明: OBS表必选参数。 data_path配置的OBS桶路径不建
PyFile:用户Python文件 File:用户文件 ModelFile:用户AI模型文件 JAR OBS路径 选择对应程序包的OBS路径。 说明: 程序包需提前上传至OBS服务中保存。 只支持选择文件。 Flink Jar所在的OBS路径 分组名称 选择“已有分组”:可选择已有的分组。 选择“创建新分组”:可输入自定义的组名称。
table_name 需要删除的Table名称。 注意事项 在该命令中,IF EXISTS和db_name是可选配置。 在使用本语句删除外表时,OBS目录的数据不会自动删除。 删除MOR表时,后缀_rt表和后缀_ro表不会自动删除,如需删除需要额外执行DROP语句。 示例 DROP TABLE
调用接口出错后,将不会返回上述结果,而是返回错误码和错误信息,更多介绍请参见错误码。 表5 错误码 错误码 错误信息 DLI.0001 参数校验错误 DLI.0999 对象已存在错误 父主题: 全局变量相关API
表创建时间。是单位为“毫秒”的时间戳。 data_type 否 String 所列OBS表数据的类型,目前支持:parquet、ORC、CSV、JSON格式。只有OBS表有该参数,DLI表没有该参数。 data_location 是 String 数据存储的地方,分OBS表、DLI表,View。 last_access_time
OpenSource SQL作业时,在作业编辑界面的“运行参数”处,“Flink版本”需要选择“1.12”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 语法格式 create table jbdcSource ( attr_name attr_type