检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
DLI元数据是SQL作业、Spark作业场景开发的基础。在执行作业前您需要根据业务场景定义数据库和表。 Flink支持动态数据类型,可以在运行时定义数据结构,不需要事先定义元数据。 定义您的数据结构,包括数据目录、数据库、表。请参考创建数据库和表。 创建必要的存储桶来存储作业运行过
分区字段。 obs_path OBS存储路径。 注意事项 向表中添加分区时,此表和分区列(建表时PARTITIONED BY指定的列)必须已存在,而所要添加的分区不能重复添加,否则将出错。已添加的分区可通过IF NOT EXISTS避免报错。 若分区表是按照多个字段进行分区的,添加分区
CREATE TABLE tb_avro STORED AS AVRO AS SELECT 1”则会报schema解析异常。 此问题的原因是如果不指定列名,则会把SELECT后的内容同时作为列名和插入值,而AVRO格式的表不支持列名为数字,所以会报解析schema异常错误。 您可以通过“CREATE
数据存储位置,分为DLI和OBS。 last_access_time 是 Long 最近更新时间。是单位为“毫秒”的时间戳。 location 否 String OBS表的存储路径。 说明: 只有OBS表有该参数。 owner 是 String 表创建者。 table_name 是 String
Connector列表 Connector概述 BlackHole ClickHouse DataGen Doris DWS Elasticsearch 对象存储OBS Hbase Hive Hudi JDBC Kafka MySql CDC Print Redis Upsert Kafka 父主题:
XTERNAL可用于指定创建外部表;STORED AS能被用于指定文件存储的格式;LOCATION能被用于指定在OBS上存储的路径。 示例 创建一个新表orders,使用子句with指定创建表的存储格式、存储位置、以及是否为外表。 通过“auto.purge”参数可以指定涉及到数
数据库:数据库是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库通常用于存储、检索和管理结构化数据,由多个数据表组成,这些数据表通过键和索引相互关联。 · 表:表是数据库最重要的组成部分之一,它由行和列组成。每一行代表一个数据项,每一列代表数据的一个属性或特征。表用于组织和存储特定类型
参数描述 参数 描述 table_name 表名称。 partition_specs 分区字段。 obs_path OBS存储路径。 注意事项 该命令的主要应用场景是针对分区表,如当手动在OBS上面添加分区目录时,再通过上述命令将该新增的分区信息刷新到元数据库中,通过“SHOW PARTITIONS
表默认被认为是通用的。注意,如果使用Hive方言,就不需要connector属性。 监视策略是扫描当前位置路径中的所有目录/文件。许多分区可能会导致性能下降。 对未分区表进行流式读取时,要求将每个文件以原子方式写入目标目录。 分区表的流式读取要求在 hive 元存储的视图中以原子
data_type 是 String 导出数据的类型,目前API支持csv和json格式数据。 database_name 是 String 被导出数据的表所在的数据库名称。 table_name 是 String 被导出数据的表名称。 compress 是 String 导出数
说明 is_success 是 Boolean 执行请求是否成功。“true”表示请求执行成功。 message 是 String 系统提示信息,执行成功时,信息可能为空。 column_count 是 Integer 表的总列数。 columns 是 Array of Objects
首次进入SQL编辑器,页面会提示设置DLI作业桶。该桶用于存储使用DLI服务产生的临时数据,例如:作业日志等。 如果不创建该桶,将无法查看作业日志。桶名称为系统默认。 在OBS管理控制台页面通过配置桶的生命周期规则,可以实现定时删除OBS桶中的对象或者定时转换对象的存储类别。 具体操作请参考通过配置生命周期规则。
obs桶名称。 tbl_path Delta表在obs桶中的存储位置。 using 参数delta,定义和创建Delta table table_comment 表的描述信息。 location_path Delta表的存储位置,当前版本通过表名创建Delta表时必须指定,且只支持obs路径,指定该路径Delta
说明 project_id 是 String 项目编号,用于资源隔离。获取方式请参考获取项目ID。 database_name 是 String 新增表所在的数据库名称。 请求消息 表2 请求参数 参数名称 是否必选 参数类型 说明 table_name 是 String 新增表名称。
总数据量上限,则停止存储数据,以batch.size.bytes为准,提交该批次的数据。 batch.size.bytes 单次batch的总数据量上限,默认为1mb。如果单条数据非常小,在bulk存储到总数据量前提前到达了单次batch的条数上限,则停止存储数据,以batch.size
成本说明 OBS 需要创建一个OBS桶将数据上传到对象存储服务OBS,为后面使用DLI完成数据分析做准备。 OBS的使用涉及以下几项费用: 存储费用:静态网站文件存储在OBS中产生的存储费用。 请求费用:用户访问OBS中存储的静态网站文件时产生的请求费用。 流量费用:用户使用自定
功能描述 BlackHole Connector允许接收所有输入记录,常用于高性能测试和UDF输出,其不是实质性Sink。Blackhole结果表是系统内置的Connector。 例如,如果您在注册其他类型的Connector结果表时报错,但您不确定是系统问题还是结果表WITH参数错误,
Flink与MRS Flink有什么区别? DLI中的Spark组件与MRS中的Spark组件有什么区别? 怎样升级DLI作业的引擎版本 DLI的数据可存储在哪些地方 DLI是否支持导入其他租户共享OBS桶的数据? 区域和可用区 全局变量的使用中,一个子账号是否可以使用其他子账号创建的全局变量
GET /v2/{project_id}/agency 参数说明 表1 URI参数 参数名称 是否必选 参数类型 说明 project_id 是 String 项目编号,用于资源隔离。获取方式请参考获取项目ID。 请求消息 无。 响应消息 表2 响应参数 参数名称 是否必选 参数类型
Spark如何将数据写入到DLI表中 通用队列操作OBS表如何设置AK/SK 如何查看DLI Spark作业的实际资源使用情况 将Spark作业结果存储在MySQL数据库中,缺少pymysql模块,如何使用python脚本访问MySQL数据库? 如何在DLI中运行复杂PySpark程序? 如何通过JDBC设置spark