检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
DLI的数据可存储在哪些地方 DLI支持存储哪些格式的数据? DLI支持如下数据格式: Parquet CSV ORC Json Avro DLI服务的数据可以存储在哪些地方? OBS:SQL作业,Spark作业,Flink作业使用的数据均可以存储在OBS服务中,降低存储成本。 DL
与对象存储服务(OBS)的关系 对象存储服务(Object Storage Service)作为DLI的数据来源及数据存储,与DLI配合一起使用,关系有如下四种。 数据来源:使用DLI服务提供API,将OBS对应路径的数据导入到DLI。 具体API请参考《导入数据》。 存储数据:
存储计费 DLI数据存储计费模式 存储资源是DLI服务内部的存储资源,用于存储数据库和DLI表。支持以下计费模式: 按需计费:按需计费是一种后付费模式,DLI支持使用按需计费模式购买数据存储。按照存储在DLI服务中的数据存储量(单位为“GB”)收取存储费用。计费方式自创建起按自然
Hudi存储结构 Hudi在写入数据时会根据设置的存储路径、表名、分区结构等属性生成Hudi表。 在DLI环境,Hudi表的数据文件存储在OBS上,因此可以通过查看OBS文件检查。 如下,展示了Hudi 多级分区COW表存储结构的示意。 hudi_table ├── .hoodie
用户可以通过DLI内置的TPC-H测试套件进行简单高效的交互式查询,无需用户上传数据,即可以体验DLI的核心功能。 商用 TPC-H使用指导 2 支持存储量套餐包 DLI增加存储量套餐包,降低数据存储在DLI中的费用。 商用 产品价格详情 3 支持计算队列定时扩缩容 DLI提供了队列规格变更定时任务功能。用户可以根
对象存储OBS 对象存储OBS源表 对象存储OBS结果表 父主题: Connector列表
已处理的文件在 source 的整个生命周期内存储在 state 中,因此,source 的 state 在 checkpoint 和 savepoint 时进行保存。 更短的时间间隔意味着文件被更快地发现,但也意味着更频繁地遍历文件系统/对象存储。 如果未设置此配置选项,则提供的路径仅被扫描一次,因此源将是有界的。
参数说明 表1 参数说明 参数 是否必选 默认值 类型 说明 connector 是 无 String 固定位filesystem。 path 是 无 String OBS路径。 format 是 无 String 文件格式。 支持csv、parquet格式。 sink.rolling-policy
将Spark作业结果存储在MySQL数据库中,缺少pymysql模块,如何使用python脚本访问MySQL数据库? 缺少pymysql模块,可以查看是否有对应的egg包,如果没有,在“程序包管理”页面上传pyFile。具体步骤参考如下: 将egg包上传到指定的OBS桶路径下。 登录DLI管理控制台,单击“数据管理
进入Spark作业编辑页面,页面会提示系统将创建DLI临时数据桶。该桶用于存储使用DLI服务产生的临时数据,例如:作业日志、作业结果等。如果不创建该桶,将无法查看作业日志。可以通过配置生命周期规则实现定时删除OBS桶中的对象或者定时转换对象的存储类别。桶名称为系统默认。 如果不需要创建DLI临时数据
数据类型 描述 存储空间 范围 OBS表支持情况 DLI表支持情况 INT 有符号整数 4字节 -2147483648~2147483647 是 是 STRING 字符串 - - 是 是 FLOAT 单精度浮点型 4字节 - 是 是 DOUBLE 双精度浮点型 8字节 - 是 是 DECIMAL(precision
并可以根据队列资源负载配置策略进行分时弹性扩缩容,满足不同的业务需求。 DLI存储资源 DLI存储资源是DLI服务内部存储的资源,用于存储数据库和DLI表,是向DLI导入数据的必备条件,体现用户数据存储在DLI中的数据量。 弹性资源池的实际CUs、已使用CUs、CU范围、规格(包周期CU)
什么是用户配额? 配额是指云平台预先设定的资源使用限制,包括资源数量和容量等。设置配额是为了确保资源合理的分配和使用,避免资源过度集中和资源浪费。 如果资源配额限制满足不了用户的使用需求,可以通过工单系统来提交您的申请,并告知您申请提高配额的理由。 在通过审理之后,系统会更新您的
导出SQL作业结果 导出作业结果是将SQL作业分析后的数据结果按指定格式存储到指定位置。 DLI默认将SQL作业结果存储在DLI作业桶中。同时也支持下载作业结果到本地或导出作业结果到指定的OBS桶。 导出作业结果到DLI作业桶 DLI在指定了一个默认的OBS桶作为作业结果的存储位置,请在DLI管理控制台的“全局配置
功能描述 DLI将作业的输出数据输出到HBase中。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发现数据价值。
DLI服务的Spark组件是全托管式服务,用户对Spark组件不感知,仅仅可以使用该服务,且接口为封装式接口。 DLI的这种模式减轻了运维负担,可以更专注于数据处理和分析任务本身。 具体请参考《数据湖探索用户指南》。 MRS服务Spark组件的是建立在客户的购买MRS服务所分
目前包含以上6种格式。 指定数据格式的方式有两种,一种是USING,可指定以上6种数据格式,另一种是STORED AS,只能指定ORC和PARQUET。 ORC对RCFile做了优化,可以提供一种高效的方法来存储Hive数据。 PARQUET是面向分析型业务的列式存储格式。 父主题: 标示符
创建source流从HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发现数据价值。
概述 数据类型是数据的一个基本属性,用于区分不同类型的数据。不同的数据类型所占的存储空间不同,能够进行的操作也不相同。数据库中的数据存储在表中。表中的每一列都定义了数据类型,用户存储数据时,须遵从这些数据类型的属性,否则可能会出错。 DLI当前只支持原生数据类型。 父主题: 数据类型
功能描述 DLI将作业的输出数据输出到HBase中。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发现数据价值。