检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
弹性资源池CU时套餐包的额度按订购周期重置。 存储量套餐包 按照存储在DLI服务中的数据存储量(单位为“GB”)收取存储费用。 适用于在DLI 存储表数据的场景,例如时延敏感类的业务将表存储在DLI,使用存储量套餐包可以节省存储费用。 存储套餐的额度每个小时会重置。 按订购周期重置:
中的对象或者定时转换对象的存储类别。 DLI的作业桶设置后请谨慎修改,否则可能会造成历史数据无法查找。 前提条件 配置前,请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统,并行文件系统(Parallel File System)是对象存储服务(Object Storage
中的对象或者定时转换对象的存储类别。 DLI的作业桶设置后请谨慎修改,否则可能会造成历史数据无法查找。 前提条件 配置前,请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统,并行文件系统(Parallel File System)是对象存储服务(Object Storage
前提条件 配置前,请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统,并行文件系统(Parallel File System)是对象存储服务(Object Storage Service,OBS)提供的一种经过优化的高性能文件系统,提供毫秒级别访问时延,以及TB/s级别带
在DLI管理控制台上已完成创建跨源连接并绑定队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 操作前准备 import相关依赖包 1 2 3 from
在DLI管理控制台上已完成创建跨源连接并绑定队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 操作前准备 导入依赖 涉及到的mvn依赖库 1 2 3 4
实例的CPU和内存。不同性能规格对应不同连接数和最大IOPS。 2vCPUs | 4GB 存储空间 如果存储类型为SSD云盘或极速型SSD,可设置存储空间自动扩容,当存储空间可用率过小时,会自动扩容存储空间。 40GB 磁盘加密 选择是否开启磁盘加密功能。 不加密 虚拟私有云 选择已有的虚拟私有云。
创建Password类型跨源认证 操作场景 通过在DLI控制台创建的Password类型的跨源认证,将DWS、RDS、DCS和DDS数据源的密码信息存储到DLI,无需在SQL作业中配置账号密码,安全访问DWS、RDS、DDS、DCS数据源。 Password类型跨源认证支持连接的数据源 P
project_id 是 String 项目编号,用于资源隔离。获取方式请参考获取项目ID。 job_id 是 String 作业ID。 请求消息 表2 请求参数 参数名称 是否必选 参数类型 说明 data_path 是 String 导出结果存储的路径(当前仅支持将数据存储在OBS上)
上传数据到OBS桶:通过OBS管理控制台或者使用命令行工具将存储在sftp中的文件数据上传到OBS桶中。 Spark读取OBS文件数据,详见使用Spark Jar作业读取和查询OBS数据。 配置Spark作业:配置Spark作业访问OBS中存储的数据。 提交Spark作业:完成作业编写后,提交并执行作业。
文件。 Hudi表满足hoodie.cleaner.commits.retained设置的阈值。如果是Flink写hudi,则至少提交的checkpoint要超过这个阈值;如果是批写Hudi,则批写次数要超过这个阈值。 建议 MOR表下游采用批量读模式,采用clean的版本数为compaction版本数+1。
选择多AZ存储,数据将冗余存储至多个AZ中,可靠性更高。选择多AZ存储的桶,数据将存储在同一区域的多个不同AZ。当某个AZ不可用时,仍然能够从其他AZ正常访问数据,适用于对可靠性要求较高的数据存储场景。建议优选使用多AZ存储的策略。 选择单AZ存储,数据仅存储在单个AZ中,但相比多AZ更加便宜。收费详情请参见OBS产品价格详情。
作业相关 完整样例代码和依赖包说明请参考:Python SDK概述。 导入数据 DLI提供导入数据的接口。您可以使用该接口将存储在OBS中的数据导入到已创建的DLI表中。示例代码如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
CU时套餐包的额度会按订购周期重置。 DLI表的数据存储 按需计费 按照存储在DLI服务中的数据存储量(单位为“GB”)收取存储费用。 存储费用=单价*存储数据量(GB)*小时数 存储套餐包 购买了存储量套餐包,按需使用过程中优先抵扣存储套餐包的规格额度,超过套餐包额度的按照按需计费。存储套餐的额度每个小时会重置。
<value>[, ...]) 具体使用示例详见:ARRAY示例。 MAP 一组无序的键/值对,使用给定的Key和Value对生成MAP。键的类型必须是原生数据类型,值的类型可以是原生数据类型或复杂数据类型。同一个MAP键的类型必须相同,值的类型也必须相同。 map(K <key1>, V <value1>
说明 num_keys 是 BIGINT类型。 BIGINT类型常量,值必须>=0。在转为多行时作为转置key的列的个数。 separator 是 STRING类型。 STRING类型常量,用于将字符串拆分成多个元素的分隔符。为空时返回报错。 keys 是 STRING类型。 转置时作为key的列,
使用DLI提交SQL作业查询OBS数据 场景描述 DLI可以查询存储在OBS中的数据,本节操作介绍使用DLI提交SQL作业查询OBS数据的操作步骤。 本例新建“sampledata.csv”文件上传OBS桶,并新建弹性资源池队列,使用DLI创建数据库和表,使用DLI提供的SQL编辑器查询表的1000条数据。
On Read 读时合并表也简称MOR表,使用列格式parquet和行格式Avro两种方式混合存储数据。其中parquet格式文件用于存储基础数据,Avro格式文件(也可叫做log文件)用于存储增量数据。 优点:由于写入数据先写delta log,且delta log较小,所以写入成本较低。
创建CSS类型跨源认证 操作场景 通过在DLI控制台创建的CSS类型的跨源认证,将CSS安全集群的认证信息存储到DLI,无需在SQL作业中配置账号密码,安全访问CSS安全集群。 本节操作介绍在DLI控制台创建CSS安全集群的跨源认证的操作步骤。 操作须知 已创建CSS安全集群,且集群满足以下条件:
服务具有完全的访问权限,可以重置用户密码、分配用户权限等。由于账号是付费主体,为了确保账号安全,建议您不要直接使用账号进行日常管理工作,而是创建用户并使用他们进行日常管理工作。 用户 由账号在IAM中创建的用户,是云服务的使用人员,具有身份凭证(密码和访问密钥)。 在我的凭证下,