检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当第一次开启生命周期时,会扫描表/分区会扫描路径下的表数据文件,更新表/分区的LAST_ACCESS_TIME,耗时与分区数和文件数相关。 约束限制 表生命周期处于公测阶段,如果有需要请联系客服申请开通白名单。
客户验证的方式如下: 通过OBS下载数据文件。 通过文本编辑器打开数据文件,发现数据量缺失。 根据该验证方式,初步定位是因为文件数据量较大,文本编辑器无法全部读取。 通过执行查询语句,查询OBS数据进一步进行确认,查询结果确认数据量正确。 因此,该问题为验证方式不正确造成。
select * from testcsvdatasource; 图2 查询结果 指定OBS数据文件目录,创建csv格式的OBS表。 指定的OBS数据目录不包含数据文件。 在OBS桶“dli-test-021”根目录下创建数据文件目录“data”。
]', file_versions_retained=> '[file_versions_retained]'); 参数描述 表1 参数描述 参数 描述 是否必填 table 需要查询表的表名,支持database.tablename格式 是 clean_policy 清理老版本数据文件的策略
DLI表表示数据存储在本服务内部,用户不感知数据存储路径。 OBS表表示数据存储在用户自己账户的OBS桶中,源数据文件由用户自己管理。 DLI表相较于OBS表提供了更多权限控制和缓存加速的功能,性能相较于外表性能更好,但是会收取存储费用。 父主题: DLI产品咨询类
管理DLI具数据源的访问凭证: Spark 3.3.1及以上版本、Flink 1.15及以上版本的跨源访问场景 推荐使用数据加密服务DEW来存储数据源的认证信息,为您解决数据安全、密钥安全、密钥管理复杂等问题。 具体操作请参考使用DEW管理数据源访问凭证。
Flink作业输出流写入数据到OBS,通过该OBS文件路径创建的DLI表查询无数据 问题现象 使用Flink作业输出流写入数据到了OBS中,通过该OBS文件路径创建的DLI表进行数据查询时,无法查询到数据。
如需添加数据,请将数据文件直接放到表对应的OBS路径下即可,例如示例7:创建表并设置多字符的分割符中,将数据文件放到obs://bucketName/filePath下。
计划 run clean on $tablename; // 执行clean操作清理冗余版本 run archivelog on $tablename; // 执行archivelog合并清理元数据文件
表1 使用DLI提交SQL作业查询OBS数据的操作步骤 操作步骤 说明 步骤1:上传数据至OBS 使用DLI查询数据前,需要将数据文件上传至OBS中。 步骤2:创建弹性资源池并添加队列 创建提交作业所需的计算资源。 步骤3:创建数据库 DLI元数据是SQL作业开发的基础。
2GB的数据存储成列存Parquet文件后,大概的数据文件大小是150MB ~ 256MB左右。不同业务数据会有出入。而HDFS单个数据块一般会是128MB,这样可以有效地利用存储空间。
加密功能的权限 适用场景:DLI Flink、Spark作业场景使用DEW-CSMS凭证管理能力。
"auto.purge"='false'时,仅清除元数据,数据文件会移入OBS回收站。默认值为“false”,且不建议用户修改此属性,避免数据删除后无法恢复。
在跨源开发场景中直接配置跨源认证信息存在密码泄露的风险,Spark 3.3.1及以上版本、Flink 1.15及以上版本的跨源访问场景推荐使用数据加密服务DEW来存储数据源的认证信息,为您解决数据安全、密钥安全、密钥管理复杂等问题。具体操作请参考使用DEW管理数据源访问凭证。
请确保已上传密钥和证书到指定的OBS路径下,并在作业配置中的其他依赖文件中引入。 表1 Spark作业传输开启通信加密配置项 参数 说明 配置示例 spark.network.crypto.enabled 该参数用于启用或禁用数据在节点之间传输时的加密。
步骤3:使用DEW管理访问凭证 Spark Jar作业的输出数据写入到OBS时,需要配置AKSK访问OBS,为了确保AKSK数据安全,您可以用过数据加密服务(Data Encryption Workshop,DEW)、云凭据管理服务(Cloud Secret Management
进入“我的凭证”页面,选择“访问密钥 > 新增访问密钥”,如图5所示。 图5 单击新增访问密钥 单击“确定”,根据浏览器提示,保存密钥文件。密钥文件会直接保存到浏览器默认的下载文件夹中。
说明: 当前仅支持运行命令ANALYZE TABLE COMPUTE statistics noscan的配置单元存储表,和直接根据数据文件计算统计信息的基于文件的数据源表。
数据加密服务(Data Encryption Workshop,DEW)安全、可靠、简单易用隐私数据加解密方案。 本例介绍在DEW创建通用凭证的操作步骤。了解更多请参考创建通用凭据。 登录DEW管理控制台 选择“凭据管理”,进入“凭据管理”页面。
Hudi数据表Compaction规范 mor表更新数据以行存log的形式写入,log读取时需要按主键合并,并且是行存的,导致log读取效率比parquet低很多。为了解决log读取的性能问题,Hudi通过compaction将log压缩成parquet文件,大幅提升读取性能。