检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用DLI将CSV数据转换为Parquet数据 应用场景 Parquet是面向分析型业务的列式存储格式,这种格式可以加快查询速度,查询Parquet格式数据时,只检查所需要的列并对它们的值执行计算,也就是说,只读取一个数据文件或表的一小部分数据。Parquet还支持灵活的压缩选项
状态码 状态码如表1所示。 表1 状态码 状态码 编码 状态码说明 100 Continue 继续请求。 这个临时响应用来通知客户端,它的部分请求已经被服务器接收,且仍未被拒绝。 101 Switching Protocols 切换协议。只能切换到更高级的协议。 例如,切换到HTTP的新版本协议。
计费概述 数据湖探索DLI的计费由不同的计费项组成,不同的计费项有不同的计费模式,如图1所示。 图1 DLI的计费组成 计费项 DLI的计费项包括计算计费、存储计费、扫描量计费。DLI的计费详情请参见DLI产品价格详情。您可以通过DLI提供的价格计算器,快速计算出购买资源的参考价格。
MERGE INTO 命令功能 通过MERGE INTO命令,根据一张表或子查询的连接条件对另外一张表进行查询,连接条件匹配上的进行UPDATE或DELETE,无法匹配的执行INSERT。这个语法仅需要一次全表扫描就完成了全部同步工作,执行效率要高于INSERT+UPDATE。 注意事项
将OBS数据导入至DLI 本节操作介绍将OBS上的数据导入到DLI控制台的表中。 注意事项 导入数据时只能指定一个路径,路径中不能包含逗号。 如果将CSV格式数据导入分区表,需在数据源中将分区列放在最后一列。 不建议对同一张表并发导入数据,因为有一定概率发生并发冲突,导致导入失败。
权限策略和授权项 如果您需要对您所拥有的DLI服务进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM),如果华为云账号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用DLI服务的其它功能。
创建表时指定表的生命周期 功能描述 DLI提供了表生命周期管理功能,在创建表时指定表的生命周期。DLI会根据每张表的最后修改时间和表的生命周期来判断是否要回收此表。通过设置表的生命周期,可以帮助您更好的管理数目众多的表,自动清理长期不再使用的数据表,简化数据表的回收流程。同时支持数据恢复设置,避免因误操作丢失数据。
pyspark样例代码 开发说明 支持对接CloudTable的HBase和MRS的HBase。 前提条件 在DLI管理控制台上已完成创建跨源连接。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。