检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hudi数据表管理操作规范 Hudi数据表Compaction规范 Hudi数据表Clean规范 Hudi数据表Archive规范 父主题: DLI Hudi开发规范
Spark表数据维护规范 禁止通过Alter命令修改表关键属性信息:type/primaryKey/preCombineField/hoodie.index.type 错误示例,执行如下语句修改表关键属性: alter table dsrTable set tblproperties('type'='xx');
2.1.6小节和Compaction放在一起异步去执行。COW的Clean可以在写数据时自动判断是否执行。 父主题: Hudi数据表管理操作规范
name>.<table2>; run archivelog on <database name>.<table2>; 父主题: Hudi数据表管理操作规范
2.1.6小节和Compaction放在一起异步去执行。COW的Archive可以在写数据时自动判断是否执行。 父主题: Hudi数据表管理操作规范
资产识别与管理 DLI 可以通过标签实现资源的标识与管理。 使用场景 通常您的业务系统可能使用了华为云的多种云服务,您可以为这些云服务下不同的资源实例分别设置标签,各服务的计费详单会体现这些资源实例设置的标签。如果您的业务系统是由多个不同的应用构成,为同一种应用拥有的资源实例设置
SparkSQL建表参数规范 规则 建表必须指定primaryKey和preCombineField。 Hudi表提供了数据更新的能力和幂等写入的能力,该能力要求数据记录必须设置主键用来识别重复数据和更新操作。不指定主键会导致表丢失数据更新能力,不指定preCombineField会导致主键重复。
Hudi表分区设计规范 规则 分区键不可以被更新: Hudi具有主键唯一性机制,但在分区表的场景下通常只能保证分区内主键唯一,因此如果分区键的值发生变更后,会导致相同主键的行记录出现多条的情况。在以日期分区的场景,可采用数据的创建时间为分区字段,切记不要采用数据更新时间做分区。
同步元数据的配置项;该配置的目的是将Hudi表的元数据统一托管到Hive元数据服务中,为后续的跨引擎操作数据以及数据管理提供便利。 父主题: Hudi数据表设计规范
密钥管理复杂等问题。本节操作介绍使用数据加密服务DEW存储数据源的认证信息的操作步骤。 了解数据加密服务。 在DEW创建通用凭据 本例以配置RDS实例访问凭据为例,介绍在DEW保存凭据,并在DLI作业中的配置示例。 登录DEW管理控制台 选择“凭据管理”,进入“凭据管理”页面。 单击“创建凭据”,配置凭据基本信息
Hudi开发规范概述 范围 本节内容介绍DLI-Hudi组件进行湖仓一体、流批一体方案的设计与开发方面的规则,适用于Hudi开发场景的表的设计、管理与作业开发。 主要包括以下方面的规范: 数据表设计 资源配置 性能调优 常见故障处理 常用参数配置 术语约定 本规范采用以下的术语描述:
Hudi表索引设计规范 规则 禁止修改表索引类型。 Hudi表的索引会决定数据存储方式,随意修改索引类型会导致表中已有的存量数据与新增数据之间出现数据重复和数据准确性问题。常见的索引类型如下: 布隆索引:Spark引擎独有索引,采用bloomfiter机制,将布隆索引内容写入到Parquet文件的footer中。
管理SQL作业 在SQL作业列表页面查看作业的基本信息 DLI SQL作业管理页面显示所有SQL作业,作业数量较多时,系统分页显示,可根据需要跳转至指定页面。您可以查看任何状态下的作业。作业列表默认按创建时间降序排列。 表1 作业管理参数 参数 参数说明 队列 作业所属队列的名称。
Spark增量读取Hudi参数规范 规则 增量查询之前必须指定当前表的查询为增量查询模式,并且查询后重写设置表的查询模式 如果增量查询完,不重新将表查询模式设置回去,将影响后续的实时查询 示例 以SQL作业为例: 配置参数 hoodie.tableName.consume.mode=INCREMENTAL
在DLI控制台管理数据库资源 在DLI控制台配置数据库权限 在DLI控制台删除数据库 在DLI控制台修改数据库所有者 库表管理标签管理 父主题: 创建数据库和表
置AKSK访问OBS,为了确保AKSK数据安全,您可以通过数据加密服务(Data Encryption Workshop,DEW)、云凭据管理服务(Cloud Secret Management Service,CSMS),对AKSK统一管理,有效避免程序硬编码或明文配置等问题导
置AKSK访问OBS,为了确保AKSK数据安全,您可以通过数据加密服务(Data Encryption Workshop,DEW)、云凭据管理服务(Cloud Secret Management Service,CSMS),对AKSK统一管理,有效避免程序硬编码或明文配置等问题导
DEW)是一个综合的云上数据加密服务,为您解决数据安全、密钥安全、密钥管理复杂等问题。推荐使用数据加密服务DEW来存储数据源的认证信息。 Spark 3.3.1及以上版本、Flink 1.15及以上版本的跨源访问场景推荐使用数据加密服务DEW来存储数据源的认证信息,为您解决数据安全、密钥安全、密钥管理复杂等问题。
命令注入漏洞(CVE-2022-33891)。 该漏洞主要影响在启用了ACL(访问控制列表)时,可以通过提供任意用户名来执行命令导致数据安全受到威胁。 DLI在设计时充分考虑了数据安全和数据隔离,因此没有启用相关的配置项,所以不会受到这个漏洞的影响。 父主题: DLI产品咨询类
数据目录:数据目录(Catalog)是元数据管理对象,它可以包含多个数据库。您可以在DLI中创建并管理多个Catalog,用于不同的元数据隔离。 · 数据库:数据库是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库通常用于存储、检索和管理结构化数据,由多个数据表组成,这些数据表通过键和索引相互关联。