检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
API接口返回的中文字符为乱码,如何解决? 当API接口返回的中文字符出现乱码时,通常是因为字符编码格式不匹配。 DLI接口返回的结果编码格式为“UTF-8”,在调用接口获取返回结果时需要对返回的信息编码转换为“UTF-8”。
父主题: Hudi数据表设计规范
Hudi数据表设计规范 Hudi表模型设计规范 Hudi表索引设计规范 Hudi表分区设计规范 父主题: DLI Hudi开发规范
父主题: Hudi数据表设计规范
父主题: Hudi数据表设计规范
SparkSQL建表参数规范 规则 建表必须指定primaryKey和preCombineField。 Hudi表提供了数据更新的能力和幂等写入的能力,该能力要求数据记录必须设置主键用来识别重复数据和更新操作。不指定主键会导致表丢失数据更新能力,不指定preCombineField
DLI Hudi开发规范 Hudi开发规范概述 Hudi数据表设计规范 Hudi数据表管理操作规范 Spark on Hudi开发规范 Bucket调优示例
Hudi开发规范概述 范围 本节内容介绍DLI-Hudi组件进行湖仓一体、流批一体方案的设计与开发方面的规则,适用于Hudi开发场景的表的设计、管理与作业开发。 主要包括以下方面的规范: 数据表设计 资源配置 性能调优 常见故障处理 常用参数配置 术语约定 本规范采用以下的术语描述
Spark表数据维护规范 禁止通过Alter命令修改表关键属性信息:type/primaryKey/preCombineField/hoodie.index.type 错误示例,执行如下语句修改表关键属性: alter table dsrTable set tblproperties
构造请求 本章节介绍REST API请求的组成,并以调用IAM服务的获取用户Token来说明如何调用API,该API获取用户的Token,Token可以用于调用其他API时鉴权。 您还可以通过这个视频教程了解如何构造请求调用API:https://bbs.huaweicloud.com
Hudi数据表Archive规范 Archive(归档)是为了减轻Hudi读写元数据的压力,所有的元数据都存放在这个路径:Hudi表根目录/.hoodie目录,如果.hoodie目录下的文件数量超过10000就会发现Hudi表有非常明显的读写时延。 规则 Hudi表必须执行Archive
提交SQL作业时,返回“unsupported media Type”信息 创建SQL作业的API执行超过时间限制,运行超时报错 API接口返回的中文字符为乱码,如何解决?
Compaction作业是将存量的parquet文件内的数据与新增的log中的数据进行合并,需要消耗较高的内存资源,按照之前的表设计规范以及实际流量的波动结合考虑,建议Compaction作业CPU与内存的比例按照1:4~1:8配置,保证Compaction作业稳定运行。
Hudi数据表Clean规范 Clean也是Hudi表的维护操作之一,该操作对于MOR表和COW表都需要执行。Clean操作的目的是为了清理旧版本文件(Hudi不再使用的数据文件),这不但可以节省Hudi表List过程的时间,也可以缓解存储压力。 规则 Hudi表必须执行Clean
Spark增量读取Hudi参数规范 规则 增量查询之前必须指定当前表的查询为增量查询模式,并且查询后重写设置表的查询模式 如果增量查询完,不重新将表查询模式设置回去,将影响后续的实时查询 示例 以SQL作业为例: 配置参数 hoodie.tableName.consume.mode
Spark on Hudi开发规范 SparkSQL建表参数规范 Spark增量读取Hudi参数规范 Spark异步任务执行表compaction参数设置规范 Spark表数据维护规范 父主题: DLI Hudi开发规范
Spark异步任务执行表compaction参数设置规范 写作业未停止情况下,禁止手动执行run schedule命令生成compaction计划。 错误示例: run schedule on dsrTable 如果还有别的任务在写这张表,执行该操作会导致数据丢失。 执行run compaction
身份认证与访问控制 身份认证 用户访问DLI的方式主要有两种,包括DLI Console界面、DLI Open API等,其本质都是通过DLI提供的REST API接口进行请求。
用户在调用API接口进行云资源管理(如创建集群)时,需要提供项目ID。 查看项目ID步骤如下: 注册并登录华为云管理控制台。 将鼠标移动到右上角用户名上,在下拉列表中单击“我的凭证”。 在“我的凭证”页面的项目列表中查看项目ID。
用户通过调用API接口进行云资源管理(如创建集群)时,需要使用成对的AK/SK进行加密签名,确保请求的机密性、完整性和请求双方身份的正确性。获取AK/SK操作步骤如下: 注册并登录华为云管理控制台。 将鼠标移动到右上角用户名上,在下拉列表中单击“我的凭证”。