检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hudi开发规范概述 范围 本节内容介绍DLI-Hudi组件进行湖仓一体、流批一体方案的设计与开发方面的规则,适用于Hudi开发场景的表的设计、管理与作业开发。 主要包括以下方面的规范: 数据表设计 资源配置 性能调优 常见故障处理 常用参数配置 术语约定 本规范采用以下的术语描述: 规则:编程时强制必须遵守的原则。
完成设置后DLI作业运行过程中产生的临时数据将会存储在该OBS桶中。 图2 设置DLI作业桶 查询SQL作业日志 登录DLI管理控制台,单击“作业管理 > SQL作业”。 选择待查询的SQL作业,单击操作列的“更多 > 归档日志”。 系统自动跳转至DLI作业桶日志路径下。 选择需要查看的日期,单击操作列的“
要去掉该标识。 设置spark.sql.autoBroadcastJoinThreshold=-1,具体操作如下: 登录DLI管理控制台,单击“作业管理 > SQL作业”,在对应报错作业的“操作”列,单击“编辑”进入到SQL编辑器页面。 单击“设置”,在参数设置中选择“spark
表3 privileges参数 参数名称 是否必选 参数类型 说明 is_admin 否 Boolean 判断是否为管理用户,false表示不是管理用户,true表示是管理用户。 object 否 String 该用户有权限的对象: “databases.数据库名.tables.表名”,用户在当前表上的权限。
建议可以尝试调小spark.sql.shuffle.partitions参数值来解决缓冲区不足问题。具体该参数设置步骤如下: 登录DLI管理控制台,单击“作业管理 > SQL作业”,对应SQL作业行的操作列,单击“编辑”按钮,跳转到“SQL编辑器”。 在“SQL编辑器”中,单击“设置”,参考如下图配置添加参数。
后再查看账单。) 根据上报账单的资源ID在费用中心查看资源账单。 详细操作如下所述: 查询资源ID。 登录管理控制台,选择“大数据 > 数据湖探索 DLI”。 选择“资源管理 > 弹性资源池”,在资源列表中查看并记录资源名称。 在控制台顶部菜单栏中选择“资源 > 我的资源”。 进入我的资源页面。
将写好的自定义函数打成JAR包,并上传到OBS上。 在DLI管理控制台的左侧导航栏中,单击数据管理>“程序包管理”,然后单击创建,并使用OBS中的jar包创建相应的程序包。 在DLI管理控制台的左侧导航栏中,单击作业管理>“Flink作业”,在需要编辑作业对应的“操作”列中,单击“编辑”,进入作业编辑页面。
数据湖队列什么情况下是空闲状态? 队列空闲状态是指在DLI 作业管理中,该队列下均无SQL 作业运行,或者 Flink 作业运行、Spark 作业运行。 即一个自然小时内无作业运行,该自然小时为空闲状态。不会进行计费。 通常按需计费的队列,在空闲1h后计算资源会被释放,再次使用时
表相关 创建OBS表 创建DLI表 删除表 查看表 修改表 分区相关 多版本备份恢复数据 表生命周期管理
DLI Hudi开发规范 Hudi开发规范概述 Hudi数据表设计规范 Hudi数据表管理操作规范 Spark on Hudi开发规范 Bucket调优示例
适用场景 存储资源是DLI服务内部的存储资源,用于存储数据库和DLI表。 存储在DLI的表,表类型为MANAGED。 可在“数据管理 > 库表管理”查看DLI表数据存储量。 约束限制 存储资源无需创建,无配额约束限制,可直接使用。 仅支持在账单中查看数据存储的计费信息。详细操作参考费用账单。
将写好的自定义函数打成JAR包,并上传到OBS上。 在DLI管理控制台的左侧导航栏中,单击数据管理>“程序包管理”,然后点击创建,并使用OBS中的jar包创建相应的程序包。 在DLI管理控制台的左侧导航栏中,单击作业管理>“Flink作业”,在需要编辑作业对应的“操作”列中,单击“编辑”,进入作业编辑页面。
1 计算队列支持跨AZ双活 DLI跨AZ队列能够为用户提供跨区域容灾的能力,提高计算的可靠性。 商用 队列管理概述 2 支持Spark作业开发者模式 用户可以在DLI管理控制台采用API接口模式设置参数及参数值。 商用 创建批处理作业API 2020年5月 序号 功能名称 功能描述
将写好的自定义函数打成JAR包,并上传到OBS上。 在DLI管理控制台的左侧导航栏中,单击数据管理>“程序包管理”,然后单击创建,并使用OBS中的jar包创建相应的程序包。 在DLI管理控制台的左侧导航栏中,单击作业管理>“Flink作业”,在需要编辑作业对应的“操作”列中,单击“编辑”,进入作业编辑页面。
Flink作业委托场景开发指导 Flink Opensource SQL使用DEW管理访问凭据 Flink Jar 使用DEW获取访问凭证读写OBS 获取Flink作业委托临时凭证用于访问其他云服务 父主题: Flink作业开发指南
建议您对测试业务场景和生产业务场景分别创建弹性资源池,通过资源物理隔离的方式,保障资源管理的独立性和安全性。 DLI计算资源模式 DLI提供了三种计算资源的管理模式,每一种模式都有独特的优势和适用场景。 图1 DLI计算资源模式 弹性资源池模式:计算资源的池化管理模式,提供计算资源的动态扩缩容能力,同一弹性资源池中
版本无关。 如何升级到DLI Spark 3.1.1版本? 在DLI管理控制台,购买弹性资源池和队列资源,用于提供执行作业所需的计算资源。 单击“作业管理 > Spark作业”,新建Spark作业。 在作业管理页面,单击作业操作列的“编辑”,进入作业运行参数编辑页面。 配置Spa
版本无关。 如何升级到DLI Spark 2.4.5版本? 在DLI管理控制台,购买弹性资源池和队列资源,用于提供执行作业所需的计算资源。 单击“作业管理 > Spark作业”,新建Spark作业。 在作业管理页面,单击作业操作列的“编辑”,进入作业运行参数编辑页面。 配置Spa
DLI弹性资源池之间为物理集群隔离,同一个弹性资源池中的队列之间为逻辑隔离。 建议您对测试业务场景和生产业务场景分别创建弹性资源池,通过资源物理隔离的方式,保障资源管理的独立性和安全性。 DLI提供的弹性资源池规格如表1所示。 表1 弹性资源池规格 类型 规格 约束限制 适用场景 基础版 16-64CUs规格
果未开启则需要开启Checkpoint参数,重新运行作业生成OBS数据文件。 开启Checkpoint步骤如下。 到DLI管理控制台,左侧导航栏选择“作业管理 > Flink作业”,在对应的Flink作业所在行,操作列下单击“编辑”。 在“运行参数”下,查看“开启Checkpoint”参数是否开启。