检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置DBT连接DLI进行数据调度和分析 DBT(Data Build Tool),是一款开源的数据建模和转换工具,运行在Python环境上。DBT连接DLI,用来定义和执行SQL转换,支持从数据集成、转换到分析的整个数据生命周期管理,适用于大规模数据分析项目和复杂的数据分析场景。 本节操作介绍DBT连接DLI的操作步骤。
示例说明:创建一个名为student的分区表,该分区表使用院系编号(facultyNo)和班级编号(classNo)进行分区,该student表会同时按照不同的院系编号(facultyNo)和不同的班级编号(classNo)分区。 在实际的使用过程中,您可以选择合适的分区字段并将其添加到PARTITIONED
DLI对接LakeFormation功能的使用依赖于“湖仓构建”服务的上线状态,如需了解“湖仓构建”服务的上线范围请参考全球产品和服务。 操作流程 图1 操作流程 约束限制 在表1中提供了支持对接LakeFormation获取元数据的队列和引擎类型。 查看队列的引擎类型和版本请参考查看队列的基本信息。 表1
插入数据时省略自增字段:在DLI中插入数据时,对于自增主键字段或其他自动填充的字段,您可以在插入语句中省略这些字段。数据库会自动为这些字段生成值。例如,如果表中有一个名为id的自增主键字段,您可以在插入数据时不包含这个字段,数据库会自动为新插入的行分配一个唯一的id值。 使用NULL值:如果您需要在插入数据时
添加数据源的相关配置,请参见图1。 驱动:上传下载的DLI JDBC驱动。 URL:后面填写DLI jdbc的URL,URL的格式见表2,属性配置项说明见表3。 指定数据库: “表结构模式”可填写需访问的数据库名称,如果填写,后续创建数据集时,刷新表,页面上只可见该数据库下的表。如果
DLI弹性资源池与队列简介 DLI的计算资源是执行作业的基础,本节内容介绍DLI计算资源的模式和队列类型。 什么是弹性资源池和队列? 在了解DLI计算资源模式前首先了解弹性资源池和队列的基本概念。 弹性资源池是DLI计算资源的一种池化管理模式,可以看做DLI计算资源的集合。DLI支持在弹性资
调度Clustering:使用可插拔的Clustering策略创建Clustering计划。 识别符合Clustering条件的文件:根据所选的Clustering策略,调度逻辑将识别符合Clustering条件的文件。 根据特定条件对符合Clustering条件的文件进行分组。每个组的数据大小应为t
窗口去重 功能描述 窗口去重是一种特殊的去重,它根据指定的多个列来删除重复的行,保留每个窗口和分区键的第一个或最后一个数据。 对于流式查询,与普通去重不同,窗口去重只在窗口的最后返回结果数据,不会产生中间结果。它会清除不需要的中间状态。 因此,窗口去重查询在用户不需要更新结果时,
使用Hive语法创建DLI表。DataSource语法和Hive语法主要区别在于支持的表数据存储格式范围、支持的分区数等有差异,详细请参考语法格式和注意事项说明。 注意事项 CTAS建表语句不能指定表的属性。 Hive DLI表不支持在建表时指定多字符的分隔符。 关于分区表的使用说明: 创建分区表时,PARTITONED
弹性资源池为DLI作业运行提供所需的计算资源(CPU和内存),用于灵活应对业务对计算资源变化的需求。 创建弹性资源池后,您可以在弹性资源池中创建多个队列,队列关联到具体的作业和数据处理任务,是资源池中资源被实际使用和分配的基本单元,即队列是执行作业所需的具体的计算资源。 同一弹性资源池中,队列之间的计算资源支持共享。
String 在序列化地图数据的空键时指定处理模式。当前支持的值为“FAIL”、“DROP”和“LITERAL”:选项“FAIL”将在遇到带有空键的地图时抛出异常。选项“DROP”将删除地图数据的空键条目。选项“LITERAL”将替换空带字符串文字的键。字符串文字由 maxwell-json
Array of Objects 数据库的标签。具体请参考tags参数。 表3 tags参数 参数名称 是否必选 参数类型 说明 key 是 String 标签的键。 说明: 标签的键的最大长度为128个字符,标签的键可以包含任意语种字母、数字、空格和_ . : =+-@ ,但首尾不能含有空格,不能以_sys_开头。
如果原队列使用的是弹性资源池类型的计算资源,那么新建队列不涉及计算资源的费用变化。 如果原队列使用的是非弹性资源池的类型的计算资源,那么使用弹性资源池资源新建队列后计算资源的费用将发生变化,具体情况以计算资源的价格详情为准。 示例1:使用SQL队列,将Spark版本从Spark 2.4.x升级至Spark 3
确认短信的手机号码。 如果选择“邮件”协议,需要在“订阅终端”中填写接收确认邮件的邮箱地址。 更多信息,请参考《消息通知服务用户指南》中《添加订阅》章节。 图4 添加订阅 通过单击短信或者邮件中的链接确认后,将收到“订阅成功”的信息。 在消息通知服务的“订阅”页面,对应的订阅状态为“已确认”,表示订阅成功。
终止作业:终止提交到此队列的作业。 赋权:当前用户可将队列的权限赋予其他用户。 回收:当前用户可回收其他用户具备的该队列的权限,但不能回收该队列所有者的权限。 查看其他用户具备的权限:当前用户可查看其他用户具备的该队列的权限。 重启队列权限:重启此队列的权限。 规格变更:修改队列规格的权限。 为已有权限的用户赋予权限或回收权限。
怎样查看DLI队列负载? 场景概述 如果需要确认DLI队列的运行状态,决定是否运行更多的作业时需要查看队列负载。 操作步骤 在控制台搜索“云监控服务 CES”。 图1 搜索CES 进入CES后,在页面左侧“云服务监控”列表中,单击“数据湖探索”。 图2 云服务监控 选择队列进行查看。
回收:当前用户可回收其他用户具备的该弹性资源池的权限,但不能回收该弹性资源池所有者的权限。 查看其他用户具备的权限:当前用户可查看其他用户具备的该弹性资源池的权限。 为已有权限的用户赋予权限或回收权限。 在对应弹性资源池“权限信息”区域的用户列表中,选择需要修改权限的用户,在“操作”列单击“权限设置”。
标签是用户自定义的、用于标识云资源的键值对,它可以帮助用户对云资源进行分类和搜索。标签由标签“键”和标签“值”组成。 如果用户在其他云服务中使用了标签,建议用户为同一个业务所使用的云资源创建相同的标签键值对以保持一致性。 DLI支持以下两类标签: 资源标签:在DLI中创建的非全局的标签。
标签是用户自定义的、用于标识云资源的键值对,它可以帮助用户对云资源进行分类和搜索。标签由标签“键”和标签“值”组成。 如果用户在其他云服务中使用了标签,建议用户为同一个业务所使用的云资源创建相同的标签键值对以保持一致性。 DLI支持以下两类标签: 资源标签:在DLI中创建的非全局的标签。
扩容操作后,需要等待大约10分钟,具体时长和扩容的CU值有关,等待一段时间后,可以通过刷新“队列管理”页面,对比“规格”和“实际CUs”大小是否一致来判断是否扩容成功。或者在“作业管理”页面,查看“SCALE_QUEUE”类型SQL作业的状态,如果作业状态为“规格变更中”,表示队列正在扩容中。