检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
DBT连接DLI,用来定义和执行SQL转换,支持从数据集成、转换到分析的整个数据生命周期管理,适用于大规模数据分析项目和复杂的数据分析场景。 本节操作介绍DBT连接DLI的操作步骤。 操作前准备 环境要求 确保您的系统环境满足以下要求。
图2 设置DLI作业桶 查询Spark作业日志 登录DLI管理控制台,单击“作业管理 > Spark作业”。 选择待查询的Spark作业,单击操作列的“更多 > 归档日志”。 系统自动跳转至DLI作业桶日志路径下。
图2 设置DLI作业桶 查询SQL作业日志 登录DLI管理控制台,单击“作业管理 > SQL作业”。 选择待查询的SQL作业,单击操作列的“更多 > 归档日志”。 系统自动跳转至DLI作业桶日志路径下。 选择需要查看的日期,单击操作列的“ 下载”,下载SQL作业日志到本地。
具体该参数设置步骤如下: 登录DLI管理控制台,单击“作业管理 > SQL作业”,对应SQL作业行的操作列,单击“编辑”按钮,跳转到“SQL编辑器”。 在“SQL编辑器”中,单击“设置”,参考如下图配置添加参数。 图1 设置参数 重新执行作业。 父主题: SQL作业运维类
设置spark.sql.autoBroadcastJoinThreshold=-1,具体操作如下: 登录DLI管理控制台,单击“作业管理 > SQL作业”,在对应报错作业的“操作”列,单击“编辑”进入到SQL编辑器页面。
登录DLI管理控制台,选择“作业管理 > Flink作业”。 单击对应的Flink作业名称,选择“运行日志”,单击“OBS桶”,根据作业运行的日期,找到对应日志的文件夹。
选择“作业管理 > Flink作业”。
在DLI管理控制台,单击“跨源管理 > 增强型跨源 ”。 选择“增强型跨源”,单击“创建”。 配置增强型跨源连接的信息请参考创建增强型跨源连接。 创建完成后,增强型跨源连接的状态显示“已激活”,代表该连接创建成功。您还可以在队列管理页面测试数据源与DLI队列的连通性。
将Jar包文件上传到DLI的程序包管理中,方便后续统一管理。 登录DLI管理控制台,单击“数据管理 > 程序包管理”。 在“程序包管理”页面,单击右上角的“创建程序包”。 在“创建程序包”对话框,配置以下参数。 包类型:选择“JAR”。 OBS路径:程序包所在的OBS路径。
队列空闲状态是指在DLI 作业管理中,该队列下均无SQL 作业运行,或者 Flink 作业运行、Spark 作业运行。 即一个自然小时内无作业运行,该自然小时为空闲状态。不会进行计费。
图2 创建VPC 步骤2:创建弹性资源池和队列 登录DLI管理控制台。 在左侧导航栏单击“资源管理 > 弹性资源池”,可进入弹性资源池管理页面。 在弹性资源池管理界面,单击界面右上角的“购买弹性资源池”。 在“购买弹性资源池”界面,填写具体的弹性资源池参数。
选择“资源管理 > 队列管理”或“资源管理 > 弹性资源池”。 在搜索框中输入资源名称,单击图标即可查找到该资源。 图2 查找资源 查看弹性资源池详细信息,根据计算资源的类型选择结束计费需要执行的操作。 按需计费的弹性资源池如不再使用,可删除资源停止计费。
Flink Jar作业指定委托 登录DLI管理控制台,选择“作业管理 > Flink作业”。 选择待编辑的Flink Jar作业,单击操作列的“编辑”。 在作业配置区域配置委托信息: Flink版本:选择1.15。
典型场景DLI委托权限配置示例 表1 DLI委托权限配置场景开发指南 类型 操作指导 说明 Flink作业场景 Flink Opensource SQL使用DEW管理访问凭据 Flink Opensource SQL场景使用DEW管理和访问凭据的操作指导,将Flink作业的输出数据写入到
登录管理控制台,选择“大数据 > 数据湖探索 DLI”。 选择“资源管理 > 弹性资源池”,在资源列表中查看并记录资源名称。 在控制台顶部菜单栏中选择“资源 > 我的资源”。 进入我的资源页面。 在搜索条件中选择按名称搜索,并输入1.c获取的实例名称,单击图标搜索资源信息。
在DLI管理控制台的左侧导航栏中,单击数据管理>“程序包管理”,然后单击创建,并使用OBS中的jar包创建相应的程序包。 在DLI管理控制台的左侧导航栏中,单击作业管理>“Flink作业”,在需要编辑作业对应的“操作”列中,单击“编辑”,进入作业编辑页面。
迁移数据至DLI 为了将分散在不同系统中的数据迁移到DLI,确保数据可以在DLI集中分析和管理,您可以通过云数据迁移服务CDM等迁移工具迁移数据至DLI,再使用DLI提交作业分析数据。
可在“数据管理 > 库表管理”查看DLI表数据存储量。 约束限制 存储资源无需创建,无配额约束限制,可直接使用。 仅支持在账单中查看数据存储的计费信息。详细操作参考费用账单。 按照存储在DLI服务中的表数据存储量(单位为“GB”)收取存储费用。
spark.sql.dli.job.priority=x 登录DLI管理控制台。 单击“作业管理 > SQL作业”。 选择待配置的作业,单击操作列下的编辑。 在“ 设置 > 参数配置”中配置spark.sql.dli.job.priority参数。
数据库 数据库即按照数据结构来组织、存储和管理数据的仓库。DLI服务管理权限的基础单元是数据库,赋权以数据库为单位。 在DLI中,表和数据库是定义底层数据的元数据容器。表中的元数据让DLI知道数据所在的位置,并指定了数据的结构,例如列名称、数据类型和表名称。