检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
长难复杂变量,简化复杂参数,提升SQL语句可读性。 本节操作为您介绍如何创建全局变量。 创建全局变量 在DLI控制台左侧导航栏中单击“全局配置 > 全局变量”。 在“全局变量”页面,单击右上角“创建变量”,可创建新的全局变量。 表1 全局变量参数说明 参数名称 描述 变量名称 所创建的全局变量名称。
driver,以提升队列资源的调度效率。 本节操作介绍在管理控制台设置队列属性的操作步骤。 约束与限制 仅Spark引擎的SQL队列支持配置队列属性。 仅在队列创建完成后支持设置队列属性。 当前仅支持设置Spark driver相关队列属性。 不支持批量设置队列属性。 弹性资源
具迁移数据至DLI,再使用DLI提交作业分析数据。 CDM支持数据库、数据仓库、文件等多种类型的数据源,通过可视化界面对数据源迁移任务进行配置,提高数据迁移和集成的效率。 图1 迁移数据至DLI 常见迁移场景与迁移方案指导 表1 常见迁移场景与迁移方案指导 数据类型 迁移工具 迁移方案
non-strict模式,对主键表采用insert处理。 upsert模式,对于主键表的重复值进行更新操作。 在提交Spark SQL作业时,用户可以在设置中配置以下参数,切换bulk insert作为Insert语句的写入方式。 hoodie.sql.bulk.insert.enable = true
static_estimator_config 否 String 每个算子的流量/命中率配置,json格式的字符串。 当static_estimator为true时需要配置该参数,配置时传入算子ID和算子流量配置。 可先行调用该接口获取算子ID,即响应消息中stream_graph包含的o
thread-num 来配置线程号。默认值为 3,配置的值应大于 0。 Key Default Type Description table.exec.hive.load-partition-splits.thread-num 3 Integer 配置的值应大于0。 SQL 提示可用于将配置应用于
lookup.cache.max-rows 否 无 Integer 维表配置,缓存的最大行数,超过该值时,最先添加的数据将被标记为过期。 默认表示不使用该配置。 lookup.cache.ttl 否 无 Duration 维表配置,缓存超时时间,超过该时间的数据会被剔除。格式为:{length
datasource API语法参考 Spark jar作业提交方式请参考在DLI使用Hudi提交Spark Jar作业 API语法说明 Hudi锁配置说明
并绑定包年包月队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 通过DataFrame API 访问 import相关依赖 1 2 3 from __future__
并绑定包年包月队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 代码实现 导入依赖。 涉及到的mvn依赖库 1 2 3 4 5 <dependency>
在DLI管理控制台上已完成创建跨源连接并绑定队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 代码实现 导入依赖 涉及到的mvn依赖库 1 2 3 4 5 <dependency>
使用DLI提交SQL作业 创建并提交SQL作业 导出SQL作业结果 配置SQL防御规则 设置SQL作业优先级 查询SQL作业日志 管理SQL作业 创建并管理SQL作业模板
table与path参数必须存在一个,否则无法判断需要执行clustering的表。 使用由DLI提供的元数据服务时,本命令仅支持配置table参数,不支持配置path参数。 如果需要对指定分区进行clustering,参考格式:predicate => "dt = '2023-08-28'"
作用范围:选择“项目级服务”。 策略配置方式:选择“可视化视图”。 策略内容:依次选择“允许”,“数据湖探索”,“dli:jobs:list_all”。 单击“确认”,创建策略。 图3 创建策略 在“用户组”页面,找到需要授权的用户所属的用户组,单击用户组名称,进入用户组“权限管理”页面,单击“配置权限”。
进入标签管理页面,显示当前队列的标签信息。 单击“添加/编辑标签”,弹出“添加/编辑标签”对话框,配置参数。配置完成一个标签,单击“添加”将标签添加到输入框中。 图1 添加/编辑标签 表1 标签配置参数 参数 参数说明 标签键 您可以选择: 在输入框的下拉列表中选择预定义标签键。 如果添
Bucket调优示例 创建Bucket索引表调优 Hudi表初始化 实时任务接入 离线Compaction配置 父主题: DLI Hudi开发规范
Python SDK Python SDK概述 Python SDK环境配置 队列相关 资源相关 SQL作业相关 Spark作业相关
数据迁移与数据传输 数据迁移与传输方式概述 迁移外部数据源数据至DLI 配置DLI读写外部数据源数据
lookup.cache.max-rows 否 -1 Long 维表配置,缓存的最大行数,超过该值时,最先添加的数据将被标记为过期。 默认表示不使用该配置。 lookup.cache.ttl 否 -1 Long 维表配置,缓存超时时间,超过该时间的数据会被剔除。格式为:{length
lookup.cache.max-rows 否 -1 Long 维表配置,缓存的最大行数,超过该值时,缓存中最先添加的条目将被标记为过期。 默认表示不使用该配置。 lookup.cache.ttl 否 -1 Long 维表配置,缓存超时时间,超过该时间的数据会被剔除。格式为:{length