-
批作业SQL常用配置项说明 - 数据湖探索 DLI
该配置项用于启用或禁用动态分区修剪。在执行SQL查询时,动态分区修剪可以帮助减少需要扫描的数据量,提高查询性能。 配置为true时,代表启用动态分区修剪,SQL会在查询中自动检测并删除那些不满足WHERE子句条件的分区,适用于在处理具有大量分区的表时。 如果SQL查询中包含大量的嵌套left join操作,并且
-
永洪BI制作图表 - 数据湖探索 DLI
图表 ”,将其拖入编辑区域,请参见图4。 图4 新建图表 选择“name”作为X变量,“age”作为Y变量,将其直接拖入对应的位置,系统将自动生成对应的柱状图,请参见图5。 图5 生成图表 在“制作图表”页面工具栏中单击“保存”,完成制作图表。 父主题: 永洪BI对接DLI提交Spark作业
-
迁移Kafka数据至DLI - 数据湖探索 DLI
详细的参数配置可以参考:CDM配置DLI目的端参数。 单击“下一步”,进入到字段映射界面,CDM会自动匹配源和目的字段。 如果字段映射顺序不匹配,可通过拖拽字段调整。 如果选择在目的端自动创建类型,这里还需要配置每个类型的字段类型、字段名称。 CDM支持迁移过程中转换字段内容,详细请参见字段转换。
-
迁移Hive数据至DLI - 数据湖探索 DLI
更多参数的详细配置可以参考:CDM配置DLI目的端参数。 单击“下一步”,进入到字段映射界面,CDM会自动匹配源和目的字段。 如果字段映射顺序不匹配,可通过拖拽字段调整。 如果选择在目的端自动创建类型,这里还需要配置每个类型的字段类型、字段名称。 CDM支持迁移过程中转换字段内容 图8 字段映射
-
运维指导 - 数据湖探索 DLI
数据导入完成后查询表数据失败 创建OBS外表,因为OBS文件中的某字段存在回车换行符导致表字段数据错误 SQL作业中存在join操作,因为自动广播导致内存不足,作业一直运行中 join表时没有添加on条件,造成笛卡尔积查询,导致队列资源爆满,作业运行失败 手动在OBS表的分区目录下添加了数据,但是无法查询到该部分数据
-
数据湖探索简介 - 数据湖探索 DLI
率。 作业级资源隔离(暂未实现,后续版本支持) 支持独立Spark实例运行SQL作业,减少作业间相互影响。 自动弹性(暂未实现,后续版本支持) 基于队列负载和优先级实时自动更新队列配额。 弹性资源池解决方案主要解决了以下问题和挑战。 维度 原有队列,无弹性资源池时 弹性资源池 扩容时长
-
Hive维表 - 数据湖探索 DLI
e temporal join始终会加入最新版本的时态表。Flink支持分区表和 Hive非分区表的临时连接,对于分区表,Flink 支持自动跟踪Hive表的最新分区。详情可参考:Apache Flink Hive Read & Write 注意事项 Flink目前不支持与Hiv
-
修订记录 - 数据湖探索 DLI
使用Spark作业访问DLI元数据,删除“不支持创建加密的DLI表”的相关描述。 2022-08-09 新增Flink作业高可靠推荐配置指导(异常自动重启)。 2022-07-19 新增使用Flink Jar连接开启SASL_SSL认证的Kafka。
-
concat - 数据湖探索 DLI
说明 str1、str2 是 STRING 字符串。 如果输入参数为BIGINT、DOUBLE、DECIMAL或DATETIME类型,则会自动转换为STRING类型后参与运算,其他类型会返回报错。 返回值说明 返回ARRAY数组或STRING的值。 返回ARRAY类型。如果任一输
-
创建Flink Jar作业 - 数据湖探索 DLI
“SMN主题”: 选择一个自定义的SMN主题。如何自定义SMN主题,请参见《消息通知服务用户指南》中“创建主题”章节。 异常自动重启 设置是否启动异常自动重启功能,当作业异常时将自动重启并恢复作业。 勾选后需配置下列参数: “异常重试最大次数”:配置异常重试最大次数。单位为“次/小时”。 无限:无限次重试。
-
创建DLI表关联OpenTSDB - 数据湖探索 DLI
”分隔,包括对应metric下所有tagk的值。 注意事项 创建DLI表时,不需要指定timestamp和value字段,系统会根据指定的tags自动构建字段,包含以下字段,其中TAG1和TAG2由tags指定。 TAG1 String TAG2 String timestamp Timestamp
-
concat - 数据湖探索 DLI
说明 str1、str2 是 STRING 字符串。 如果输入参数为BIGINT、DOUBLE、DECIMAL或DATETIME类型,则会自动转换为STRING类型后参与运算,其他类型会返回报错。 返回值说明 返回ARRAY数组或STRING的值。 返回ARRAY类型。如果任一输
-
创建DLI表关联OpenTSDB - 数据湖探索 DLI
”分隔,包括对应metric下所有tagk的值。 注意事项 创建DLI表时,不需要指定timestamp和value字段,系统会根据指定的tags自动构建字段,包含以下字段,其中TAG1和TAG2由tags指定。 TAG1 String TAG2 String timestamp Timestamp
-
弹性资源池概述 - 数据湖探索 DLI
率。 作业级资源隔离(暂未实现,后续版本支持) 支持独立Spark实例运行SQL作业,减少作业间相互影响。 自动弹性(暂未实现,后续版本支持) 基于队列负载和优先级实时自动更新队列配额。 弹性资源池解决方案主要解决了以下问题和挑战。 维度 原有队列,无弹性资源池时 弹性资源池 扩容时长
-
Flink Jar作业开发基础样例 - 数据湖探索 DLI
“SMN主题”: 选择一个自定义的SMN主题。如何自定义SMN主题,请参见《消息通知服务用户指南》中“创建主题”章节。 异常自动重启 设置是否启动异常自动重启功能,当作业异常时将自动重启并恢复作业。 勾选后需配置下列参数: “异常重试最大次数”:配置异常重试最大次数。单位为“次/小时”。 无限:无限次重试。
-
迁移DWS数据至DLI - 数据湖探索 DLI
详细的参数配置可以参考:CDM配置DLI目的端参数。 单击“下一步”,进入到字段映射界面,CDM会自动匹配源和目的字段。 如果字段映射顺序不匹配,可通过拖拽字段调整。 如果选择在目的端自动创建类型,这里还需要配置每个类型的字段类型、字段名称。 CDM支持迁移过程中转换字段内容,详细请参见字段转换。
-
Python SDK环境配置 - 数据湖探索 DLI
zip”解压目录下的windows目录。例如:“D:\tmp\dli-sdk-python-1.0.8”。 执行如下命令安装DLI服务Python SDK,安装过程中会自动下载第三方依赖库。 python setup.py install 运行结果参见图2所示。 图2 安装Python SDK Python开发环境配置
-
队列管理概述 - 数据湖探索 DLI
目前只支持64CUs以上包年包月队列进行定时弹性扩容任务。 新创建的队列需要运行作业后才可进行扩缩容。 队列自动扩缩容 Flink作业使用按需队列,DLI可根据作业大小自动触发扩缩容,用户无需进行操作。 新创建的队列需要运行作业后才可进行扩缩容。 队列管理页面 队列管理主要包括如下功能:
-
JDBC源表 - 数据湖探索 DLI
每次从数据库拉取数据的行数。若指定为0,则会忽略sql hint。 scan.auto-commit 否 true Boolean 是否设置自动提交,以确定事务中的每个statement是否自动提交 pwd_auth_name 否 无 String DLI侧创建的Password类型的跨源认证名称。用户若配
-
JDBC源表 - 数据湖探索 DLI
每次从数据库拉取数据的行数。若指定为0,则会忽略sql hint。 scan.auto-commit 否 true Boolean 是否设置自动提交,以确定事务中的每个statement是否自动提交 pwd_auth_name 否 无 String DLI侧创建的Password类型的跨源认证名称。用户若配