-
从DLI导入数据到OBS,为什么数据量出现差异? - 数据湖探索 DLI
确认客户验证数据量的方式是否正确。客户验证的方式如下: 通过OBS下载数据文件。 通过文本编辑器打开数据文件,发现数据量缺失。 根据该验证方式,初步定位是因为文件数据量较大,文本编辑器无法全部读取。 通过执行查询语句,查询OBS数据进一步进行确认,查询结果确认数据量正确。 因此,该问题为验证方式不正确造成。
-
将DLI数据导出至OBS - 数据湖探索 DLI
“SQL编辑器”页面。 在“数据管理”页面导出数据。 在管理控制台左侧,单击“数据管理”>“库表管理”。 单击需导出数据的表对应的数据库,进入该数据的“表管理”页面。 在对应表(DLI表)的“操作”栏中选择“更多”中的“导出”,弹出“导出数据”页面。 在“SQL编辑器”页面导出数据。
-
迁移DWS数据至DLI - 数据湖探索 DLI
table1; 图1 查询表数据 在DLI上创建数据库和表。 登录DLI管理控制台,选择“SQL编辑器”,在SQL编辑器中“执行引擎”选择“spark”,“队列”选择已创建的SQL队列。 在编辑器中输入以下语句创建数据库,例如当前创建迁移后的DLI数据库testdb。详细的DLI创建数据库的语法可以参考创建DLI数据库。
-
FineBI工具对接DLI Trino - 数据湖探索 DLI
即创建”完成创建。 图10 创建后端服务器组 在后端服务器组页面,单击创建好的后端服务器组操作列下的“添加后端服务器”添加后端服务器。 图11 跨VPC后端IP和业务端口 验证VPCEP与DLI的网络打通 在后端服务组跨VPC后端页面下查看健康检查结果栏显示为正常则网络打通。 图12
-
DWS输出流(通过OBS转储方式) - 数据湖探索 DLI
单字节,建议使用不可见字符,如\u0007。 db_obs_server 否 已在数据库中创建的外部服务器,如obs_server。 如何创建外部服务器,具体操作步骤可参考《数据仓库服务数据库开发指南》中创建外部服务器章节。 如果编码方式为orc格式时需指定该参数。 obs_dir 是 中间文件存储目录。格式为{桶名}/{目录名},
-
DWS输出流(通过OBS转储方式) - 数据湖探索 DLI
单字节,建议使用不可见字符,如\u0007。 db_obs_server 否 已在数据库中创建的外部服务器,如obs_server。 如何创建外部服务器,具体操作步骤可参考《数据仓库服务数据库开发指南》中创建外部服务器章节。 如果编码方式为orc格式时需指定该参数。 obs_dir 是 中间文件存储目录。格式为{桶名}/{目录名},
-
PowerBI工具对接DLI Trino - 数据湖探索 DLI
即创建”完成创建。 图10 创建后端服务器组 在后端服务器组页面,单击创建好的后端服务器组操作列下的“添加后端服务器”添加后端服务器。 图11 跨VPC后端IP和业务端口 验证VPCEP与DLI的网络打通 在后端服务组跨VPC后端页面下查看健康检查结果栏显示为正常则网络打通。 图12
-
Python SDK环境配置 - 数据湖探索 DLI
it with Build Tools for Visual Studio ”,可能是由于缺少C++编译器导致的报错,建议您根据提示信息安装相应版本的Visual Studio编译器解决。部分操作系统Visual Studio安装后需重启才可以生效。 安装DLI服务Python SDK。
-
Raw Format - 数据湖探索 DLI
墓碑消息(在键上删除)。因此,如果该字段可能具有 null 值,我们建议避免使用 upsert-kafka 连接器和 raw format 作为 value.format。 Raw format 连接器是内置的。 参数说明 表1 参数 是否必选 默认值 类型 描述 format 是 (none) String
-
Raw Format - 数据湖探索 DLI
墓碑消息(在键上删除)。因此,如果该字段可能具有 null 值,我们建议避免使用 upsert-kafka 连接器和 raw format 作为 value.format。 Raw format 连接器是内置的。 参数说明 表1 参数 是否必选 默认值 类型 描述 format 是 (none) String
-
迁移Kafka数据至DLI - 数据湖探索 DLI
"Duration":146,"Sign":-1} 在DLI上创建数据库和表。 登录DLI管理控制台,选择“SQL编辑器”,在SQL编辑器中“执行引擎”选择“spark”,“队列”选择已创建的SQL队列。 在编辑器中输入以下语句创建数据库,例如当前创建迁移后的DLI数据库testdb。详细的DLI创建数据库的语法可以参考创建DLI数据库。
-
执行SQL作业时产生数据倾斜怎么办? - 数据湖探索 DLI
JOIN数据倾斜解决方案 登录数据湖探索管理控制台,选择“SQL作业”,在要修改的作业所在行的“操作”列,单击“编辑”进入SQL编辑器界面。 在SQL编辑器界面,单击“设置”,在“配置项”尝试添加以下几个Spark参数进行解决。 参数项如下,冒号前是配置项,冒号后是配置项的值。 spark
-
使用DLI将CSV数据转换为Parquet数据 - 数据湖探索 DLI
uet数据。 步骤2:使用DLI将CSV数据转换为Parquet数据 在DLI控制台总览页面左侧,单击“SQL编辑器”,进入SQL作业编辑器页面。 在SQL作业编辑器左侧,选择“数据库”页签,单击创建名字为demo的数据库。 在DLI的SQL编辑窗口,执行引擎选择“spark”,
-
DLI分区内表导入的文件不包含分区列的数据,导致数据导入完成后查询表数据失败 - 数据湖探索 DLI
TITION__”,当前Spark判断分区为空时,则会直接返回null,不返回具体的数据。 解决方案 登录DLI管理控制台,在“SQL编辑器”中,单击“设置”。 在参数设置中,添加参数“spark.sql.forcePartitionPredicatesOnPartitionedTable
-
SQL作业中存在join操作,因为自动广播导致内存不足,作业一直运行中 - 数据湖探索 DLI
d=-1,具体操作如下: 登录DLI管理控制台,单击“作业管理 > SQL作业”,在对应报错作业的“操作”列,单击“编辑”进入到SQL编辑器页面。 单击“设置”,在参数设置中选择“spark.sql.autoBroadcastJoinThreshold”参数,其值设置为“-1”。
-
取消批处理作业 - 数据湖探索 DLI
"msg": "deleted" } 状态码 状态码如表3所示。 表3 状态码 状态码 描述 200 删除成功。 400 请求错误。 500 内部服务器错误。 错误码 调用接口出错后,将不会返回上述结果,而是返回错误码和错误信息,更多介绍请参见错误码。 父主题: Spark作业相关API
-
查询批处理作业状态 - 数据湖探索 DLI
"state":"Success"} 状态码 状态码如表3所示。 表3 状态码 状态码 描述 200 查询成功。 400 请求错误。 500 内部服务器错误。 错误码 调用接口出错后,将不会返回上述结果,而是返回错误码和错误信息,更多介绍请参见错误码。 父主题: Spark作业相关API
-
入门指引 - 数据湖探索 DLI
DLI服务的快速使用指导,通过一些示例指导您快速完成如何准备账号、准备环境、创建数据库及表、导入数据、运行SQL等操作。 SQL编辑器 您需要在提交作业分析数据前掌握SQL编辑器的使用。 如果您是数据分析师 如果您是数据分析师,建议您先熟悉以下模块,掌握DLI支持的Spark、Flink等常用SQL语法,帮助你查询分析业务数据。
-
窗口去重 - 数据湖探索 DLI
窗口Top-N的语法和普通的Top-N相同。 除此之外,窗口去重需要 PARTITION BY 子句包含表的 window_start 和 window_end 列。 否则优化器无法翻译。 Flink 使用 ROW_NUMBER() 移除重复数据,就像窗口TopN一样。理论上,窗口是一种特殊的窗口 Top-N:N是1并且是根据处理时间或事件时间排序的。
-
取消作业(推荐) - 数据湖探索 DLI
"message": "" } 状态码 状态码如表3所示。 表3 状态码 状态码 描述 200 取消成功。 400 请求错误。 500 内部服务器错误。 错误码 调用接口出错后,将不会返回上述结果,而是返回错误码和错误信息,更多介绍请参见错误码。 父主题: SQL作业相关API