检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Spark作业访问DLI元数据 操作场景 DLI支持用户编写代码创建Spark作业来创建数据库、创建DLI表或OBS表和插入表数据等操作。本示例完整的演示通过编写java代码、使用Spark作业创建数据库、创建表和插入表数据的详细操作,帮助您在DLI上进行作业开发。 该功能公测阶段
Redis源表 功能描述 创建source流从Redis获取数据,作为作业的输入数据。 前提条件 创建该作业前,需要建立DLI和Redis的增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则
查询资源实例列表 功能介绍 该接口用于查询资源实例列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v3/{project_id}/{resource_type
创建批处理作业 功能介绍 该API用于在某个队列上创建批处理作业。 调试 您可以在API Explorer中调试该接口。 URI URI格式: POST /v2.0/{project_id}/batches 参数说明 表1 URI参数 参数名称 是否必选 参数类型 说明 project_id
Hive结果表 功能描述 本节介绍利用Flink写Hive的表。Hive结果表的定义,以及创建结果表时使用的参数和示例代码。详情可参考:Apache Flink Hive Read & Write Flink 支持在 BATCH 和 STREAMING 模式下从Hive写入数据。
SQL作业运行慢如何定位 作业运行慢可以通过以下步骤进行排查处理。 可能原因1:FullGC原因导致作业运行慢 判断当前作业运行慢是否是FullGC导致: 登录DLI控制台,单击“作业管理 > SQL作业”。 在SQL作业页面,在对应作业的“操作”列,单击“更多 > 归档日志”。
查询作业列表 功能介绍 查询当前用户的作业列表,可以根据作业ID作为ID,查询大于ID或小于ID的限定条数的作业,默认查询全部状态的作业,也可以设定运行中或其他状态条件。 调试 您可以在API Explorer中调试该接口。 URI URI格式 GET /v1.0/{project_id
导出查询结果 功能介绍 该API用于将SQL语句的查询结果导出到OBS对象存储中,只支持导出“QUERY”类型作业的查询结果。 该API为异步操作。 目前只支持导出数据到OBS中,且导出的路径必须指定到文件夹级别。OBS路径中不支持逗号,且其中的桶名不能以正则格式“.[0-9]+(
JOIN Equi-join 语法格式 1 2 FROM tableExpression INNER | LEFT | RIGHT | FULL JOIN tableExpression ON value11 = value21 [ AND value12 = value22]
典型场景示例:迁移Kafka数据至DLI 本文为您介绍如何通过CDM数据同步功能,迁移MRS Kafka数据至DLI。 前提条件 已创建DLI的SQL队列。创建DLI队列的操作可以参考创建DLI队列。 创建DLI队列时队列类型需要选择为“SQL队列”。 已创建包含Kafka组件的MRS
Flink Jar作业开发基础样例 概述 用户可以基于Flink的API进行二次开发,构建自己的应用Jar包,提交到DLI队列运行,实现与MRS Kafka、HBase、Hive、HDFS,DWS,DCS等数据源的交互。 本章节以通过自定义作业与MRS进行交互为例进行说明。 更多样例代码请通过
查询作业详情 功能介绍 查看一个作业的详情信息。 调试 您可以在API Explorer中调试该接口。 URI URI格式 GET /v1.0/{project_id}/streaming/jobs/{job_id} 参数说明 表1 URI参数说明 参数名称 是否必选 参数类型 说明
INSERT 语法 INSERT { INTO | OVERWRITE } [TABLE] table_name [(column_list)] [ PARTITION (partition_clause)] {select_statement | VALUES (value [,
JOIN Equi-join 语法格式 1 2 FROM tableExpression INNER | LEFT | RIGHT | FULL JOIN tableExpression ON value11 = value21 [ AND value12 = value22]
JOIN Equi-join 语法格式 1 2 FROM tableExpression INNER | LEFT | RIGHT | FULL JOIN tableExpression ON value11 = value21 [ AND value12 = value22]
使用DLI提交Spark Jar作业 操作场景 DLI允许用户提交编译为Jar包的Spark作业,Jar包中包含了Jar作业执行所需的代码和依赖信息,用于在数据查询、数据分析、机器学习等特定的数据处理任务中使用。在提交Spark Jar作业前,将程序包上传至OBS,并将程序包与数据和作业参数一起提交以运行作业
自定义函数 概述 DLI支持三种自定义函数: UDF:自定义函数,支持一个或多个输入参数,返回一个结果值。 UDTF:自定义表值函数,支持一个或多个输入参数,可返回多行多列。 UDAF:自定义聚合函数,将多条记录聚合成一个值。 暂不支持通过python写UDF、UDTF、UDAF自定义函数
pyspark样例代码 开发说明 支持对接CloudTable的OpenTSDB和MRS的OpenTSDB。 前提条件 在DLI管理控制台上已完成创建跨源连接。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放
配置DBeaver连接DLI进行数据查询和分析 DBeaver 是一个免费且开源的数据库管理工具,支持多种数据库,通过DBeaver这款可视化数据库管理工具可以查看数据库结构、执行SQL查询和脚本、浏览和导出数据等。本节操作介绍DBeaver连接DLI服务的操作步骤。 操作前准备
时间函数 Flink OpenSource SQL所支持的时间函数如表1所示。 函数说明 表1 时间函数 函数 返回值 描述 DATE string DATE 将日期字符串以"yyyy-MM-dd"的形式解析为SQL日期。 TIME string TIME 将时间字符串以"HH:mm