正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
云容器引擎-成长地图 | 华为云 数据湖探索 数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark、Apache Flink、Trino生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何
DLI Flink作业提交运行后(已选择保存作业日志到OBS桶),提交运行失败的情形(例如:jar包冲突),有时日志不会写到OBS桶中 DLI Flink作业提交或运行失败时,对应生成的作业日志保存方式,包含以下三种情况: 提交失败,只会在submit-client下生成提交日志。
永洪BI创建数据集 操作场景 在永洪SaaS生产环境中创建DLI的数据集。 操作步骤 在永洪SaaS生产环境主页,单击左侧导航栏中的“创建数据集”,请参见图1。 图1 创建数据集 在“数据集类型”页面中,选择创建“SQL数据集”,请参见图2。 图2 创建SQL数据集 在“创建数据
Python SDK概述 操作场景 DLI SDK让您无需关心请求细节即可快速使用数据湖探索服务。本节操作介绍如何在Python环境获取并使用SDK。 使用须知 要使用DLI Python SDK访问指定服务的 API ,您需要确认已在DLI管理控制台开通当前服务并完成服务授权。
数据保护技术 数据存储安全 为了确保您的个人敏感数据(例如用户名、密码、手机号码等)不被未经过认证、授权的实体或者个人获取,DLI对用户数据的存储和传输进行加密保护,以防止个人数据泄露,保证您的个人数据安全。 数据销毁机制 用户删除DLI队列后,存储在集群上的用户个人敏感数据会随之删除。
Java SDK概述 操作场景 DLI Java SDK 让您无需关心请求细节即可快速使用数据湖探索服务。本节操作介绍如何获取并使用Java SDK 。 使用须知 要使用DLI Java SDK 访问指定服务的 API ,您需要确认已在DLI控制台开通当前服务并完成服务授权。 Java
批作业SQL常用配置项说明 本章节为您介绍DLI 批作业SQL语法的常用配置项。 表1 常用配置项 名称 默认值 描述 spark.sql.files.maxRecordsPerFile 0 要写入单个文件的最大记录数。如果该值为零或为负,则没有限制。 spark.sql.shuffle
Spark SQL常用配置项说明 本章节为您介绍DLI 批作业SQL语法的常用配置项。 表1 常用配置项 名称 默认值 描述 spark.sql.files.maxRecordsPerFile 0 要写入单个文件的最大记录数。如果该值为零或为负,则没有限制。 spark.sql.shuffle
永洪BI添加数据源 操作场景 在永洪SaaS生产环境中添加DLI的数据源。 操作步骤 在永洪SaaS生产环境主页,单击左侧导航栏中的“添加数据源”,请参见图1。 图1 添加数据源 “选择数据源类型”页面中,新建数据源类型选择“GENERIC”。请参见图2。 图2 选择数据源类型 添加数据源的相关配置,请参见图3。
创建增强型跨源连接 操作场景 使用DLI访问其他数据源的数据前,首先要通过建立增强型跨源连接打通DLI和数据源之间的网络,DLI才能够访问、导入、查询、分析其他数据源的数据。 例如:DLI连接MRS、RDS、CSS、Kafka、DWS时,需要打通DLI和对应数据源VPC之间的网络,才能实现数据互通。
约束与限制 作业相关约束限制 DLI支持的作业类型:Spark SQL、SparkJar、Flink SQL、Flink Jar DLI支持的Spark版本:Spark 3.3.1、Spark 3.1.1(EOM)、Spark 2.4.5(EOM)、Spark 2.3(EOS) DLI支持的Flink版本:Flink
地理函数 函数说明 基本地理空间几何元素介绍说明如表1所示。 表1 基本地理空间几何元素表 地理空间几何元素(统称geometry) 说明 举例 ST_POINT(latitude, longitude) 地理点,包含经度和维度两个信息。 ST_POINT(1.12012, 1.23401)
地理函数 函数说明 基本地理空间几何元素介绍说明如表1所示。 表1 基本地理空间几何元素表 地理空间几何元素(统称geometry) 说明 举例 ST_POINT(latitude, longitude) 地理点,包含经度和维度两个信息。 ST_POINT(1.12012, 1.23401)
数据湖探索简介 什么是数据湖探索 数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark、Apache Flink、Trino生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器,即开即用。
Hbase源表 功能描述 创建source流从HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析
Hbase源表 功能描述 创建source流从HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析
Hbase维表 功能描述 创建Hbase维表用于与输入流连接生成宽表。 前提条件 该场景作业需要运行在DLI的独享队列上,因此要与HBase建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。
Hbase维表 功能描述 创建Hbase维表用于与输入流连接生成宽表。 前提条件 该场景作业需要运行在DLI的独享队列上,因此要与HBase建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。
Hbase结果表 功能描述 DLI将作业的输出数据输出到HBase中。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,
Hbase结果表 功能描述 DLI将作业的输出数据输出到HBase中。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,