检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置SQL防御规则 什么是SQL防御 大数据领域的SQL引擎层出不穷,在带给解决方案多样性的同时,也暴露出一定的问题,例如SQL输入语句质量良莠不齐、SQL问题难定位、大SQL语句消耗资源过多等。 低质量的SQL会对数据分析平台系统带来不可预料的冲击,影响系统的性能或者平台稳定性。
创建Kafka_SSL类型跨源认证 操作场景 通过在DLI控制台创建的Kafka_SSL类型的跨源认证,将Kafka的认证信息存储到DLI,无需在SQL作业中配置账号密码,安全访问Kafka实例。 MRS Kafka开启Kerberos认证,未开启SSL认证时,创建Kerbero
创建增强型跨源连接 功能介绍 该API用于创建与其他服务的增强型跨源连接。 如果需要了解Console界面的使用方法,可参考《数据湖探索用户指南》中的“增强型跨源连接”。 系统default队列不支持创建跨源连接。 调试 您可以在API Explorer中调试该接口。 URI URI格式
配置DLI云服务委托权限 使用DLI服务前请先配置DLI云服务权限。 本节操作适用于以下场景: 首次使用DLI服务,请参考本节操作按需配置DLI云服务委托权限。 使用DLI的过程中需要与其他云服务协同工作,因此需要您将部分服务的操作权限委托给DLI服务,确保DLI具备基本使用的权
迁移数据场景概述 为了将分散在不同系统中的数据迁移到DLI,确保数据可以在DLI集中分析和管理,您可以通过云数据迁移服务CDM等迁移工具迁移数据至DLI,再使用DLI提交作业分析数据。 CDM支持数据库、数据仓库、文件等多种类型的数据源,通过可视化界面对数据源迁移任务进行配置,提高数据迁移和集成的效率。
导出SQL作业结果 导出作业结果是将SQL作业分析后的数据结果按指定格式存储到指定位置。 DLI默认将SQL作业结果存储在DLI作业桶中。同时也支持下载作业结果到本地或导出作业结果到指定的OBS桶。 导出作业结果到DLI作业桶 DLI在指定了一个默认的OBS桶作为作业结果的存储位置,请在DLI管理控制台的“全局配置
Flink Jar作业开发基础样例 概述 用户可以基于Flink的API进行二次开发,构建自己的应用Jar包,提交到DLI队列运行,实现与MRS Kafka、HBase、Hive、HDFS,DWS,DCS等数据源的交互。 本章节以通过自定义作业与MRS进行交互为例进行说明。 更多样例代码请通过DLI样例代码获取。
创建Kerberos跨源认证 操作场景 通过在DLI控制台创建的Kerberos类型的跨源认证,将数据源的认证信息存储到DLI,无需在SQL作业中配置账号密码,安全访问数据源。 MRS Kafka开启Kerberos认证,未开启SSL认证时,创建Kerberos类型的认证。建表时
MySQL CDC源表 功能描述 MySQL的CDC源表,即MySQL的流式源表,会先读取数据库的历史全量数据,并平滑切换到Binlog读取上,保证数据的完整读取。 前提条件 MySQL CDC要求MySQL版本为5.7或8.0.x。 该场景作业需要DLI与MySQL建立增强型跨
数据湖探索简介 什么是数据湖探索 数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark、Apache Flink、HetuEngine生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器,即开即用。
Doris源表 功能描述 Flink SQL作业读取Doris源表。 前提条件 该场景作业需要运行在DLI的独享队列上,因此要与Doris建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如
Hive源表 简介 Apache Hive 已经成为了数据仓库生态系统中的核心。 它不仅仅是一个用于大数据分析和ETL场景的SQL引擎,同样它也是一个数据管理平台,可用于发现,定义,和演化数据。 Flink与Hive的集成包含两个层面,一是利用了Hive的MetaStore作为持
ClickHouse结果表 功能描述 DLI支持将Flink作业数据输出到ClickHouse数据库中。ClickHouse是面向联机分析处理的列式数据库,支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。详细请参考ClickHouse组件操作。
DLI对接LakeFormation 操作场景 LakeFormation是企业级一站式湖仓构建服务,提供元数据统一管理能力,支持无缝对接多种计算引擎及大数据云服务,使客户便捷高效地构建数据湖和运营相关业务,加速释放业务数据价值。 在Spark作业和SQL作业场景,支持对接Lak
约束与限制 弹性资源池约束限制 更多弹性资源池约束限制请参考弹性资源池使用约束限制。 表1 弹性资源池约束限制 限制项 说明 资源规格 当前弹性资源池最大的计算资源 32000CUs。 弹性资源池中可创建队列的最小CU: 通用队列:4CUs SQL队列:Spark SQL队列:8CUs;HetuEngine
ClickHouse 功能描述 DLI支持将Flink作业数据输出到ClickHouse数据库中,表类型仅支持结果表。 ClickHouse是面向联机分析处理的列式数据库,支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级