检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark作业相关 完整样例代码和依赖包说明请参考:Python SDK概述。 提交批处理作业 DLI提供执行批处理作业的接口。您可以使用该接口执行批处理作业。示例代码如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
DLI是否支持导入其他租户共享OBS桶的数据? DLI支持将同一个租户下子账户共享OBS桶中的数据导入,但是租户级别共享OBS桶中的数据无法导入。 DLI不支持导入其他租户共享的OBS桶中的数据,主要是为了确保数据的安全性和数据隔离。 对于需要跨租户共享和分析数据的场景,建议先将数据脱敏后上传到OBS
如何使用API通过公网访问DLI? DLI域名公网访问请使用域名访问:dli.{regionid}.myhuaweicloud.com 数据湖探索的终端节点请参考终端节点。 数据湖探索API请参考:数据湖探索API。 DLI自定义的Spark3.1.1镜像,需要把第三方依赖jar放到哪个路径下呢? DLI自定义的Spark3
OpenTSDB是基于HBase分布式的 ,可伸缩的时间序列数据库。OpenTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性,可用于系统监控和测量、物联网数据、金融数据和科学实验结果数据的收集监控。 DLI可以通过增强型跨源
DLI跨源分析场景连接外部数据源时,由于数据源的VPC与DLI VPC不同,网络无法连通,导致DLI无法读取数据源数据。DLI提供的增强型跨源连接功能可以实现DLI与数据源的网络连通。 本节操作为您介绍跨VPC的数据源网络连通方案: 创建增强型跨源连接:采用对等连接的方式打通DLI与数据源的VPC网络。
使用DLI访问其他数据源的数据前,首先要通过建立增强型跨源连接打通DLI和数据源之间的网络,DLI才能够访问、导入、查询、分析其他数据源的数据。 例如:DLI连接MRS、RDS、CSS、Kafka、DWS时,需要打通DLI和对应数据源VPC之间的网络,才能实现数据互通。 本节操作介
接状态。 增强型跨源创建后状态为“已激活”,但不能说明队列和数据源已连通。建议前往队列管理页面测试数据源网络是否打通。操作步骤如下: 在队列管理页面选择队列。 单击“操作”列中的“更多 > 测试地址连通性”。 输入数据源的“IP:端口”测试网络连通性。 在增强型跨源连接的详情页可以查看对等连接的相关信息。
和DDS数据源的密码信息存储到DLI,无需在SQL作业中配置账号密码,安全访问DWS、RDS、DDS、DCS数据源。 Password类型跨源认证支持连接的数据源 Password类型跨源认证支持连接的数据源如表1所示。 表1 Password类型跨源认证支持连接的数据源 作业类型
支持基于作业优先级动态调整作业的使用资源。 仅支持YARN集群。 上下游数据连接 除了开源connector之外,还提供开箱即用的connector,包括数据库(RDS、GaussDB)、消息队列(DMS)、数据仓库(DWS)、对象存储(OBS) 相比开源connector有较多易用性和稳定性提升。
行,即为数据倾斜的情况。 图1 数据倾斜样例 常见数据倾斜场景 Group By聚合倾斜 在执行Group By聚合操作时,如果某些分组键对应的数据量特别大,而其他分组键对应的数据量很小,在聚合过程中,数据量大的分组会占用更多的计算资源和时间,导致处理速度变慢,出现数据倾斜。 JOIN
如果被授权的项目属于相同区域(region)的同一用户,则需使用当前账号切换到对应的项目下。 应用示例 项目B需要访问项目A上的数据源,对应操作如下。 对于项目A: 使用项目A对应的账号登录DLI服务。 通过对应数据源的VPC信息在DLI服务中创建增强型跨源连接“ds”。 将增强型跨源连接“ds”授权给项目B。
SQL作业只能在队列类型为“SQL队列”下执行。 数据目录 数据目录(Catalog)是元数据管理对象,它可以包含多个数据库。 您可以在DLI中创建并管理多个Catalog,用于不同的元数据隔离。 数据库 下拉选择需要使用的数据库。如果没有可用数据库,此处显示“default”默认数据库。数据库创建操作详见在DLI控制台创建数据库和表。
通弹性资源池的网段。 获取共享VPC下数据源的私有内网IP和端口。 以RDS数据源为例:在RDS控制台“实例管理”页面,单击对应实例名称,查看“连接信息”>“内网地址”,即可获取RDS内网地址。查看“连接信息”>“数据库端口”,获取RDS数据库实例端口。 在DLI管理控制台,单击“资源管理
配置DLI与数据源网络连通(增强型跨源连接) 增强型跨源连接概述 创建增强型跨源连接 建立DLI与共享VPC中资源的网络连接 DLI常用跨源分析开发方式 父主题: 配置DLI读写外部数据源数据
uth_name关联跨源认证。 Kerberos类型跨源认证支持连接的数据源 Kerberos类型跨源认证支持连接的数据源如表1所示。 表1 Kerberos类型跨源认证支持连接的数据源 作业类型 表类型 数据源 约束与限制 Flink OpenSource SQL 源表 HBase
使用DLI的跨源认证管理数据源访问凭证 跨源认证概述 创建CSS类型跨源认证 创建Kerberos跨源认证 创建Kafka_SSL类型跨源认证 创建Password类型跨源认证 跨源认证权限管理 父主题: 配置DLI读写外部数据源数据
在DLI控制台修改数据库所有者 在实际使用过程中,开发人员创建了数据库和表,交给测试人员进行测试,测试人员测试完成后,再交给运维人员进行体验,在这种情况下,可以通过修改数据库的所有者,将数据转移给其他所有者。 修改数据库所有者 修改数据库所有者的入口有两个,分别在“数据管理”和“SQL编辑器”页面。
增强型跨源连接标签管理 操作场景 标签是用户自定义的、用于标识云资源的键值对,它可以帮助用户对云资源进行分类和搜索。标签由标签“键”和标签“值”组成。 如果用户在其他云服务中使用了标签,建议用户为同一个业务所使用的云资源创建相同的标签键值对以保持一致性。 如您的组织已经设定DLI
单击“确定”,驱动设置完成。 步骤2:测试连接数据库 在DBeaver客户端单击“数据库 > 新建数据库连接”,选择步骤1:在DBeaver新建DLI JDBC驱动中创建的数据驱动。 图4 新建数据库连接 单击“完成”,即可连接到DLI。在“数据库导航”栏可查看到连接的数据库信息。 通过新建的连接即可对DLI执行后续的数据查询相关工作。
SaaS生产环境主页,单击左侧导航栏中的“创建数据集”。 图2 创建数据集 在“数据集类型”页面中,选择创建“SQL数据集”,请参见图3。 图3 创建SQL数据集 在“创建数据集”页面中,左侧“数据源”栏选择已添加的DLI数据源,请参见图4。 图4 选择数据源 左侧“表”栏中单击右键,刷新表,将列出所有数据库及数据库