检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Spark作业跨源访问数据源 概述 对接CSS 对接DWS 对接HBase 对接OpenTSDB 对接RDS 对接Redis 对接Mongo 父主题: Spark Jar作业开发指南
LakeFormation是企业级一站式湖仓构建服务,提供元数据统一管理能力,支持无缝对接多种计算引擎及大数据云服务,便捷高效地构建数据湖和运营相关业务,加速释放业务数据价值。 在DLI的Spark作业和SQL作业场景,支持对接LakeFormation实现元数据的统一管理,本节操作介绍配置DLI与L
DLI是否支持导入其他租户共享OBS桶的数据? DLI支持将同一个租户下子账户共享OBS桶中的数据导入,但是租户级别共享OBS桶中的数据无法导入。 DLI不支持导入其他租户共享的OBS桶中的数据,主要是为了确保数据的安全性和数据隔离。 对于需要跨租户共享和分析数据的场景,建议先将数据脱敏后上传到OBS
class_name [USING resource,...] resource: : JAR file_uri 注意事项 如果在数据库中存在同名的函数,系统将会报错。 只支持Hive语法创建函数。 请注意避免该场景:如果创建的自定义函数F1指定类C1,程序包名JAR1,
签将很容易帮助您对不同的应用进行使用量分析和成本核算。 对DLI来说,标签用于标识购买的队列和创建数据库,对购买的DLI队列和数据库进行分类。为队列或数据库添加标签时,该队列或数据库上所有请求产生的计费话单里都会带上这些标签,您可以针对话单报表做分类筛选,进行更详细的成本分析。
行,即为数据倾斜的情况。 图1 数据倾斜样例 常见数据倾斜场景 Group By聚合倾斜 在执行Group By聚合操作时,如果某些分组键对应的数据量特别大,而其他分组键对应的数据量很小,在聚合过程中,数据量大的分组会占用更多的计算资源和时间,导致处理速度变慢,出现数据倾斜。 JOIN
password 是 无 String MySQL数据库的密码。 database-name 是 无 String 访问的数据库名称。 数据库名称支持正则表达式以读取多个数据库的数据,例如flink(.)*表示以flink开头的数据库名。 table-name 是 无 String
和DDS数据源的密码信息存储到DLI,无需在SQL作业中配置账号密码,安全访问DWS、RDS、DDS、DCS数据源。 Password类型跨源认证支持连接的数据源 Password类型跨源认证支持连接的数据源如表1所示。 表1 Password类型跨源认证支持连接的数据源 作业类型
步骤3:外部数据源的安全组添加放通DLI队列网段的规则 登录VPC控制台。 在左侧导航树选择“访问控制 > 安全组”。 单击外部数据源所属的安全组名称,进入安全组详情界面。 您可以在对应数据源的管理控制台,参考步骤1:获取外部数据源的内网IP、端口和安全组获取对应数据源的安全组名称。
IMPORT:导入数据到DLI的作业。 EXPORT:从DLI导出数据的作业。 DCL:包括传统DCL,以及队列权限相关的操作。 DDL:与传统DDL操作一致,即创建和删除数据库,创建和删除表的作业。 QUERY:执行SQL查询数据的作业。 INSERT:执行SQL插入数据的作业。 UPDATE:更新数据。
RDS表有自增主键时怎样在DLI插入数据? 在DLI中创建关联RDS表时,如果RDS表包含自增主键或其他自动填充字段,您在DLI中插入数据时可以采取以下措施: 插入数据时省略自增字段:在DLI中插入数据时,对于自增主键字段或其他自动填充的字段,您可以在插入语句中省略这些字段。数据库会自动为这些字段
如果被授权的项目属于相同区域(region)的同一用户,则需使用当前账号切换到对应的项目下。 应用示例 项目B需要访问项目A上的数据源,对应操作如下。 对于项目A: 使用项目A对应的账号登录DLI服务。 通过对应数据源的VPC信息在DLI服务中创建增强型跨源连接“ds”。 将增强型跨源连接“ds”授权给项目B。
您使用“数据加密服务DEW”或“DLI提供的跨源认证方式”来存储数据源的认证信息。 数据加密服务(Data Encryption Workshop, DEW)是一个综合的云上数据加密服务,为您解决数据安全、密钥安全、密钥管理复杂等问题。推荐使用数据加密服务DEW来存储数据源的认证信息。
在DLI控制台修改数据库所有者 在实际使用过程中,开发人员创建了数据库和表,交给测试人员进行测试,测试人员测试完成后,再交给运维人员进行体验,在这种情况下,可以通过修改数据库的所有者,将数据转移给其他所有者。 修改数据库所有者 修改数据库所有者的入口有两个,分别在“数据管理”和“SQL编辑器”页面。
uth_name关联跨源认证。 Kerberos类型跨源认证支持连接的数据源 Kerberos类型跨源认证支持连接的数据源如表1所示。 表1 Kerberos类型跨源认证支持连接的数据源 作业类型 表类型 数据源 约束与限制 Flink OpenSource SQL 源表 HBase
Studio中,数据开发是一个一站式的大数据协同开发平台,提供全托管的大数据调度能力。它可管理多种大数据服务,极大降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。 通过数据治理中心的DLI SQL节点传递SQL语句到DLI中执行,请参考《DLI SQL》。 通过数据治理中心的DLI
单击“确定”,驱动设置完成。 步骤2:测试连接数据库 在DBeaver客户端单击“数据库 > 新建数据库连接”,选择步骤1:在DBeaver新建DLI JDBC驱动中创建的数据驱动。 图4 新建数据库连接 单击“完成”,即可连接到DLI。在“数据库导航”栏可查看到连接的数据库信息。 通过新建的连接即可对DLI执行后续的数据查询相关工作。
SaaS生产环境主页,单击左侧导航栏中的“创建数据集”。 图2 创建数据集 在“数据集类型”页面中,选择创建“SQL数据集”,请参见图3。 图3 创建SQL数据集 在“创建数据集”页面中,左侧“数据源”栏选择已添加的DLI数据源,请参见图4。 图4 选择数据源 左侧“表”栏中单击右键,刷新表,将列出所有数据库及数据库
通弹性资源池的网段。 获取共享VPC下数据源的私有内网IP和端口。 以RDS数据源为例:在RDS控制台“实例管理”页面,单击对应实例名称,查看“连接信息”>“内网地址”,即可获取RDS内网地址。查看“连接信息”>“数据库端口”,获取RDS数据库实例端口。 在DLI管理控制台,单击“资源管理
怎样配置DLI队列与数据源的网络连通? 配置DLI队列与内网数据源的网络连通 DLI在创建运行作业需要连接外部其他数据源,如:DLI连接MRS、RDS、CSS、Kafka、DWS时,需要打通DLI和外部数据源之间的网络。 DLI提供的增强型跨源连接功能,底层采用对等连接的方式打通