搜索_华为云

如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 - 数据湖探索 DLI

如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度操作场景 Spark作业在执行shuffle类语句，包括group by、join等场景时，常常会出现数据倾斜的问题，导致作业任务执行缓慢。该问题可以通过设置spark.sql.shuffle

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
将Spark作业结果存储在MySQL数据库中，缺少pymysql模块，如何使用python脚本访问MySQL数据库？ - 数据湖探索 DLI

aegg包所在的OBS路径。分组设置和分组名称根据情况选择。单击“确定”完成程序包上传。在报错的Spark作业编辑页面，“依赖python文件”处选择已上传的egg程序包，重新运行Spark作业。 pyspark作业对接MySQL，需要创建跨源链接，打通DLI和RDS之间的网络。

帮助中心 > 数据湖探索 DLI > 常见问题 > Spark作业相类 > Spark作业开发类
使用DLI提交SQL作业查询RDS MySQL数据 - 数据湖探索 DLI

连接名称：dlirds 弹性资源池：选择步骤3：创建弹性资源池并添加队列中创建的弹性资源池。虚拟私有云：选择MySQL 实例所在的VPC，即步骤2：创建RDS数据库表中选择的VPC。子网：选择MySQL 实例所在的子网，即步骤2：创建RDS数据库表中选择的子网。在RDS控制台“实

 帮助中心 > 数据湖探索 DLI > 快速入门
设置SQL作业优先级 - 数据湖探索 DLI

设置SQL作业优先级操作场景在实际作业运行中，由于作业的重要程度以及紧急程度不同，需要重点保障重要和紧急的作业正常运行，因此需要满足它们正常运行所需的计算资源。 DLI提供的设置作业优先级功能，可以对每个SQL设置作业优先级，当资源不充足时，可以优先满足优先级较高的作业的计算资源。

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交SQL作业
使用DLI提交Flink OpenSource SQL作业查询RDS MySQL数据 - 数据湖探索 DLI

步骤6：创建DLI连接RDS的增强型跨源连接在RDS的安全组上放通DLI队列网段。如果RDS和Kafka在同一VPC下的同一安全组，则无需重复执行此步骤，在步骤1中已在该安全组放通DLI的队列网段。在RDS管理控制台，选择“实例管理”，单击对应的RDS实例名称，进入到RDS的基本信息页面。

帮助中心 > 数据湖探索 DLI > 快速入门
Flink Opensource SQL从RDS数据库读取的时间和RDS数据库存储的时间为什么会不一致？ - 数据湖探索 DLI

SQL从RDS数据库读取的时间和RDS数据库存储的时间为什么会不一致？问题描述 Flink Opensource SQL从RDS数据库读取的时间和RDS数据库存储的时间为不一致根因分析该问题的根因是数据库设置的时区不合理，通常该问题出现时Flink读取的时间和RDS数据库的时间会相差13小时。

帮助中心 > 数据湖探索 DLI > 常见问题 > Flink作业类 > Flink SQL作业类
MySQL CDC源表 - 数据湖探索 DLI
MySQL CDC源表 - 数据湖探索 DLI

该示例是利用MySQL-CDC实时读取RDS MySQL中的数据，并写入到Print结果表中，其具体步骤如下（本示例使用RDS MySQL数据库引擎版本为MySQL 5.7.32）。参考增强型跨源连接，根据MySQL所在的虚拟私有云和子网创建相应的增强型跨源，并绑定所要使用的Flink弹性资源池。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.12语法参考 > 数据定义语句DDL > 创建源表
MySql CDC - 数据湖探索 DLI
MySql CDC - 数据湖探索 DLI

为每个Reader设置不同的Server ID 每个用于读取Binlog的MySQL客户端都应该有一个唯一的Server ID，确保MySQL服务器能够区分不同的客户端并维护各自的Binlog读取位置。如果不同的作业共享相同的Server ID，可能会导致从错误的Binlog位置读取数据，从而引发数据不一致的问题。

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表
队列属性设置 - 数据湖探索 DLI

队列属性设置操作场景 DLI支持在队列创建完成后设置队列的属性。当前支持设置队列的Spark driver的相关参数：通过设置队列的Spark driver，以提升队列资源的调度效率。本节操作介绍在管理控制台设置队列属性的操作步骤。约束与限制仅Spark引擎的SQL队列支持配置队列属性。

帮助中心 > 数据湖探索 DLI > 用户指南 > 创建弹性资源池和队列 > 管理队列
设置普通队列的弹性扩缩容定时任务 - 数据湖探索 DLI

设置普通队列的弹性扩缩容定时任务弹性扩缩容定时任务使用场景通常，用户业务繁忙的场景是有周期性的，在某个周期内，用户需要更多的计算资源来处理业务，过了这个周期，则不需要那么多资源。如果用户购买的队列规格比较小，在业务繁忙时会存在资源不足的情况；而如果购买的队列规格比较大，又可能会存在资源浪费的情况。

帮助中心 > 数据湖探索 DLI > 用户指南 > 创建弹性资源池和队列 > 管理队列
从MySQL CDC源表读取数据写入到DWS - 数据湖探索 DLI

BY）、多表的关联（JOIN）等。本示例通过创建MySQL CDC源表来监控MySQL的数据变化，并将变化的数据信息插入到DWS数据库中。前提条件已创建RDS MySQL实例。本示例创建的RDS MySQL数据库版本选择为：8.0。具体步骤可参考购买RDS for MySQL实例。

帮助中心 > 数据湖探索 DLI > 开发指南 > Flink作业开发指南 > Flink OpenSource SQL作业开发
创建Spark作业 - 数据湖探索 DLI
创建Spark作业 - 数据湖探索 DLI

作业名称（--name）设置作业名称。应用程序选择需要执行的程序包。包括“.jar”和“.py”两种类型。 Jar包的管理方式：上传OBS管理程序包：提前将对应的jar包上传至OBS桶中。并在此处选择对应的OBS路径。上传DLI管理程序包：提前将对应的jar包上传至OBS桶

 帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业
创建DLI表关联RDS - 数据湖探索 DLI

读取数据时，每一批次获取数据的记录数，默认值1000。设置越大性能越好，但占用内存越多，该值设置过大会有内存溢出的风险。 batchsize 写入数据时，每一批次写入数据的记录数，默认值1000。设置越大性能越好，但占用内存越多，该值设置过大会有内存溢出的风险。 truncate

帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 跨源连接相关 > 跨源连接RDS表
Spark异步任务执行表compaction参数设置规范 - 数据湖探索 DLI

compaction命令时，禁止将hoodie.run.compact.only.inline设置成false，该值需要设置成true。错误示例：配置参数 hoodie.run.compact.only.inline=false 随后执行SQL run compaction on

帮助中心 > 数据湖探索 DLI > Hudi SQL语法参考 > DLI Hudi开发规范 > Spark on Hudi开发规范
设置Spark作业优先级 - 数据湖探索 DLI

的作业的计算资源。 Spark 2.4.5及以上版本的作业支持设置作业优先级。使用须知对于每个作业都允许设置优先级，其取值为1-10，数值越大表示优先级越高。优先满足高优先级作业的计算资源，即如果高优先级作业计算资源不足，则会减少低优先级作业的计算资源通用队列上运行的Spark作业的优先级默认为3。

帮助中心 > 数据湖探索 DLI > 用户指南 > 使用DLI提交Spark作业
设置多版本备份数据保留周期 - 数据湖探索 DLI

加key/value的属性。参数说明表1 参数说明参数描述 db_name 数据库名称，由字母、数字和下划线（_）组成。不能是纯数字，且不能以数字和下划线开头。 table_name 表名称。 days 多版本中备份数据保留的日期。默认为7天，建议设置在1到7天范围内。注意事项

 帮助中心 > 数据湖探索 DLI > Spark SQL语法参考 > 表相关 > 多版本备份恢复数据
JDBC结果表 - 数据湖探索 DLI
JDBC结果表 - 数据湖探索 DLI

connector.url 是数据库的URL connector.table 是读取数据库中的数据所在的表名 connector.driver 否连接数据库所需要的驱动。若未配置，则会自动通过URL提取 connector.username 否访问数据库所需要的账号 connector

帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.10语法参考 > 数据定义语句DDL > 创建结果表
DLI Flink与MRS Flink有什么区别？ - 数据湖探索 DLI

DLI Flink是天然的云原生基础架构。在内核引擎上DLI Flink进行了多处核心功能的优化，并且提供了企业级的一站式开发平台，自带开发和运维功能，免除自建集群运维的麻烦；在connector方面除了支持开源connector之外，还可以对接云上Mysql、GaussDB、MRS

帮助中心 > 数据湖探索 DLI > 常见问题 > DLI产品咨询类
JDBC - 数据湖探索 DLI
JDBC - 数据湖探索 DLI

二者生成的表信息写入Print结果表中。参考增强型跨源连接，根据RDS MySQL所在的虚拟私有云和子网创建相应的增强型跨源，并绑定所要使用的Flink弹性资源池。设置RDS MySQL的安全组，添加入向规则使其对Flink的队列网段放通。参考测试地址连通性根RDS的地址测试

 帮助中心 > 数据湖探索 DLI > Flink SQL语法参考 > Flink Opensource SQL1.15语法参考 > Connector列表
Flink Opensource SQL使用DEW管理访问凭据 - 数据湖探索 DLI

号v1的的通用凭证，定义凭证值的键MySQLUsername，它的值为用户的敏感信息。 'password' = 'MySQLPassword', -- DEW服务中，名称为secretInfo，且版本号v1的的通用凭证，定义凭证值的键MySQLPassword，它的值为用户的敏感信息。

帮助中心 > 数据湖探索 DLI > 开发指南 > Flink作业开发指南 > Flink作业委托场景开发指导

总条数： 790

上一页
1
2
3
4
5
...
40
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何通过JDBC设置spark.sql.shuffle.partitions参数提高并行度 - 数据湖探索 DLI

将Spark作业结果存储在MySQL数据库中，缺少pymysql模块，如何使用python脚本访问MySQL数据库？ - 数据湖探索 DLI

使用DLI提交SQL作业查询RDS MySQL数据 - 数据湖探索 DLI

设置SQL作业优先级 - 数据湖探索 DLI

使用DLI提交Flink OpenSource SQL作业查询RDS MySQL数据 - 数据湖探索 DLI

Flink Opensource SQL从RDS数据库读取的时间和RDS数据库存储的时间为什么会不一致？ - 数据湖探索 DLI

MySQL CDC源表 - 数据湖探索 DLI

MySql CDC - 数据湖探索 DLI

队列属性设置 - 数据湖探索 DLI

设置普通队列的弹性扩缩容定时任务 - 数据湖探索 DLI

从MySQL CDC源表读取数据写入到DWS - 数据湖探索 DLI

创建Spark作业 - 数据湖探索 DLI

创建DLI表关联RDS - 数据湖探索 DLI

Spark异步任务执行表compaction参数设置规范 - 数据湖探索 DLI

设置Spark作业优先级 - 数据湖探索 DLI

设置多版本备份数据保留周期 - 数据湖探索 DLI

JDBC结果表 - 数据湖探索 DLI

DLI Flink与MRS Flink有什么区别？ - 数据湖探索 DLI

JDBC - 数据湖探索 DLI

Flink Opensource SQL使用DEW管理访问凭据 - 数据湖探索 DLI

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线