检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Shuffle的数据倾斜基本是由于join中的key值数量不均衡导致。 对join连接条件进行group by 和count,统计每个连接条件的key值的数量。示例如下: lefttbl表和righttbl表进行join关联,其中lefttbl表的num为连接条件的key值。则可以对lefttbl.num进行group
指定数据库: “表结构模式”可填写需访问的数据库名称,如果填写,后续创建数据集时,刷新表,页面上只可见该数据库下的表。如果不填写,后续创建数据集时,刷新表,页面上会显示所有数据库下的表。 其他选项不需要填写,也无需勾选“需要登录”选项。 图1 添加数据源配置 表2 数据库连接参数
约束和限制 表1 增强型跨源连接约束限制 限制项 说明 适用场景约束限制 在同一队列中,如果同时使用了经典型跨源连接和增强型跨源连接,则经典型跨源连接优先于增强型跨源连接。推荐使用增强型跨源连接。 DLI提供的default队列不支持创建跨源连接。 Flink作业访问DIS,O
DLI中SQL语句与数据库、表、角色相关的权限矩阵如表1所示。 表1 权限矩阵 分类 SQL语句 权限 说明 Database DROP DATABASE db1 database.db1的DROP_DATABASE权限 - CREATE TABLE tb1(...) database.db1的CREATE_TABLE权限
前提条件 该场景作业需要运行在DLI的独享队列上,因此要与Doris建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。 如果使用MRS
(可选)步骤三:创建增强型跨源连接 本示例演示的操作需要跨源连接RDS外部数据源,所以需要创建跨源连接。如果作业不需要连接外部数据源,则该步骤可以跳过。 登录RDS控制台,创建RDS数据库实例。 具体操作请参见购买RDS for MySQL实例。 登录RDS实例后,单击“新建数据库”,创建名称为“test2”的数据库。
该场景作业需要运行在DLI的独享队列上,因此在DLI上要与OpenTSDB建立增强型跨源连接,且用户可以根据实际所需设置相应的安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。 语法格式 create
= 'jdbc:mysql://MySQLAddress:MySQLPort/flink',--其中url中的flink表示MySQL中orders表所在的数据库名 'table-name' = 'orders', 'username' = 'MySQLUsername'
表继承数据库权限后,对表重复赋予已继承的权限会报错吗? 当表继承了数据库的权限时,无需重复对表赋予已继承的权限。 因为继承的权限已经足够使用,重复授权还可能导致表权限管理上的混乱。 在控制台操作表权限时: 如果“用户授权”赋予表的权限与继承权限相同,系统会提示已有该权限无需重复操作。
Format的元数据只有在相应的连接器使用元数据时才可用。目前,只有Kafka连接器。 表2 元数据 Key 数据类型 说明 database STRING NULL 源数据库。对应于Canal记录中的database字段(如果可用)。 table STRING NULL 源数据库表。对应于Canal中的table字段(如果可用)。
connector.url 是 数据库的URL connector.table 是 读取数据库中的数据所在的表名 connector.driver 否 连接数据库所需要的驱动。若未配置,则会自动通过URL提取 connector.username 否 数据库认证用户名,需要和'connector
INSERT/UPDATE/DELETE 消息到 Flink SQL 系统中。在许多情况下,这对于利用此功能很有用。 例如: 将数据库中的增量数据同步到其他系统 审计日志 数据库的实时物化视图 临时连接更改数据库表的历史等等。 Flink 还支持将 Flink SQL 中的 INSERT/UPDATE/DELETE
当前仅支持连接LakeFormation默认实例的数据目录。 描述 否 自定义数据目录的描述信息。 单击“确定”创建数据目录。 步骤4:授权使用LakeFormation资源 SQL作业场景 在进行SQL作业提交之前,需完成LakeFormation元数据、数据库、表、列和函数
url 是 数据库的URL。 table-name 是 读取数据库中的数据所在的表名。 driver 否 连接数据库所需要的驱动。若未配置,则会自动通过URL提取。 username 否 数据库认证用户名,需要和'password'一起配置。 password 否 数据库认证密码,需要和'username'一起配置。
如何合并小文件 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 推荐使用临时表进行数据中转 自读自写在突发异常场景下存在数据丢失的风险 执行SQL: INSERT OVERWRITE TABLE tablename select
不包含这个字段,数据库会自动为新插入的行分配一个唯一的id值。 使用NULL值:如果您需要在插入数据时明确指定某些字段由数据库自动填充,可以在这些字段的位置填写NULL。这样,数据库会识别到这些字段应该由系统自动生成值,而不是由用户指定。 父主题: 增强型跨源连接类
VARCHAR ); 步骤4:创建增强型跨源连接 创建DLI连接RDS的增强型跨源连接 在RDS管理控制台,选择“实例管理”,单击对应的RDS实例名称,进入到RDS的基本信息页面。 在“基本信息”的“连接信息”中获取该实例的“内网地址”、“数据库端口”、“虚拟私有云”和“子网”信息,方便后续操作步骤使用。
SS_META) 解决方案 需要给执行作业的用户赋数据库的操作权限,具体操作参考如下: 在DLI管理控制台左侧,单击“数据管理”>“库表管理”。 单击所选数据库“操作”栏中的“权限管理”,将显示该数据库对应的权限信息。 在数据库权限管理页面右上角单击“授权”。 在“授权”弹出框中
SCHEMA 语法 DROP (DATABASE|SCHEMA) [IF EXISTS] databasename [RESTRICT|CASCADE] 描述 从Catalog中删除指定的数据库,如果数据库中包含表,则必须在执行DROP DATABASE之前删除这些表,或者使用CASCADE模式。
pyspark样例代码 java样例代码 - - RDS MySQL 创建RDS关联表 插入数据 查询数据 scala样例代码 pyspark样例代码 java样例代码 MySQL CDC源表 - RDS PostGre 创建RDS关联表 插入数据 查询数据 scala样例代码 pyspark样例代码