检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
并行导入 GaussDB(DWS)提供了并行导入功能,以快速、高效地完成大量数据导入。介绍GaussDB(DWS)并行导入的相关参数。 raise_errors_if_no_files 参数说明:导入时是否区分“导入文件记录数为空”和“导入文件不存在”。raise_errors_
已创建虚拟私有云和子网,参见创建虚拟私有云和子网。 步骤一:准备MySQL数据 购买RDS实例,参见表1配置关键参数,其他参数可保持默认,如需了解详情请参见RDS文档。 表1 RDS参数 参数项 取值 计费模式 按需计费 区域 华北-北京四 实例名称 rds-demo 数据库引擎 MySQL 数据库版本 5.7及以上
接口,支持将limit和where条件下推到数据库执行。 使用DWS-Connector做结果表时,SQL语法格式可能在不同Flink环境下有细微差异,具体以事件环境格式为准。 详情请参见做源表、做结果表和做维表。 父主题: Flink SQL作业类型
Flink SQL作业类型 Flink SQL概述 做源表 做结果表 做维表 父主题: dws-connector-flink
步骤五:准备DWS对接Flink工具dws-connector-flink dws-connector-flink是一款基于DWS JDBC接口实现对接Flink的一个工具。在配置DLI作业阶段,将该工具及依赖放入Flink类加载目录,提升Flink作业入库DWS的能力。 浏
dws-connector-flink 引入依赖 Stream API作业类型 Flink SQL作业类型 父主题: DWS-Connector
置一致。 使用dws-connector-flink的Sink能力来写入Binlog数据的话,需要注意以下几点: 如果需要保证DN内的数据写入顺序则需要设置connectionSize设置为1。 如果源端有更新主键操作或者需要flink进行聚合计算的话,将ignoreUpdate
为会先删除再写入数据。 true 使用flink SQL直连DN入库 该能力依赖flink sql DISTRIBUTEBY能力,mrs有提供此能力,具体请参见Flink SQL语法增强。 connector提供udf函数可根据分布列值计算出下游并并发结合flink sql DI
'username' = '', 'password' = '' ); 参数说明 表1 数据库配置 参数 说明 默认值 connector flink框架区分connector参数,固定为dws。 - url 数据库连接地址。 - username 配置连接用户。 - password
MySQL配置 设置MySQL配置参数可在迁移MySQL数据库脚本时自定义迁移工具的行为。 打开config文件夹中的features-mysql.properties文件,并根据实际需要设置features-mysql.properties文件中的配置参数中的参数。 表1 features-mysql
要在相同的兼容模式下操作。 例如:在MySQL兼容模式下导入(导出)的数据,同样需要在MySQL兼容模式下才能正确导出(导入)。 概述 在数据迁移、ETL(Extract-Transform-Load)过程中,需要向GaussDB(DWS)并行导入海量数据,使用普通方式会耗费大量
了解Kafka请参见分布式消息服务Kafka产品介绍。 图1 Kafka实时入库DWS 具体操作请参见通过DLI Flink作业将Kafka数据实时写入DWS。 父主题: 实时入库
体性能,api为com.huaweicloud.dws.connectors.flink.partition.DnPartitioner,使用示例如下: 使用功能时必须满足源端并行度不高于sink端并行度,因为内部会通过dws client实例获取表的元数据信息,以确保每个上游并发均能获取client实例。
MySQL SQL迁移 工具支持从MySQL到GaussDB(DWS)的迁移,包括模式、DML、查询、系统函数、PL/SQL等。 在LINUX中执行MySQL迁移 在Linux中执行以下命令开始迁移。用户需指定源数据库、输入和输出文件夹路径和日志路径;应用程序语言类型是SQL。
'password' = '' ); 参数说明 表1 数据库配置 参数 说明 默认值 connector flink框架区分Connector参数,固定为dws。 - url 数据库连接地址。 - username 配置连接用户。 - password 数据库用户密码。 - 表2 连接配置参数 参数
例如:在MySQL兼容模式下导入(导出)的数据,同样需要在MySQL兼容模式下才能正确导出(导入)。 概述 并行导入将存储在服务器普通文件系统中的数据导入到GaussDB(DWS)数据库中。暂时不支持将存储在HDFS文件系统上的数据导入GaussDB(DWS)。 并行导入功能通
1.0.7 数据库重启中写入数据失败后支持重试。 增加as方式创建临时表,解决在有主键表无法使用copy merge/upsert的问题。 数据库字段适配为默认大小写不敏感。 Flink SQL增加打印主键参数,用于分析数据缺失时排查问题。 - 1.0.8 修复Flink SQL主键配置必须大小写和数据库一致问题。
MySQL语法迁移 支持的关键词和特性 数据类型 函数和表达式 表(可选参数、操作) 索引 注释 数据库 数据操作语句(DML) 事务管理和数据库管理 父主题: DSC
SQL方式引入 在使用Flink SQL时需要将dws-connector-flink包及其依赖放入flink类加载目录,从1.0.3版本开始已经将带有依赖的包发布至maven仓库,使用时可直接在仓库下载使用: 选择匹配flink环境的包。 图1 Flink包 进入软件包详情页面。 图2
Oracle、Teradata和MySQL语法兼容性差异 GaussDB(DWS)支持Oracle、Teradata和MySQL三种兼容模式,分别兼容Oracle、Teradata和MySQL语法,不同兼容模式下的语法行为有一些差异。 数据库兼容模型可以在创建数据库时指定(由DB