云服务器内容精选

  • 前提条件 集群已安装CDL、Hudi服务且运行正常。 PgSQL数据库需要开启前置要求,操作步骤请参考PostgreSQL数据库修改预写日志的策略。 在 FusionInsight Manager中创建一个人机用户,例如“cdluser”,加入用户组cdladmin、hadoop、kafka、supergroup,主组选择“cdladmin”组,关联角色“System_administrator”。
  • 前提条件 已获取待连接数据库对应的驱动Jar包。 仅数据源MySQL、Oracle( MRS 3.3.0及之后版本支持)需要上传相应的驱动,驱动对应的版本号如表1所示,且驱动需要在MySQL或Oracle官网下载。 表1 MySQL、Oracle数据源支持的驱动 数据源 支持的驱动包 MySQL mysql-connector-java-8.0.24.jar Oracle(MRS 3.3.0及之后版本支持) ojdbc8-12.2.0.1.jar 此处Oracle仅作为ThirdKafka数据源使用。 开启Kerberos认证的集群需已参考CDL用户权限管理创建具有CDL管理操作权限的用户。
  • CDL同步任务支持的数据类型及映射关系 主要介绍CDL同步任务支持的数据类型,以及源端数据库数据类型跟Spark数据类型的映射关系。 表3 PgSQL和Spark数据类型映射关系 PostgreSQL数据类型 Spark(Hudi)数据类型 int2 int int4 int int8 bigint numeric(p, s) decimal[p,s] bool boolean char string varchar string text string timestamptz timestamp timestamp timestamp date date json, jsonb string float4 float float8 double 表4 MySQL和Spark数据类型映射关系 MySQL数据类型 Spark(Hudi)数据类型 int int integer int bigint bigint double double decimal[p,s] decimal[p,s] varchar string char string text string timestamp timestamp datetime timestamp date date json string float double 表5 Ogg/Ogg Oracle Avro(MRS 3.3.0及之后版本)和Spark数据类型映射关系 Oracle数据类型 Spark(Hudi)数据类型 NUMBER(3),NUMBER(5) bigint INTEGER decimal NUMBER(20) decimal NUMBER decimal BINARY_DOUBLE double CHAR string VARCHAR string TIMESTAMP, DATETIME timestamp timestamp with time zone timestamp DATE timestamp 表6 DRS Opengauss Json和Spark数据类型映射关系(MRS 3.3.0及之后版本支持) Opengauss Json数据类型 Spark(Hudi)数据类型 int2 int int4 int int8 bigint numeric(p,s) decimal[p,s] bool boolean varchar string timestamp timestamp timestampz timestamp date date jsonb string json string float4 float float8 duble text string 表7 DRS Oracle Json和Spark数据类型映射关系(MRS 3.3.0及之后版本支持) Oracle Json数据类型 Spark(Hudi)数据类型 number(p,s) decimal[p,s] binary double double char string varchar2 string nvarchar2 string timestamp timestamp timestamp with time zone timestamp date timestamp 表8 DRS Oracle Avro和Spark数据类型映射关系(MRS 3.3.0及之后版本支持) Oracle Avro数据类型 Spark(Hudi)数据类型 nuber[p,s] decimal[p,s] flaot(p) float binary_double double char(p) string varchar2(p) string timestamp(p) timestamp date timestamp 表9 openGauss和Spark数据类型映射关系(MRS 3.3.0及之后版本支持) Opengauss数据类型 Spark(Hudi)数据类型 int1 int int2 int int4 int int8 bigint numeric(p,s) decimal[p,s] bool boolean char string bpchar string nvarchar2 string text string date date timestamp timestamp timestampz timestamp json string jsonb string float4 float float8 double real float 表10 Spark(Hudi)和DWS数据类型映射关系 Spark(Hudi)数据类型 DWS数据类型 int int long bigint float float double double decimal[p,s] decimal[p,s] boolean boolean string varchar date date timestamp timestamp 表11 Spark(Hudi)和ClickHouse数据类型映射关系 Spark(Hudi)数据类型 ClickHouse数据类型 int Int32 long Int64 (bigint) float Float32 (float) double Float64 (double) decimal[p,s] Decimal(P,S) boolean bool string String (LONGTEXT, MEDIUMTEXT, TINYTEXT, TEXT, LONGBLOB, MEDIUMBLOB, TINYBLOB, BLOB, VARCHAR, CHAR) date Date timestamp DateTime
  • CDL简介 CDL(全称Change Data Loader)是一个基于Kafka Connect框架的实时数据集成服务。 CDL服务能够从各种OLTP数据库中捕获数据库的Data Change事件,并推送到kafka,再由sink connector推送到大数据生态系统中。 CDL目前支持的数据源有MySQL、PostgreSQL、Hudi、Kafka、ThirdParty-Kafka,目标端支持写入Kafka、Hudi、DWS以及ClickHouse。