检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建DWS连接 在CDM集群管理界面,单击集群后的“作业管理”,选择“连接管理 > 新建连接”,进入连接器类型的选择界面,如图3所示。 图3 选择连接器类型 连接器类型选择“数据仓库服务(DWS)”后单击“下一步”配置DWS连接参数,必填参数如表2所示,可选参数保持默认即可。 表2
“CDM作业实际启动时间-偏移量”。 DS='${dateformat(yyyy-MM-dd,-1,DAY)}' date类型值是否保留一位精度 date类型值是否保留一位精度。 是 分区字段含有空值 是否允许分区字段包含空值。 是 拆分作业 选择“是”,会根据“作业拆分字段”值,将作业拆分为多个子作业并发执行。
String 资源ID。 flavorType String 规格类型。 workSpaceId String 工作空间ID。 trial String 适用。 表6 Datastore 参数 参数类型 描述 type String 类型,一般为cdm。 version String 集群版本。
索引:待写入数据的Elasticsearch索引,也可以输入一个新的索引,CDM会自动在云上搜索服务中创建。 类型:待写入数据的Elasticsearch类型,可输入新的类型,CDM支持在目的端自动创建类型。 高级属性里的可选参数一般情况下保持默认即可。 单击“下一步”进入字段映射界面,CDM会自动匹配源和目的字段,如图7所示。
索引:待写入数据的Elasticsearch索引,也可以输入一个新的索引,CDM会自动在云上搜索服务中创建。 类型:待写入数据的Elasticsearch类型,可输入新的类型,CDM支持在目的端自动创建类型。 高级属性里的可选参数一般情况下保持默认即可。 单击“下一步”进入字段映射界面,CDM会自动匹配源和目的字段,如图7所示。
用于分隔CSV文件中的列的字符,支持单字符和多字符,也支持特殊字符,详见表1。 编码类型 文件的编码类型,默认是UTF-8,中文的编码有时会采用GBK。 如果源端指定该参数,则使用指定的编码类型去解析文件;目的端指定该参数,则写入文件的时候,以指定的编码类型写入。 使用包围符 数据库、NoSQL导出到CSV文件
配置DWS源端参数 作业中源连接为DWS连接时,源端作业参数如表1所示。 表1 DWS作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,
Content-Type 用于指明发送给接收者的实体正文的媒体类型。 类型:字符串。 默认值:application/json; charset=UTF-8 是 X-request-id 此字段携带请求ID号,以便任务跟踪。 类型:字符串。request_id-timestamp-ho
t SQL Server导出的数据时,源端作业参数如表1所示。 表1 PostgreSQL/SQL Server作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用
创建RDS连接 单击CDM集群后的“作业管理”,进入作业管理界面,再选择“连接管理 > 新建连接”,进入选择连接器类型的界面,如图3所示。 图3 选择连接器类型 连接器类型选择“云数据库 MySQL”后单击“下一步”,配置连接参数: 名称:用户自定义连接名称,例如:“rds_link”。
String 节点类型,当前只有“cdm”一种类型。 表6 nics 参数 是否必选 参数类型 描述 securityGroupId 是 String 安全组ID。 net-id 是 String 子网ID。 表7 Datastore 参数 是否必选 参数类型 描述 type 否
作业中源连接为从本地Redis导出的数据时,源端作业参数如表1所示。 表1 Redis作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 Redis键前缀 键的前缀,类似关系型数据库的表名。 TABLE 值存储类型 仅支持以下数据格式: STRING:不带列名,如“值1,值2”形式。 HASH:
imal类型列的数据,会转换为Byte[]数组(二进制)写入HBase,其他类型的按字符串写入。如果这几种类型中,有合并做rowkey的,就依然当字符串写入。 该功能作用是:降低存储占用空间,存储更高效;特定场景下rowkey分布更均匀。 false:源端数据库中所有类型的数据,都会按照字符串写入HBase。
表3 请求Body参数 参数 是否必选 参数类型 描述 stop 是 stop object 集群停止操作,定义集群停止标识,请参见stop参数说明。 表4 stop 参数 是否必选 参数类型 描述 stopMode 是 String 关机类型: IMMEDIATELY:立即关机。 GRACEFULLY:优雅关机。
配置MRS Hudi源端参数 作业中源连接为MRS Hudi连接时,源端作业参数如表1所示。 表1 MRS Hudi作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 源连接名称 选择已配置的MRS Hudi连接。 hudi_from_cdm 数据库名称 输入或选择数据
在没有主键的场景下,如果没有选择分布列,DWS会默认第一列作为分布列,可能会有数据倾斜风险。 如CDM不支持源端迁移字段类型,请参见不支持数据类型转换规避指导将字段类型转换为CDM支持的类型。 父主题: 关键操作指导
索引:待写入数据的Elasticsearch索引,也可以输入一个新的索引,CDM会自动在云搜索服务中创建。 类型:待写入数据的Elasticsearch类型,可输入新的类型,CDM支持在目的端自动创建类型。 高级属性里的可选参数一般情况下保持默认即可。 单击“下一步”进入字段映射界面,CDM会自动匹配源和目的字段,如图5所示。
索引:待写入数据的Elasticsearch索引,也可以输入一个新的索引,CDM会自动在云搜索服务中创建。 类型:待写入数据的Elasticsearch类型,可输入新的类型,CDM支持在目的端自动创建类型。 高级属性里的可选参数一般情况下保持默认即可。 单击“下一步”进入字段映射界面,CDM会自动匹配源和目的字段,如图5所示。
如CDM不支持源端迁移字段类型,请参见不支持数据类型转换规避指导将字段类型转换为CDM支持的类型。 新增字段 您可以单击字段映射界面的选择“添加新字段”自定义新增字段,通常用于标记数据库来源,以确保导入到目的端数据的完整性。 图1 字段映射 目前支持以下类型自定义字段: 常量 常量
持自动创建索引和类型,索引和类型名称只能全部小写,不能有大写。 index 类型 待写入数据的Elasticsearch的类型,类似关系数据库中的表名称。类型名称只能全部小写,不能有大写。 说明: Elasticsearch搜索引擎7.x及以上版本不支持自定义类型,只能使用_doc类型。此处即使自定义也不会生效。