检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
管理员获取此账号。使用集群配置前需在集群配置管理中配置此参数。 linkConfig.keytab 否 FileContent Kerveros认证所需的keytab文件的本地绝对路径,您也可以联系管理员获取此文件。使用集群配置前需在集群配置管理中配置此参数。 linkConfig
在CDM集群中创建作业 新建表/文件迁移作业 新建整库迁移作业 配置CDM作业源端参数 配置CDM作业目的端参数 配置CDM作业字段映射 配置CDM作业定时任务 CDM作业配置管理 管理单个CDM作业 批量管理CDM作业
图1 集群最大抽取并发数配置 作业抽取并发数的配置原则如下: 迁移的目的端为文件时,CDM不支持多并发,此时应配置为单进程抽取数据。 表中每行数据大小为1MB以下的可以设置多并发抽取,超过1MB的建议单线程抽取数据。 作业抽取并发数可参考集群最大抽取并发数配置,但不建议超过集群最大抽取并发数上限。
linkConfig.user 否 String 登录Manager平台的用户名,使用集群配置时不用配置 linkConfig.password 否 String 登录Manager平台的密码,使用集群配置时不用配置 linkConfig.authType 否 枚举 认证类型,分为以下两种:
项目ID可以通过调用查询指定条件下的项目信息API获取,接口为“GET https://{Endpoint}/v3/projects”,其中{Endpoint}为IAM的终端节点,可参考IAM文档获取。 接口的认证鉴权请参见认证鉴权。 响应示例如下,其中projects下的“id”即为项目ID。当返回多个id,请依据实际的区域(name)获取。
CDM可以实现在同构、异构数据源之间进行表/文件级别以及整库的数据迁移,支持配置作业定时任务及抽取并发数、作业定时备份/恢复、配置作业环境变量、作业批量导入/导出等功能。 新建表/文件迁移作业 新建整库迁移作业 配置作业源端参数 配置作业目的端参数 作业配置管理 批量管理作业 已发布区域:全部 API 您可
在CDM集群中创建连接 创建CDM与数据源之间的连接 配置连接参数 上传CDM连接驱动 新建Hadoop集群配置
文件格式:同源端相同,选择“二进制格式”。 其它可选参数保持默认即可。 单击“下一步”进行任务配置,其中抽取并发数默认为3,适当增加可以增加迁移速率,本例中设置为8,其它参数保持默认即可。 重复上述步骤创建其它迁移目录的作业,参数配置都相同。2个CDM集群的作业个数平均分配,并发执行。 作业执行完成后,
hoodie目录。可能删表的时候只删了文件而没有drop table。 设置为主键或者预聚合键的列有空值,写入hoodie会失败。 查看作业配置,查看表属性中hoodie.datasource.write.recordkey.field、hoodie.datasource.write
全风险。 用户和网络隔离 CDM实例运行在用户独立的VPC内,VPC允许用户通过配置VPC入站IP范围,来控制连接CDM的IP地址段。CDM实例部署在用户VPC后,用户可以综合运用子网和安全组的配置,来完成CDM实例的隔离,提升CDM实例的安全性。 数据加密 用户数据源的访问信息
的表时会自动将varchar类型的字段长度扩大3倍。 编辑CDM的表/文件迁移作业,目的端作业配置下“自动创表”选择“不存在时创建”,则高级属性下面会出现参数“扩大字符字段长度”,配置该参数为“是”即可,如图2所示。 图2 扩大字符字段长度 父主题: 故障处理类
创建并管理CDM集群 创建CDM集群 解绑/绑定CDM集群的EIP 重启CDM集群 删除CDM集群 下载CDM集群日志 查看并修改CDM集群配置 管理集群标签 管理并查看CDM监控指标
进阶实践 增量迁移原理介绍 时间宏变量使用解析 事务模式迁移 迁移文件时加解密 MD5校验文件一致性 字段转换器配置指导 指定文件名迁移 正则表达式分隔半结构化文本 记录数据迁移入库时间 文件格式介绍
作业脚本保存下来,仅在需要的时候再重新创建集群和重新导入作业。 批量创建作业任务:可以先手工创建一个作业,导出作业配置(导出的文件为JSON格式),然后参考该作业配置,在JSON文件中批量复制出更多作业,最后导入CDM以实现批量创建作业。 操作步骤 进入CDM主界面,单击左侧导航
关键操作指导 增量迁移原理介绍 时间宏变量使用解析 事务模式迁移 迁移文件时加解密 MD5校验文件一致性 字段转换器配置指导 新增字段操作指导 指定文件名迁移 正则表达式分隔半结构化文本 记录数据迁移入库时间 文件格式介绍 不支持数据类型转换规避指导 自动建表原理介绍
常 (或让客户提供作业日志,或客户界面导出全量日志)。 分析源端数据类型,发现源端数据类型中有脏数据,源端数据类型有问题。 在CDM作业中配置脏数据功能,作业重跑成功,OBS桶排查脏数据类型存在问题,格式不匹配。 父主题: 故障处理类
t-Token的值)。 表3 请求Body参数 参数 是否必选 参数类型 描述 variables 否 Object 启动作业,配置变量参数,作业配置无变量时,为空对象。 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 submissions Array
g转bigint,bigint转int。 解决方案 根据报错信息找到哪个字段映射有问题,找DBA修改表结构。 如果只有极少数据有问题,可以配置脏数据策略解决。 父主题: 故障处理类
"true" Where: COPY sd_mask_ext, line 1, column mask_type。 原因分析 MySQL默认开启配置tinyInt1isBit=true,会将TINYINT(1)当作BIT也就是Types.BOOLEAN来处理,将1或0读取为true或false。
操作名称 资源类型 事件名称 创建集群 cluster createCluster 删除集群 cluster deleteCluster 修改集群配置 cluster modifyCluster 开机 cluster startCluster 重启 cluster restartCluster