检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
新增字段操作指导 操作场景 作业参数配置完成后,将进行字段映射的配置,您可以通过字段映射界面的可自定义新增字段。 如果是文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,且源端“文件格式”配置为“二进制格式”(即不解析文件内容直接传输),则没有字段映射这一步骤。
正则表达式分隔半结构化文本 在创建表/文件迁移作业时,对简单CSV格式的文件,CDM可以使用字段分隔符进行字段分隔。但是对于一些复杂的半结构化文本,由于字段值也包含了分隔符,所以无法使用分隔符进行字段分隔,此时可以使用正则表达式分隔。 正则表达式参数在源端作业参数中配置,要求源连接为对象存储或者文件系统
CDM迁移近一个月的数据 备HBase集群中约10TB数据,最近一个月新增的数据量约60TB,总共约70TB。H公司安装的云专线为20GE端口,支持CDM超大规格的集群(cdm.xlarge),综合考虑迁移时间、成本、性能等,这里使用2个CDM超大规格集群并行迁移。CDM集群规格如表
贸易数据上云场景介绍 使用云数据迁移(Cloud Data Migration,简称CDM)将本地贸易统计数据导入到OBS,再使用数据湖探索(Data Lake Insight,简称DLI)进行贸易统计分析,帮助H咨询公司以极简、极低成本构建其大数据分析平台,使得该公司更好地聚焦业务
上传CDM连接驱动 JDBC即Java DataBase Connectivity,java数据库连接;JDBC提供的API可以让JAVA通过API方式访问关系型数据库,执行SQL语句,获取数据。 CDM连接关系数据库前,需要先上传所需关系数据库的JDK8版本.jar格式驱动。 前提条件
CDM作业配置管理 CDM作业管理界面的“配置管理”页签,主要操作如下: 最大抽取并发数 定时备份/恢复 作业参数的环境变量 最大抽取并发数 最大抽取并发数即集群最大抽取并发数。 此处的“最大抽取并发数”参数与集群配置处的“最大抽取并发数”参数同步,在任意一处修改即可生效。 CDM
配置MySQL源端参数 作业中源连接为云数据库MySQL/MySQL数据库连接时,源端作业参数如表1所示。 表1 MySQL作为源端时的作业参数 参数名 说明 取值样例 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句
配置PostgreSQL/SQL Server源端参数 作业中源连接为从云数据库 PostgreSQL、云数据库 SQL Server、PostgreSQL、Microsoft SQL Server导出的数据时,源端作业参数如表1所示。 表1 PostgreSQL/SQL Server
配置Oracle源端参数 作业中源连接为Oracle数据库连接,源端作业参数如表1所示。 表1 Oracle作为源端时的作业参数 参数名 说明 取值样例 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,
约束与限制 CDM系统级限制和约束 DataArts Studio实例赠送的数据集成集群,由于规格限制,仅用于测试业务、数据连接代理场景。 用于运行数据迁移作业的其他规格CDM集群可以在DataArts Studio控制台以增量包的形式购买,也可以在云数据迁移CDM服务控制台直接购买