检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
车联网大数搬迁入湖简介场景介绍 场景描述 为搭建H公司车联网业务集团级的云管理平台,统一管理、部署硬件资源和通用类软件资源,实现IT应用全面服务化、云化,CDM(Cloud Data Migration,简称CDM)助力H公司做到代码“0”改动、数据“0”丢失迁移上云。 约束限制
构造请求 本节介绍REST API请求的组成,并以调用IAM服务的获取用户Token接口来说明如何调用API,该API获取用户的Token,Token可以用于调用其他API时鉴权。 您还可以通过这个视频教程了解如何构造请求调用API:https://bbs.huaweicloud.com
基本概念 CDM集群 CDM集群是指用户拥有的CDM实例,一个CDM集群由1个或多个虚拟机组成。一个用户可以创建多个CDM集群,例如为财务部门和采购部门各创建一个CDM实例,实现数据访问权限的隔离。 本地环境 本地环境是指用户自建或者租用的IDC中的数据存储系统,或者第三方云环境中的数据存储系统
随机集群创建作业并执行 功能介绍 随机集群创建作业并执行接口。 调用方法 请参见如何调用API。 URI POST /v1.1/{project_id}/clusters/job 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目
指定集群创建作业 功能介绍 指定集群创建作业接口。 调用方法 请参见如何调用API。 URI POST /v1.1/{project_id}/clusters/{cluster_id}/cdm/job 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String
修改作业 功能介绍 修改作业接口。 调用方法 请参见如何调用API。 URI PUT /v1.1/{project_id}/clusters/{cluster_id}/cdm/job/{job_name} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String
什么是云数据迁移 产品定义 云数据迁移(Cloud Data Migration, 简称CDM),是一种高效、易用的数据集成服务。 CDM围绕大数据迁移上云和智能数据湖解决方案,提供了简单易用的迁移能力和多种数据源到数据湖的集成能力,降低了客户数据源迁移和集成的复杂性,有效的提高您数据迁移和集成的效率
正则表达式分隔半结构化文本 在创建表/文件迁移作业时,对简单CSV格式的文件,CDM可以使用字段分隔符进行字段分隔。但是对于一些复杂的半结构化文本,由于字段值也包含了分隔符,所以无法使用分隔符进行字段分隔,此时可以使用正则表达式分隔。 正则表达式参数在源端作业参数中配置,要求源连接为对象存储或者文件系统
新增字段操作指导 操作场景 作业参数配置完成后,将进行字段映射的配置,您可以通过字段映射界面的可自定义新增字段。 如果是文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,且源端“文件格式”配置为“二进制格式”(即不解析文件内容直接传输),则没有字段映射这一步骤。
正则表达式分隔半结构化文本 在创建表/文件迁移作业时,对简单CSV格式的文件,CDM可以使用字段分隔符进行字段分隔。但是对于一些复杂的半结构化文本,由于字段值也包含了分隔符,所以无法使用分隔符进行字段分隔,此时可以使用正则表达式分隔。 正则表达式参数在源端作业参数中配置,要求源连接为对象存储或者文件系统
贸易数据上云场景介绍 使用云数据迁移(Cloud Data Migration,简称CDM)将本地贸易统计数据导入到OBS,再使用数据湖探索(Data Lake Insight,简称DLI)进行贸易统计分析,帮助H咨询公司以极简、极低成本构建其大数据分析平台,使得该公司更好地聚焦业务
CDM迁移近一个月的数据 备HBase集群中约10TB数据,最近一个月新增的数据量约60TB,总共约70TB。H公司安装的云专线为20GE端口,支持CDM超大规格的集群(cdm.xlarge),综合考虑迁移时间、成本、性能等,这里使用2个CDM超大规格集群并行迁移。CDM集群规格如表
修改连接 功能介绍 修改连接接口。 调用方法 请参见如何调用API。 URI PUT /v1.1/{project_id}/clusters/{cluster_id}/cdm/link/{link_name} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是
创建连接 功能介绍 创建连接接口。 调用方法 请参见如何调用API。 URI POST /v1.1/{project_id}/clusters/{cluster_id}/cdm/link 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID
CDM作业配置管理 CDM作业管理界面的“配置管理”页签,主要操作如下: 最大抽取并发数 定时备份/恢复 作业参数的环境变量 最大抽取并发数 最大抽取并发数即集群最大抽取并发数。 此处的“最大抽取并发数”参数与集群配置处的“最大抽取并发数”参数同步,在任意一处修改即可生效。 CDM
配置PostgreSQL/SQL Server源端参数 作业中源连接为从云数据库 PostgreSQL、云数据库 SQL Server、PostgreSQL、Microsoft SQL Server导出的数据时,源端作业参数如表1所示。 表1 PostgreSQL/SQL Server
配置MySQL源端参数 作业中源连接为云数据库MySQL/MySQL数据库连接时,源端作业参数如表1所示。 表1 MySQL作为源端时的作业参数 参数名 说明 取值样例 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句
配置Oracle源端参数 作业中源连接为Oracle数据库连接,源端作业参数如表1所示。 表1 Oracle作为源端时的作业参数 参数名 说明 取值样例 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,
配置CDM作业字段映射 操作场景 作业参数配置完成后,将进行字段映射的配置,您可以通过字段映射界面的可自定义新增字段,也可单击操作列下创建字段转换器。 如果是文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,且源端“文件格式”配置为“二进制格式”(即不解析文件内容直接传输