检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
适用于数据上云、云服务间数据交换、云上数据迁移到本地业务系统。
配置目录的映射资源信息,选择导入后的规则模板存储目录。如不选择,默认使用原映射资源信息。 图11 配置映射资源信息 单击“导入”,将填好的Excel表格模板导入到系统。 单击“导入记录”页签,可查看对应的导入记录。 父主题: 数据质量监控
KERBEROS IP与主机名映射 输入IP和主机名。 如果配置文件使用主机名,需要配置所有IP与主机的映射,多个主机之间使用空格进行分隔。 IP:10.3.6.9 主机名: hostname01 HBase版本 HBase版本。
Shell和Python脚本都是发往ECS主机的/tmp目录下去运行的,需要确保/tmp目录磁盘不被占满。 父主题: 配置DataArts Studio数据连接参数
导出作业,将作业的JSON文件保存到本地。 编辑JSON文件,参考该作业的配置,在JSON文件中批量复制出更多作业。 将JSON文件导入CDM集群,实现批量创建作业。 您也可以参考通过CDM算子批量创建分表迁移作业,配合For Each算子,实现自动批量创建作业。
CDM集群创建完成后,在集群管理界面选择“绑定弹性IP”,CDM通过EIP访问本地Elasticsearch。 如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。
Elasticsearch连接参数说明 Elasticsearch连接适用于第三方云的Elasticsearch服务,以及用户在本地数据中心或ECS上自建的Elasticsearch。 Elasticsearch连接器仅支持非安全模式的Elasticsearch集群。
图4 作业配置 配置作业字段映射及任务配置,单击“保存并运行”,执行CDM作业。 在“表/文件迁移”作业列表中,查看作业执行情况。 图5 查看作业运行情况 创建数据连接 登录DataArts Studio控制台,单击相应工作空间后的“管理中心”。
对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,如图2所示,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,如图3所示。详细操作请参见DB配置。
对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,详细操作请参见DB配置。 离线处理集成作业不支持在企业模式下运行。
数据集成应用示例 本节通过cURL调用CDM API,迁移本地MySQL数据库中的数据到云上服务DWS为例,介绍使用CDM API的基本流程。 获取token 获取用户的token,因为在后续的请求中需要将token放到请求消息头中作为认证。
前提条件 用户获得泄露的数据文件后,生成字符分隔值(Comma-Separated Values,CSV)格式文件,文件大小不超过20M,并保存到本地。 已完成数据水印嵌入任务,请参考嵌入数据水印。 约束与限制 数据水印溯源的源文件大小不能超过20MB。
对非结构化数据文件(docx、pptx、xlsx和pdf)注入明水印,可在本地打开文件,查看水印内容。 约束与限制 结构化数据文件暗水印的注入和提取时,需限制文件大小在4MB之内。 非结构化数据文件明水印在注入时,需限制文件大小在20MB之内。
在将本地的贸易统计数据迁移到华为云之后,基于华为公有云的大数据分析能力,可帮助H公司屏蔽大数据基础设施复杂的构建、维护过程,使其客户人员可以全身心聚焦业务创新,盘活100T的存量数据,使资产最大化变现。
上传存量数据 使用华为云专线,搭建用户本地数据中心与华为云VPC之间的专属连接通道。 创建OBS桶,并记录OBS的访问域名、端口和AK/SK。 创建CDM集群。
如果CDM需要访问本地数据源、Internet的数据源,或者跨VPC的云服务,则必须要为CDM集群绑定一个弹性IP,或者使用NAT网关让CDM集群与其他弹性云服务器共享弹性IP访问Internet,具体操作请见添加SNAT规则。
source_tables 否 Array of MappingSourceTableVO objects 映射的表信息。 source_fields 否 Array of MappingSourceFieldVO objects 映射的字段信息。
对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,详细操作请参见DB配置。 离线处理集成作业不支持在企业模式下运行。
导出完成后可在资源迁移任务列表中,单击对应任务的“下载”按钮,本地获取导出的资源包。 图5 下载导出结果 导入资源 在管理中心页面,单击“资源迁移”,进入资源迁移页面。 图6 资源迁移 单击“新建导入”,选择导入方式后,配置待导入资源的OBS或本地路径。
资源导入可以基于OBS服务,也支持从本地导入。支持迁移的资源包含如下业务数据: 管理中心组件中创建的数据连接。 数据集成组件中创建的CDM作业,包含作业中的CDM连接。 数据开发组件中已提交版本的脚本和作业。导出作业时默认只导出作业,不包含其依赖的脚本和资源。