检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
建议您按照业务情况规划多个Agent与MRS安全集群一一映射。 CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。
适用于数据上云、云服务间数据交换、云上数据迁移到本地业务系统。
KERBEROS IP与主机名映射 输入IP和主机名。 如果配置文件使用主机名,需要配置所有IP与主机的映射,多个主机之间使用空格进行分隔。 IP:10.3.6.9 主机名: hostname01 HBase版本 HBase版本。
Shell和Python脚本都是发往ECS主机的/tmp目录下去运行的,需要确保/tmp目录磁盘不被占满。 父主题: 配置DataArts Studio数据连接参数
导出作业,将作业的JSON文件保存到本地。 编辑JSON文件,参考该作业的配置,在JSON文件中批量复制出更多作业。 将JSON文件导入CDM集群,实现批量创建作业。 您也可以参考通过CDM算子批量创建分表迁移作业,配合For Each算子,实现自动批量创建作业。
CDM集群创建完成后,在集群管理界面选择“绑定弹性IP”,CDM通过EIP访问本地Elasticsearch。 如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。
分别配置数据连接、集群、目录、主题的映射资源信息。如不选择,默认使用原映射资源信息。 图11 配置映射资源信息 数据连接:选择导入后的数据连接类型。 集群:如果数据连接类型是DLI,需要选择对应的队列。 目录:选择导入后的质量作业存储目录。
Elasticsearch连接参数说明 Elasticsearch连接适用于第三方云的Elasticsearch服务,以及用户在本地数据中心或ECS上自建的Elasticsearch。 Elasticsearch连接器仅支持非安全模式的Elasticsearch集群。
图4 作业配置 配置作业字段映射及任务配置,单击“保存并运行”,执行CDM作业。 在“表/文件迁移”作业列表中,查看作业执行情况。 图5 查看作业运行情况 创建数据连接 登录DataArts Studio控制台,单击相应工作空间后的“管理中心”。
对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,如图2所示,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,如图3所示。详细操作请参见DB配置。
对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,详细操作请参见DB配置。 离线处理集成作业不支持在企业模式下运行。
在将本地的贸易统计数据迁移到华为云之后,基于华为公有云的大数据分析能力,可帮助H公司屏蔽大数据基础设施复杂的构建、维护过程,使其客户人员可以全身心聚焦业务创新,盘活100T的存量数据,使资产最大化变现。
上传存量数据 使用华为云专线,搭建用户本地数据中心与华为云VPC之间的专属连接通道。 创建OBS桶,并记录OBS的访问域名、端口和AK/SK。 创建CDM集群。
如果CDM需要访问本地数据源、Internet的数据源,或者跨VPC的云服务,则必须要为CDM集群绑定一个弹性IP,或者使用NAT网关让CDM集群与其他弹性云服务器共享弹性IP访问Internet,具体操作请见添加SNAT规则。
数据集成应用示例 本节通过cURL调用CDM API,迁移本地MySQL数据库中的数据到云上服务DWS为例,介绍使用CDM API的基本流程。 获取token 获取用户的token,因为在后续的请求中需要将token放到请求消息头中作为认证。
前提条件 用户获得泄露的数据文件后,生成字符分隔值(Comma-Separated Values,CSV)格式文件,文件大小不超过20M,并保存到本地。 已完成数据水印嵌入任务,请参考嵌入数据水印。 约束与限制 数据水印溯源的源文件大小不能超过20MB。
对非结构化数据文件(docx、pptx、xlsx和pdf)注入明水印,可在本地打开文件,查看水印内容。 约束与限制 结构化数据文件暗水印的注入和提取时,需限制文件大小在4MB之内。 非结构化数据文件明水印在注入时,需限制文件大小在20MB之内。
对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,详细操作请参见DB配置。 离线处理集成作业不支持在企业模式下运行。
导出完成后可在资源迁移任务列表中,单击对应任务的“下载”按钮,本地获取导出的资源包。 图5 下载导出结果 导入资源 在管理中心页面,单击“资源迁移”,进入资源迁移页面。 图6 资源迁移 单击“新建导入”,选择导入方式后,配置待导入资源的OBS或本地路径。
例如:迁移本地数据中心FTP服务器上的文件到OBS、迁移第三方云上关系型数据库到云服务RDS。 父主题: 数据集成(CDM作业)