正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
日志形如: 问题原因2:作业配置了导入前清空数据,dws表存量数据多,卡在truncate table操作步骤中,默认5分钟超时。 问题排查2:联系CDM运维查看后台日志。 父主题: Hudi源端案例库
针对Hive、HBase、MySQL、DWS(数据仓库服务)数据源,使用高效的数据导入接口导入数据。 多种数据源支持 数据源类型繁杂,针对不同数据源开发不同的任务,脚本数量成千上万。 支持数据库、Hadoop、NoSQL、数据仓库、文件等多种类型的数据源。
针对Hive、HBase、MySQL、DWS(数据仓库服务)数据源,使用高效的数据导入接口导入数据。 多种数据源支持 数据源类型繁杂,针对不同数据源开发不同的任务,脚本数量成千上万。
图6 创建MySQL到Hive的迁移任务 “导入前清空数据”选“是”,这样每次导入前,会将之前已经导入到Hive表的数据清空。 作业参数配置完成后,单击“下一步”,进入字段映射界面,如图7所示。
图6 创建MySQL到Hive的迁移任务 “导入前清空数据”选“是”,这样每次导入前,会将之前已经导入到Hive表的数据清空。 作业参数配置完成后,单击“下一步”,进入字段映射界面,如图7所示。
创建MySQL连接时,使用本地API加速,可以使用MySQL的LOAD DATA功能加快数据导入,提高导入数据到MySQL数据库的性能。 说明: REPLACE 和 IGNORE 修饰符用于处理与现有行具有相同唯一键值(PRIMARY KEY或UNIQUE索引值)的新输入的行。
注册并登录管理控制台。 在用户名的下拉列表中单击“我的凭证”。 在“API凭证”页面,查看账号名和账号ID、IAM用户名和IAM用户ID,在项目列表中查看项目和项目ID。 - 新增dli-trans*内部临时桶授权策略 登录统一身份认证服务IAM控制台。
因此,在单表或整库导入到DWS/FusionInsight LibrA时,建议您在此处手动选择分布列,如果您没有选择,CDM会自动选择一个分布列。关于分布列的更多信息,请参见数据仓库服务。 DWS主键或表只有一个字段时,要求字段类型必须是如下常用的字符串、数值、日期类型。
不自动创表 导入前清空数据 选择目的端表中数据的处理方式: 是:任务启动前会清除目标表中数据。 否:导入前不清空目标表中的数据,如果选“否”且表中有数据,则数据会追加到已有的表中。
导入前清空数据:任务启动前,是否清除目的表中数据,用户可根据实际需要选择。 单击“下一步”进入字段映射界面,CDM会自动匹配源和目的字段,如图5所示。 如果字段映射顺序不匹配,可通过拖拽字段调整。
导入前清空数据:任务启动前,是否清除目的表中数据,用户可根据实际需要选择。 单击“下一步”进入字段映射界面,CDM会自动匹配源和目的字段,如图5所示。 如果字段映射顺序不匹配,可通过拖拽字段调整。
案例 案例:贸易数据统计与分析 使用云数据迁移(Cloud Data Migration,简称CDM)将本地贸易统计数据导入到OBS,再使用数据湖探索(Data Lake Insight,简称DLI)进行贸易统计分析,帮助H咨询公司以极简、极低成本构建其大数据分析平台,使得该公司更好地聚焦业务
支持的数据源 新建连接 管理驱动 已发布区域:全部 作业管理 CDM可以实现在同构、异构数据源之间进行表/文件级别以及整库的数据迁移,支持配置作业定时任务及抽取并发数、作业定时备份/恢复、配置作业环境变量、作业批量导入/导出等功能。
导入前清空数据:导入数据前,选择是否清空目的表中的数据,这里保持默认“否”。 单击“下一步”进入字段映射界面,CDM会自动匹配源和目的字段。 如果字段映射顺序不匹配,可通过拖拽字段调整。 CDM支持迁移过程中转换字段内容,详细请参见字段转换。
导入前清空数据:导入数据前,选择是否清空目的表中的数据,这里保持默认“否”。 单击“下一步”进入字段映射界面,CDM会自动匹配源和目的字段。 如果字段映射顺序不匹配,可通过拖拽字段调整。 CDM支持迁移过程中转换字段内容,详细请参见字段转换。
创建MySQL连接时,CDM会自动尝试启用MySQL数据库的local_infile系统变量,开启MySQL的LOAD DATA功能加快数据导入,提高导入数据到MySQL数据库的性能。
目的端作业配置 在创建作业的过程中,由目的连接指定加载数据到哪个数据源,不同目的连接对应的目的端作业参数不同,例如将数据导入到哪个表或哪个目录,这些信息在目的端作业配置中指定。
如果Oracle数据库是在本地数据中心或第三方云上,需要确保Oracle可通过公网IP访问,或者已经建立好了企业内部数据中心到华为云的VPN通道或专线。 已在CDM集群的“作业管理 > 连接管理 > 驱动管理”页面,上传了Oracle数据库驱动。
如果Oracle数据库是在本地数据中心或第三方云上,需要确保Oracle可通过公网IP访问,或者已经建立好了企业内部数据中心到华为云的VPN通道或专线。 已在CDM集群的“作业管理 > 连接管理 > 驱动管理”页面,上传了Oracle数据库驱动。
图2 作业配置 此时,从其他数据源导入数据到云搜索服务时,如果源端数据中的日期格式不完全满足标准格式,例如“2018/01/05 15:15:46”,则CDM作业会执行失败,日志提示无法解析日期格式。需要通过CDM配置字段转换器,将日期字段的格式转换为云搜索服务的目的端格式。