检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CDM迁移近一个月的数据 备HBase集群中约10TB数据,最近一个月新增的数据量约60TB,总共约70TB。H公司安装的云专线为20GE端口,支持CDM超大规格的集群(cdm.xlarge),综合考虑迁移时间、成本、性能等,这里使用2个CDM超大规格集群并行迁移。CDM集群规格如表1所示。
创建OBS桶,并记录OBS的访问域名、端口和AK/SK。 创建CDM集群。 DataArts Studio实例中已经包含一个CDM集群(试用版除外),如果该集群已经满足需求,您无需再购买数据集成增量包,可以跳过这部分内容。 如果您需要再创建新的CDM集群,请参考购买批量数据迁移增量包,完成购买数据集成增量包的操作。 实例类型:选择“cdm
安排好服务使用计划,再购买折扣套餐。 如果您希望享受折扣套餐的优惠价格,需要先购买一个“折扣套餐”,再购买一个和“折扣套餐”具有相同区域和规格的“按需计费”集群。 如果您先购买一个“按需计费”集群,再购买一个相同区域和规格的“折扣套餐”,则在购买折扣套餐之前已经产生的费用按“按需
其中CDM相关操作,与CDM迁移近一个月的数据相同,都是使用二进制直接传输文件目录,2个集群并发执行作业。 注意事项 当迁移动作影响到客户的HDFS集群时,需要手动停止作业。 如果作业出现大批量的失败: 先检查DES盒子是否被写满。如果写满,需要清除最近写入的目录,保证后面写入的数据都是完整的。
30分钟自动执行一次,2023年12月31日23时59分之后不再自动执行。 小时 CDM支持配置每几小时执行一次作业。 重复周期(时):表示每多少个小时自动执行一次定时任务。 触发时间(分):表示每小时的第几分钟触发定时任务。该参数值取值范围是“0~59”,可配置多个值但不可重复,最多60个,中间使用“
6ddb1072-c5d7-40e0-a874-8a032e81a698:表示cdm.xlarge规格,16核CPU、32G内存的虚拟机。需要10GE高速带宽进行TB以上的数据量迁移时使用。 type 是 String 节点类型,当前只有“cdm”一种类型。 表6 nics 参数
删除指定作业。 120次/min 使用API注意事项 CDM的作业数据量太多,会造成数据库压力,建议定时清理不需要的作业。 短时间内下发大量作业,可能会导致集群资源耗尽异常等,您调用API时需要注意。 CDM是批量离线迁移工具,不建议客户创建大量小作业场景。
基本概念 CDM集群 CDM集群是指用户拥有的CDM实例,一个CDM集群由1个或多个虚拟机组成。一个用户可以创建多个CDM集群,例如为财务部门和采购部门各创建一个CDM实例,实现数据访问权限的隔离。 本地环境 本地环境是指用户自建或者租用的IDC中的数据存储系统,或者第三方云环境
API创建、启动、查询、删除该CDM作业。 需要提前准备以下数据: 云账号的用户名、账号名和项目ID。 创建一个CDM集群,并获取集群ID。 获取方法:在集群管理界面,单击CDM集群名称可查看集群ID,例如“c110beff-0f11-4e75-8b10-da7cd882b0ef”。 创建一个MySQL数据库
各集群之间相互隔离,不可相互访问。目前一个集群只支持一个服务器。 前提条件 已申请VPC、子网和安全组。CDM集群连接云上其它服务时,需确保CDM集群与待连接的云服务在同一个VPC。如果CDM集群与其它云服务所属不同VPC,则CDM集群需要通过EIP连接云服务。 当CDM集群与其
dateOffset表示日期的偏移量。 dateType表示日期的偏移量的类型。 目前dateType支持以下几种类型:SECOND(秒),MINUTE(分钟),HOUR(小时),DAY(天),MONTH(月),YEAR(年)。 其中MONTH(月),YEAR(年)的偏移量类型存在特殊场景: 对于年、月来说,若进
服务韧性 CDM通过流量限制、备份恢复等技术方案,保障数据的持久性和可靠性。 关于CDM备份,用户可以先通过CDM的批量导出功能,把所有作业脚本保存到本地,在需要的时候再重新创建集群、重新导入作业,实现作业备份。 父主题: 安全
SECOND 描述一个若干日若干小时若干分钟若干秒的间隔,引导精度规定了日的取值范围。 INTERVAL '09 23:12:01.1' DAY TO SECOND 不支持(String) 不支持(VARCHAR) INTERVAL HOUR 描述一个若干小时的间隔,引导精度规定了小时的取值范围。
SECOND 描述一个若干日若干小时若干分钟若干秒的间隔,引导精度规定了日的取值范围。 INTERVAL '09 23:12:01.1' DAY TO SECOND 不支持(String) 不支持(VARCHAR) INTERVAL HOUR 描述一个若干小时的间隔,引导精度规定了小时的取值范围。
选择,CDM会自动选择一个分布列。关于分布列的更多信息,请参见数据仓库服务。 DWS主键或表只有一个字段时,要求字段类型必须是如下常用的字符串、数值、日期类型。从其他数据库迁移到DWS时,如果选择自动建表,主键必须为以下类型,未设置主键的情况下至少要有一个字段是以下类型,否则会无法创建表导致CDM作业失败。
云搜索服务对于时间类型有一个特殊处理:如果存储的时间数据不带时区信息,在Kibana可视化的时候,Kibana会认为该时间为GMT标准时间。 在各个地区会产生日志显示时间与本地时区时间不一致的现象,例如,在东八区某地,日志显示时间比本地时区时间少8个小时。因此在CDM迁移数据到云
创建CDM与数据源之间的连接 操作场景 用户在创建数据迁移的任务前,需要先创建连接,让CDM集群能够读写数据源。一个迁移任务,需要建立两个连接,源连接和目的连接。不同的迁移方式(表或者文件迁移),哪些数据源支持导出(即作为源连接),哪些数据源支持导入(即作为目的连接),详情请参见支持的数据源。
虚拟私有云(Virtual Private Cloud,简称VPC)负责其计费。 如果CDM需要访问本地数据源、Internet的数据源,或者跨VPC的云服务,则必须要为CDM集群绑定一个弹性IP,或者使用NAT网关让CDM集群与其他弹性云服务器共享弹性IP访问Internet,具体操作请见添加SNAT规则。
参数指定具体的Oracle表分区。 该功能不支持非分区表。 数据库用户需要具有系统视图dba_tab_partitions和dba_tab_subpartitions的SELECT权限。 否 表分区 输入需要迁移数据的Oracle表分区,多个分区以&分隔,不填则迁移所有分区。 如果有子分区,以“分区
据不完整。 原因分析 由于HBase/CloudTable无Schema,每条数据的列数不固定,在字段映射界面CDM通过获取样值的方式有较大概率无法获得所有列,此时作业执行完后会造成目的端的数据不全。 这个问题,可以通过以下方法解决: 在CDM的字段映射界面增加字段。 在CDM的