检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CDM的作业配置: “源目录或文件”输入:/hbase/data/default/src_test/.snapshot/s0 目的端“写入目录”输入:/hbase/data/default/表名 执行fixMeta和fixAssignments等命令恢复表,参考使用命令恢复历史不变的数据
table 高级属性 抽取分区字段 “使用SQL语句”选择“否”时,显示该参数,表示抽取数据时使用该字段进行数据切分,CDM依据此字段将作业分割为多个任务并发执行。一般使用数据均匀分布的字段,例如以自然增长的序号字段作为分区字段。
可对比源端和目的端的数据,也可以通过对比记录数来看迁移结果是否成功、数据是否丢失。 修改 修改作业参数 可重新配置作业参数,支持重新选择源连接和目的连接。 编辑作业JSON 直接编辑作业的JSON文件,作用等同于修改作业的参数配置。
_doc 高级属性 拆分nested类型字段 可选参数,选择是否将nested字段的json内容拆分,例如:将“a:{ b:{ c:1, d:{ e:2, f:3 } } }”拆成三个字段“a.b.c”、“a.b.d.e”、“a.b.d.f”。
默认为HDFS方式,如果没有使用WHERE条件进行数据过滤及在字段映射页面添加新字段的需求,选择HDFS方式即可。 HDFS文件方式读取数据时,性能较好,但不支持使用WHERE条件进行数据过滤及在字段映射页面添加新字段。
CDM有哪些优势? 云数据迁移(Cloud Data Migration,简称CDM)服务基于分布式计算框架,利用并行化处理技术,使用CDM迁移数据的优势如表1所示。 表1 CDM优势 优势项 用户自行开发 CDM 易使用 自行准备服务器资源,安装配置必要的软件并进行配置,等待时间长
否 抽取分区字段 抽取数据时使用该字段进行数据切分, 从而实现并行化抽取。 id 分区字段含有空值 多并发抽取时,若确定分区字段不含Null,将该值设为“否”可提升性能,若不确定,请设为“是”,否则可能会丢数据。 否 父主题: 配置CDM作业源端参数
CDM集群已正常运行一段时间(约10分钟)。 对于新创建的集群,需要等待一段时间,才能查看上报的监控数据和监控视图。 操作步骤 进入CDM主界面,选择“集群管理”,选择集群操作列中的“更多 > 查看监控指标”。 在CDM监控页面,可查看所有监控指标的小图。
否 X-ratelimit 此字段携带总计流控请求数。 类型:整型。 默认值:无。 否 X-ratelimit-used 此字段携带剩下请求数。 类型:整型。 默认值:无。 否 X-ratelimit-window 此字段携带流控单位。 类型:字符串。单位按照分钟、小时、天。
字段转换 支持去隐私、字符串操作、日期操作等常用字段的数据转换功能。 文件加密 在迁移文件到文件系统时,CDM支持对写入云端的文件进行加密。 MD5校验一致性 支持使用MD5校验,检查端到端文件的一致性,并输出校验结果。
fromJobConfig.columnList 否 String 需要抽取的字段列表,字段名之间使用“&”分割,例如:“id&gid&name”。 fromJobConfig.formats 否 数据结构 时间格式,请参见fromJobConfig.formats参数说明。
权限及授权项说明 如果您需要对您所拥有的CDM服务进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM)。如果云账号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用CDM服务。 默认情况下
无中间存储:数据在迁移的过程中,CDM只处理数据映射和转换,而不会存储任何用户数据或片段。 父主题: 通用类
CDM在作业BOOTING阶段无法查看日志,如果找不到Yarn任务,请联系CDM运维查看后台日志,获取Application ID。日志形如: 联系CDM运维查看后台日志。 父主题: 故障处理类
AK/SK既可以使用永久访问密钥中的AK/SK,也可以使用临时访问密钥中的AK/SK,但使用临时访问密钥的AK/SK时需要额外携带“X-Security-Token”字段,字段值为临时访问密钥的security_token。
二进制格式 字段分隔符 数据格式为“CSV格式”时呈现此参数。默认为逗号,使用Tab键作为分隔符请输入“\t”。 , 记录分隔符 数据格式为“CSV格式”或“JSON格式”时呈现此参数。用于配置每条记录之间的分割符。
如果要迁移的表中没有WHERE子句的字段,则会迁移失败。 该参数支持配置为时间宏变量,实现抽取指定日期的数据,详细说明请参见关系数据库增量迁移。
如果要迁移的表中没有Where子句的字段,则会迁移失败。 该参数支持配置为时间宏变量,实现抽取指定日期的数据,详细说明请参见关系数据库增量迁移。
批量管理CDM作业 操作场景 这里以表/文件迁移的作业为例进行介绍,指导用户批量管理CDM作业,提供以下操作: 作业分组管理 批量运行作业 批量删除作业 批量导出作业 批量导入作业 批量导出、导入作业的功能,适用以下场景: CDM集群间作业迁移:例如需要将作业从老版本集群迁移到新版本的集群