检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
抽取并发数:可设置同时执行的抽取任务数。 是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中,以便后面查看,可通过该参数配置,写入脏数据前需要先配置好OBS连接。 作业运行完是否删除:可选择是否自动删除作业。 JSON样例 "driver-config-values": {
0”,则配置如下: “起始保留长度”为“3”。 “结尾保留长度”为“4”。 “替换字符”为“*”。 去前后空格 自动去字符串前后的空值,不需要配置参数。 字符串反转 自动反转字符串,例如将“ABC”转换为“CBA”,不需要配置参数。 字符串替换 替换字符串,需要用户配置被替换的对象,以及替换后的值。
copy…….caused by: java.net.SocketTimeoutExcepetion:Read timed out; 故障分析 作业配置中源端目标端均通过where语句多条件过滤,并非索引列,查询会全表扫描,且数据量在上亿行,数据量庞大,导致JDBC数据库连接失败,读取数据
问题描述 CDM任务检查网络连通性,源端数据库连接问题,测试连通性提示如下问题: “请检查IP、主机名、端口填写是否正确,检查网络安全组和防火墙配置是否正确,参考数据库返回消息进行定位。” 故障分析 查询集群信息,获取公网IP,从CDM集群curl源端数据库的地址,如下所示。 从结果看
使用华为云专线搭建CDH集群与华为云VPC之间的专属连接通道。 迁移流程 预估迁移数据量、迁移时间。 输出详细待迁移数据表、文件个数、大小,用于后续校验。 分批配置迁移任务,保证迁移进度与速度。 校验文件个数以及文件大小。 在MRS中恢复HBase表并验证。 准备数据 项目 数据项 说明 取值示例 DES盒子
String 配置名称:源端作业的配置名称为“fromJobConfig”。目的端作业的配置名称为“toJobConfig”,连接的配置名称固定为“linkConfig”。 id 否 Integer 配置ID,由系统生成,用户无需填写。 type 否 String 配置类型,由系统
encryption”(加密方式)选择“AES-256-GCM”时有该参数,密钥由长度64的十六进制数组成。 请您牢记这里配置的密钥,解密时的密钥与这里配置的必须一致。如果不一致系统不会报异常,只是解密出来的数据会错误。 toJobConfig.iv 否 String 初始化向量,“toJobConfig
议拆分到不同目录并创建多个任务。 用户在CDM上配置的连接和作业支持导出到本地保存,考虑到密码的安全性,CDM不会将对应数据源的连接密码导出。因此在将作业配置重新导入到CDM前,需要手工编辑导出的JSON文件补充密码或在导入窗口配置密码。 不支持集群自动升级到新版本,需要用户通过
端作业配置中指定。 目的端作业配置 在创建作业的过程中,由目的连接指定加载数据到哪个数据源,不同目的连接对应的目的端作业参数不同,例如将数据导入到哪个表或哪个目录,这些信息在目的端作业配置中指定。 字段映射 在创建作业的过程中,尤其是异构数据源之间的迁移作业,一般需要配置源端和目
全风险。 用户和网络隔离 CDM实例运行在用户独立的VPC内,VPC允许用户通过配置VPC入站IP范围,来控制连接CDM的IP地址段。CDM实例部署在用户VPC后,用户可以综合运用子网和安全组的配置,来完成CDM实例的隔离,提升CDM实例的安全性。 数据加密 用户数据源的访问信息
String 配置名称:源端作业的配置名称为“fromJobConfig”。目的端作业的配置名称为“toJobConfig”,连接的配置名称固定为“linkConfig”。 id 否 Integer 配置ID,由系统生成,用户无需填写。 type 否 String 配置类型,由系统
败时,将数据回滚到作业开始之前的状态,自动清理目的表中的数据。 参数位置:创建表/文件迁移的作业时,如果目的端为关系型数据库,在目的端作业配置的高级属性中,可以通过“先导入阶段表”参数选择是否启用事务模式。 参数原理:如果启用,在作业执行时CDM会自动创建临时表,先将数据导入到该
败时,将数据回滚到作业开始之前的状态,自动清理目的表中的数据。 参数位置:创建表/文件迁移的作业时,如果目的端为关系型数据库,在目的端作业配置的高级属性中,可以通过“先导入阶段表”参数选择是否启用事务模式。 参数原理:如果启用,在作业执行时CDM会自动创建临时表,先将数据导入到该
作业脚本保存下来,仅在需要的时候再重新创建集群和重新导入作业。 批量创建作业任务:可以先手工创建一个作业,导出作业配置(导出的文件为JSON格式),然后参考该作业配置,在JSON文件中批量复制出更多作业,最后导入CDM以实现批量创建作业。 操作步骤 进入CDM主界面,单击左侧导航
创建并管理CDM集群 创建CDM集群 解绑/绑定CDM集群的EIP 重启CDM集群 删除CDM集群 下载CDM集群日志 查看并修改CDM集群配置 管理集群标签 管理并查看CDM监控指标
"elasticsearch-connector" } ] } 连接参数 参数 是否必选 类型 说明 linkConfig.host 是 String 配置为Elasticsearch服务器的IP地址或域名,包括端口号,格式为“ip:port”,多个地址之间使用分号(;)分隔,例如:192.168
的表时会自动将varchar类型的字段长度扩大3倍。 编辑CDM的表/文件迁移作业,目的端作业配置下“自动创表”选择“不存在时创建”,则高级属性下面会出现参数“扩大字符字段长度”,配置该参数为“是”即可,如图2所示。 图2 扩大字符字段长度 父主题: 故障处理类
文件,然后上传到OBS桶? 如何处理CDM从OBS迁移数据到DLI出现迁移中断失败的问题? 报错“配置项[linkConfig.createBackendLinks]不存在”或“配置项 [throttlingConfig.concurrentSubJobs] 不存在怎么办”? 新建MRS
关键操作指导 增量迁移原理介绍 时间宏变量使用解析 事务模式迁移 迁移文件时加解密 MD5校验文件一致性 字段转换器配置指导 新增字段操作指导 指定文件名迁移 正则表达式分隔半结构化文本 记录数据迁移入库时间 文件格式介绍 不支持数据类型转换规避指导 自动建表原理介绍
EveryMonth:每月一号零点零分创建新索引,新索引的命名格式为“索引名+年+月”,例如“index201812”。 从文件类抽取数据时,必须配置单个抽取(“抽取并发数”参数配置为1),否则该参数无效。 父主题: 目的端作业参数说明