检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
DLI外表(OBS文件)迁移DWS某字段转义,带有“\” 问题描述 DLI 外表CDM服务将数据迁移到DWS(GaussDB)时候,有个字段迁移后多了一对引号,字段本身的引号多了转义符,其他字段没问题。 源端: 目的端: 故障分析 根据截图可以看出,源端样值中有符号:{ 括号 ”引号,等特殊
求时将签名信息添加到消息头,从而通过身份认证。 AK(Access Key ID):访问密钥ID。与私有访问密钥关联的唯一标识符;访问密钥ID和私有访问密钥一起使用,对请求进行加密签名。 SK(Secret Access Key):与访问密钥ID结合使用的密钥,对请求进行加密签名,可标识发送方,并防止请求被修改。
由于监控数据的获取与传输会花费一定时间,因此,监控显示的是当前时间5~10分钟前的状态。如果您的CDM集群刚创建完成,请等待5~10分钟后查看监控数据。 前提条件 CDM集群正常运行。 重启失败、不可用状态的集群,无法查看其监控指标。当集群再次启动或恢复后,即可正常查看。 CDM集群已正常运行一段时间(约10分钟)。
中查看项目和项目ID。 - 单次写入行数 指定单次批量写入的行数,当写入行数累计到单次批量提交行数时提交一次。 50000 新增dli-trans*内部临时桶授权策略 登录统一身份认证服务IAM控制台。 在左侧导航窗格中,选择“权限管理>权限”页签,单击右上方的“创建自定义策略”。
法再增大。 据以上分析,发现未能解决,再次回顾排查过程,发现遗漏一点关键点,客户连接器参数配置,“一次请求行数”配置“3000”,可能会导致某批次查询数据超过1G,故而报错。 解决方案 用户修改连接器参数配置,“一次请求行数”修改为“1000”。 用户使用where条件语句,根据时间定期迁移部分数据。
迁移作业是CDM作为客户端先从源数据中抽取部分数据,写到目标端,再进行下一次部分数据抽取,写入目标端,往复执行,直到抽取到写入完成。因此可以添加高级属性:socketTimeout 参数,保证在每次抽取写入数据间隔,CDM一直保持正常会话。 解决方案 通过增大jdbc连接超时时间的控制,重新迁移作业。
CDM迁移近一个月的数据 备HBase集群中约10TB数据,最近一个月新增的数据量约60TB,总共约70TB。H公司安装的云专线为20GE端口,支持CDM超大规格的集群(cdm.xlarge),综合考虑迁移时间、成本、性能等,这里使用2个CDM超大规格集群并行迁移。CDM集群规格如表1所示。
执行Postgresql-to-Hive迁移作业报错“Error occurs during loader run” 问题描述 用户使用CDM服务,从源端pg迁移数据到目的端hive界面报错提示“Error occurs during loader run”。 故障分析 排查客户
进阶实践 增量迁移原理介绍 时间宏变量使用解析 事务模式迁移 迁移文件时加解密 MD5校验文件一致性 字段转换器配置指导 指定文件名迁移 正则表达式分隔半结构化文本 记录数据迁移入库时间 文件格式介绍
关键操作指导 增量迁移原理介绍 时间宏变量使用解析 事务模式迁移 迁移文件时加解密 MD5校验文件一致性 字段转换器配置指导 新增字段操作指导 指定文件名迁移 正则表达式分隔半结构化文本 记录数据迁移入库时间 文件格式介绍 不支持数据类型转换规避指导 自动建表原理介绍
围符内的值的,会写入一个字段内。 使用正则表达式分隔字段 这个功能是针对一些复杂的半结构化文本,例如日志文件的解析,详见使用正则表达式分隔半结构化文本。 首行为标题行 这个参数是针对CSV文件导出到其它地方的场景,如果源端指定了该参数,CDM在抽取数据时将第一行作为标题行。在传输
围符内的值的,会写入一个字段内。 使用正则表达式分隔字段 这个功能是针对一些复杂的半结构化文本,例如日志文件的解析,详见使用正则表达式分隔半结构化文本。 首行为标题行 这个参数是针对CSV文件导出到其它地方的场景,如果源端指定了该参数,CDM在抽取数据时将第一行作为标题行。在传输
如果此处有多个后端数据库,需要确保表结构一致,并使用“|”分隔数据源。如果密码包含“|”或者“:”,可使用“\”转义。 例如“192.168.3.0:3306:cdm|192.168.2.2:3306:cdm:user:password”表示,第一个后端数据库IP为192.168.3
故障分析 根据报错分析,考虑是客户侧字段类型转换存在问题,将值为"false"的bool类型转为int类型报错。进一步排查作业配置第二步,字段映射界面,查看对应关系。 根据上一步字段映射分析,其中"support_gpu_instancing"字段源端为TINYINT类型,源端值为"0
好服务使用计划,再购买折扣套餐。 如果您希望享受折扣套餐的优惠价格,需要先购买一个“折扣套餐”,再购买一个和“折扣套餐”具有相同区域和规格的“按需计费”集群。 如果您先购买一个“按需计费”集群,再购买一个相同区域和规格的“折扣套餐”,则在购买折扣套餐之前已经产生的费用按“按需计费
持续拉取数据时间。如天调度作业,根据每天topic产生的数据量,配置足够的拉取时间。单位:分钟。 60 等待时间 当配置为60时,如果消费者60s内从Kafka拉取数据返回一直为空(一般是已经读完主题中的全部数据,也可能是网络或者Kafka集群可用性原因),则立即停止任务,否则持续重试读取数据。单位:秒。 60 消费组ID
选择新增或替换。 - 如果是关系型数据库整库迁移,则作业参数配置完成后,单击“下一步”会进入表的选择界面,选择的目的库表名须与源端库表名保持一致。如源端表名为test,则目的端表名只能选择test。 图2 字段映射关系 单击“下一步”配置任务参数。 图3 任务参数 各参数说明如表3所示。 表3 任务配置参数
CDM可以跨账户使用吗? CDM不支持跨账户使用,可以通过授权给同一账户IAM子用户使用。 IAM用户授权操作步骤如下: 创建用户组并授权 在IAM控制台创建用户组,并授予CDM集群只读权限“CDM ReadOnlyAccess”。 创建用户并加入用户组 在IAM控制台创建用户,并将其加入1中创建的用户组。
该参数需要解压缩的文件后缀名。当一批文件中以该值为后缀时,才会执行解压缩操作,否则保持原样传输。当输入*或为空时,所有文件都会被解压。 * 启动作业标识文件 选择是否开启作业标识文件的功能。当源端路径下存在启动作业的标识文件时才启动作业,否则会挂起等待一段时间,等待时长在下方“等待时间”中配置。
00:00执行。 分钟 CDM支持配置每几分钟执行一次作业,定时任务周期不建议小于5分钟。 开始时间:表示定时配置生效的时间,也是第一次自动执行作业的时间。 重复周期(分):从开始时间起,每多少分钟执行一次作业。 结束时间:该参数为可选参数,如果不配置则表示一直自动执行。如果配置了结束时间,则会在该时间停止自动执行作业。