检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
说明: 仅支持目的端为DLI和Hive时配置该参数及作业拆分字段、拆分字段最小值、拆分字段最大值、子作业个数参数。 是 作业拆分字段 “拆分作业”选择“是”时,显示该参数,使用该字段将作业拆分为多个子作业并发执行。
在将本地的贸易统计数据迁移到华为云之后,基于华为公有云的大数据分析能力,可帮助H公司屏蔽大数据基础设施复杂的构建、维护过程,使其客户人员可以全身心聚焦业务创新,盘活100T的存量数据,使资产最大化变现。
图1 源端data的数据 图2 目的端data的数据 故障分析 RDS-Mysql和开源Mysql对于date类型的范围不一致。 开源Mysql的date范围一般为1000-01-0到9999-12-21,而RDS-Mysql支持date范围小于1000-01-0。
问题描述 客户通过CDM从OBS迁移到DLI ,使用两个集群分别迁移,源端和目标端以及作业配置都一样,2.6.0版本的CDM集群作业可以迁移成功,2.8.6版本的集群迁移失败。报错作业日志如下图所示。 原因分析 初步怀疑是源端和目标端在字段类型转换出现异常。
指定每次批量提交的行数,根据数据目的端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 10000 SSL加密 可选参数,控制是否通过SSL加密方式连接数据库,创建云数据MySQL连接时显示该参数。
当Hudi表属性和hoodie.properties文件中分区信息不一致时,会导致数据写入失败怎么解决? 问题描述 当Hudi表属性和hoodie.properties文件中分区信息不一致时,会导致数据写入失败。 解决方案 执行如下spark-sql语句修改hoodie.properties
CDM作业可以将源表中的字段注释迁移到目标端表吗? 问题描述 CDM作业可以将源表中的字段注释迁移到目标端表吗? 解决方案 不同版本支持的情况不一样。 具体如下: 2.8.6.1版本支持,2.9.1版本不支持,2.9.2.1版本支持。 父主题: 功能类
产品优势 用户在云上进行数据集成、数据备份、新应用开发时,经常会涉及到数据迁移。通常情况下用户要进行数据迁移,会开发一些数据迁移脚本,从源端读取数据再写入目的端,相对这样传统的做法,CDM的优势如表1所示。
Hudi目的端的作业执行Spark SQL写入Hudi失败怎么办? 问题描述 报错:hoodie table path not found。 报错:写入记录中存在空值,写入失败。 报错:killed by external signal。
故障分析 根据问题现象,目的端类型不支持值为“-1”插入,检查目的端字段映射,排查映射问题。 根据上一步字段映射情况判断,进一步排查建表语句。 根据以上截图分析,INT1就是DWS字段类型TINYINT的别名,确认字段映射是对的,没有问题。
迁移作业是CDM作为客户端先从源数据中抽取部分数据,写到目标端,再进行下一次部分数据抽取,写入目标端,往复执行,直到抽取到写入完成。因此可以添加高级属性:socketTimeout 参数,保证在每次抽取写入数据间隔,CDM一直保持正常会话。
CDM集群Hive连接无法查询库和表的内容 问题描述 cdm集群hive连接无法查询到数据库和表的内容,手动配置库和表后字段可以显示,但报错hive 客户端初始化失败,无效的方案: get_table_req。 解决方案 用户的MRS集群是1.8.1,CDM为2.6.0。
Hudi目的端的作业自动建表报错:schema不匹配,建表失败怎么办?
作业配置表不存在时自动创建,目的端字段映射不出来怎么处理? 问题描述 迁移SQL Server数据到DWS,目的端配置了当表不存在时自动创建,目的端字段映射不出来 ,如下图所示。
如果Elasticsearch服务器是在本地数据中心或第三方云上,需要确保Elasticsearch可通过公网IP访问,或者是已经建立好了企业内部数据中心到华为云的VPN通道或专线。
CloudTable连接 介绍 通过CloudTable连接,可以对CloudTable服务抽取、加载数据。 连接样例 本示例为连接样例消息体。在实际使用中,AK(accessKey)和SK(securityKey)建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 {
该连接器不能作为作业的源端或目的端。 该连接器不能作为作业的源端或目的端,请改为其他连接后,再重新提交作业。 Cdm.0062 400 二进制文件仅适合SFTP/FTP/HDFS/OBS连接器。 连接器不在指定的范围内。 请指定正确的连接器后再重试。
如果Elasticsearch服务器是在本地数据中心或第三方云上,需要确保Elasticsearch可通过公网IP访问,或者是已经建立好了企业内部数据中心到华为云的VPN通道或专线。
request_id-timestamp-hostname(request_id在服务器端生成UUID, timestamp为当前时间戳,hostname为处理当前接口的服务器名称)。 默认值:无。 否 X-ratelimit 此字段携带总计流控请求数。 类型:整型。
源端: 目的端: 故障分析 根据截图可以看出,源端样值中有符号:{ 括号 ”引号,等特殊符号,jdbc驱动会字段转义,导致目的端显示带有转义符号。 DLI外表及OBS桶存储,及文件到表迁移,可以考虑源端作业配置加上包围符号即可,包围符双引号“,单个双引号。