检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hudi目的端的作业自动建表报错:schema不匹配,建表失败怎么办? 问题描述 cdm迁移数据到hudi,hudi选择自动建表,执行建表语句报schema不匹配错误“org.apache.spark.sql.AnalysisException:Specified schema in
自动建表原理介绍 CDM将根据源端的字段类型进行默认规则转换成目的端字段类型,并在目的端建数据表。 自动建表时的字段类型映射 CDM在数据仓库服务(Data Warehouse Service,简称DWS)中自动建表时,DWS的表与源表的字段类型映射关系如图1所示。例如使用CDM
SDK概述 云数据迁移服务软件开发工具包(CDM SDK,Cloud Data Migration Service Software Development Kit)是对CDM服务提供的REST API进行的封装,以简化开发者的开发工作。通过调用此SDK包提供的代码样例,即可通过API接口对CDM进行相关操作。
该值记录在一个新文件中,新文件以“.md5”作为后缀,并且可以指定MD5值生成的目录。 文件格式的公共参数 启动作业标识文件 这个主要用于自动化场景中,CDM配置了定时任务,周期去读取源端文件,但此时源端的文件正在生成中,CDM此时读取会造成重复写入或者是读取失败。所以,可以在源
文件过滤器:配置为“*${dateformat(yyyyMMdd,-1,DAY)}*”(这是CDM支持的日期宏变量格式,详见时间宏变量使用解析)。 图1 文件过滤 配置作业定时自动执行,“重复周期”为1天。 这样每天就可以把昨天生成的文件都导入到目的端目录,实现增量同步。 文件增量迁移场景下,“路径过滤器”的使用方法
迁移时已选择表不存在时自动创表,提示“CDM not support auto create empty table with no column”怎么处理? 问题描述 迁移时已选择表不存在时自动创表,提示“CDM not support auto create empty table
华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书 另外,华为云还提供了以下销售许可证及软件著作权证书,供用户下载和参考。具体请查看合规资质证书。 图3 销售许可证&软件著作权证书 父主题: 安全
CustomerConfig object 用户配置信息。 datastore Datastore object cdm信息。 isAutoOff Boolean 自动关机。 publicEndpointDomainName String 集群绑定的EIP域名。 bakExpectedStartTime String
企业项目信息,请参见sys_tags参数说明。 isAutoOff 否 Boolean 选择是否启用自动关机功能,自动关机功能和定时开关机功能不可同时开启。如果选择自动关机,则当集群中无作业运行且无定时作业时,等待15分钟后集群将自动关机来帮您节约成本。 表5 instance 参数 是否必选 参数类型 描述
车联网大数搬迁入湖简介场景介绍 场景描述 为搭建H公司车联网业务集团级的云管理平台,统一管理、部署硬件资源和通用类软件资源,实现IT应用全面服务化、云化,CDM(Cloud Data Migration,简称CDM)助力H公司做到代码“0”改动、数据“0”丢失迁移上云。 约束限制
作业配置表不存在时自动创建,目的端字段映射不出来怎么处理? 问题描述 迁移SQL Server数据到DWS,目的端配置了当表不存在时自动创建,目的端字段映射不出来 ,如下图所示。 原因分析 查看后端日志报:org.postgresql.util.PSQLException: ERROR:
划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 age > 18 and age <= 60 Hive作为数据源,CDM自动使用Hive数据分片文件进行数据分区。 父主题: 配置CDM作业源端参数
处理技术,使用CDM迁移数据的优势如表1所示。 表1 CDM优势 优势项 用户自行开发 CDM 易使用 自行准备服务器资源,安装配置必要的软件并进行配置,等待时间长。 程序在读写两端会根据数据源类型,使用不同的访问接口,一般是数据源提供的对外接口,例如JDBC、原生API等,因此
型数据库的入库时间等用途。 前提条件 已创建连接器源端为关系型数据库,以及目的端数据连接。 目的端数据表中已有时间日期字段或时间戳字段。如自动创表场景下,需提前在目的端表中手动创建时间日期字段或时间戳字段。 创建表/文件迁移作业 在创建表/文件迁移作业时,选择已创建的源端连接器、目的端连接器。
使得该公司更好地聚焦业务,持续创新。 案例:车联网大数据业务上云 为搭建H公司车联网业务集团级的云管理平台,统一管理、部署硬件资源和通用类软件资源,实现IT应用全面服务化、云化,CDM(Cloud Data Migration,简称CDM)助力H公司做到代码“0”改动、数据“0”丢失迁移上云。
相对这样传统的做法,CDM的优势如表1所示。 表1 CDM优势 优势项 用户自行开发 CDM 易使用 自行准备服务器资源,安装配置必要的软件并进行配置,等待时间长。 程序在读写两端会根据数据源类型,使用不同的访问接口。一般是数据源提供的对外接口,例如JDBC、原生API等,因此
原因分析 使用Spark SQL写数据入hudi表,由于配置问题,表schema中会自动增加一列类型为array<string>,名称为col的列。 解决方案 字段映射中删去此列,如果是自动建表,SQL中也要把此列删去。 父主题: 故障处理类
作过程主要包括2个步骤: 使用CDM上传数据到OBS 通过CDM将H公司存量数据上传到对象存储服务OBS。 通过CDM作业的定时任务,每天自动上传增量数据到OBS。 使用DLI分析数据 通过DLI直接分析OBS中的业务数据,支撑H公司客户进行贸易统计分析。 父主题: 贸易数据极简上云与统计分析
CDM集群可以关机吗? 2.9.1.200版本以后的集群已不支持集群定时关机、自动开关机功能。 父主题: 通用类
待写入数据的数据库名称,支持自动创建Schema。单击输入框后面的按钮可选择模式或表空间。 schema 自动创表 只有当源端为关系数据库时,才有该参数。表示写入表数据时,用户选择的操作: 不自动创建:不自动建表。 不存在时创建:当目的端的数据库没有“表名”参数中指定的表时,CDM会自动创建该表。