检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
关键操作指导 增量迁移原理介绍 事务模式迁移 迁移文件时加解密 MD5校验文件一致性 字段转换器配置指导 新增字段操作指导 指定文件名迁移 正则表达式分隔半结构化文本 记录数据迁移入库时间 文件格式介绍 不支持数据类型转换规避指导 自动建表原理介绍 父主题: 数据集成(CDM作业)
DataArts Studio是否支持版本降级? 已创建的DataArts Studio实例,不支持直接降级版本。 您可以通过创建新版本实例、迁移实例数据、退订旧版本实例的方式,间接降级版本。 父主题: 咨询与计费
sqoop.user; 模式或表空间 “使用SQL语句”选择“否”时,显示该参数,表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面,用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的账号是否有元数据查询的权限。 说明:
源端为OBS时的作业参数 参数类型 参数名 说明 取值样例 基本参数 桶名 待迁移数据所在的桶名。 BUCKET_2 文件格式 传输数据时使用的格式。 CSV格式:以CSV格式解析源文件,用于迁移文件到数据表的场景。 JSON格式:以JSON格式解析源文件,一般都是用于迁移文件到数据表的场景。
CDM将根据源端的字段类型进行默认规则转换成目的端字段类型,并在目的端建数据表。 自动建表时的字段类型映射 CDM在数据仓库服务(Data Warehouse Service,简称DWS)中自动建表时,DWS的表与源表的字段类型映射关系如图1所示。例如使用CDM将Oracle整库迁移到DW
标识文件名 选择开启作业标识文件的功能时,需要指定启动作业的标识文件名。指定文件后,只有在源端路径下存在该文件的情况下才会运行任务。该文件本身不会被迁移。 ok.txt 等待时间 选择开启作业标识文件的功能时,如果源路径下不存在启动作业的标识文件,作业挂机等待的时长,当超时后任务会失败。
Studio实例中的CDM集群)与云上服务处于不同区域的情况下,需要通过公网或者专线打通网络。 DataArts Studio实例(指DataArts Studio实例中的CDM集群)与云上服务同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或安全组不同,还需配置路
称为对应的数据表名,将后文提供的各样例数据分别复制粘贴到不同CSV文件中,然后保存CSV文件。 以下是Windows下生成.csv文件的办法之一: 使用文本编辑工具(例如记事本等)新建一个txt文档,将后文提供的样例数据复制进文档中。注意复制后检查数据的行数及数据分行的正确性(注
EL表达式参考 表达式概述 基础操作符 日期和时间模式 Env内嵌对象 Job内嵌对象 StringUtil内嵌对象 DateUtil内嵌对象 JSONUtil内嵌对象 Loop内嵌对象 OBSUtil内嵌对象 常用EL表达式样例合集 EL表达式使用实例 父主题: 数据开发
uris配置项。例如:thrift://host-192-168-1-212:9083 IP与主机名映射 否 使用集群配置为否时,是必选项。 如果Hadoop配置文件使用主机名,需要配置IP与主机的映射。格式:IP与主机名之间使用空格分隔,多对映射使用分号或回车换行分隔。 KMS密钥 否 使用集群配置为是时,是必选项。
OS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式。 选择STANDALONE模式时,CDM支持在多个MRS集群的HDFS之间迁移数据。 若在一个CDM中同时连接两个及以上开启Kerberos认证且realm相同的集群,只能使用EMBEDDED运行模式连接其中
络。 为了连通其他云计算环境与华为云计算环境,可以通过开通云专线或虚拟专用网络来实现。 购买和配置云专线DC的相关操作,可以参考通过云专线实现云下IDC访问云上VPC。其中在创建虚拟网关时,虚拟私有云选择步骤2所创建的中转VPC,本端子网除了需要添加中转VPC的子网之外,还需要添加实时资源组的VPC网段。
管理中心数据搬迁依赖于管理中心的资源迁移功能。 资源导入可以基于OBS服务,也支持从本地导入。支持迁移的资源包含如下业务数据: 管理中心组件中创建的数据连接。 数据集成组件中创建的CDM作业,包含作业中的CDM连接。 数据开发组件中已提交版本的脚本和作业。导出作业时默认只导出作业,不包含其依赖的脚本和资源。
Elasticsearch连接参数说明 Elasticsearch连接适用于第三方云的Elasticsearch服务,以及用户在本地数据中心或ECS上自建的Elasticsearch。 Elasticsearch连接器仅支持非安全模式的Elasticsearch集群。 作业运行中禁止修改密码或者更换
表1 Doris作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 模式或表空间 待写入数据的数据库名称,支持自动创建Schema。单击输入框后面的按钮可选择模式或表空间。 schema 表名 写入数据的目标表名,单击输入框后面的按钮可进入表的选择界面。 该参数支持配
当CDM集群与其他云服务所在的区域不一致时,则需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 另外,如果创建了企业项目,则企业项目也会影响CDM集群与其他云服务的网络互
理方式”,可以用作文件的增量迁移,具体请参见文件增量迁移。 增量迁移文件的时候,选择“重复文件处理方式”为“跳过重复文件”,这样如果源端有新增的文件,或者是迁移过程中出现了失败,只需要再次运行任务,已经迁移过的文件就不会再次迁移。 写入到临时文件 二进制迁移文件时候,可以在目的端
时间宏变量使用解析 在创建表/文件迁移作业时,CDM支持在源端和目的端的以下参数中配置时间宏变量: 源端的源目录或文件 源端的表名 “通配符”过滤类型中的目录过滤器和文件过滤器 “时间过滤”中的起始时间和终止时间 分区过滤条件和Where子句 目的端的写入目录 目的端的表名 支持通过宏定义变
选择STANDALONE模式时,CDM支持在多个MRS集群的HDFS之间迁移数据。 若在一个CDM中同时连接两个及以上开启Kerberos认证且realm相同的集群,只能使用EMBEDDED运行模式连接其中一个集群,其余需使用STANDALONE。 linkConfig.properties 否
STANDALONE模式。 说明:STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的情况,这时需要将源端或目的端放在STANDALONE进程里,防止冲突导致迁移失败。 linkConfig.accessKey