检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
PostgreSQL/SQL Server作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。
表1 YASHAN作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。
HANA作为源端作业参数如表1所示。 表1 SAP HANA作源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。
如表1所示。 表1 Doris作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 使用SQL语句 可以选择是否使用SQL语句,来进行源端数据抽取。 否 SQL语句 “使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。 说明:
可选参数,CDM只迁移满足过滤条件的数据。 当前仅支持通过Elasticsearch的query string(即q语法)方式对源数据进行过滤。q语法使用方式介绍如下: 精确匹配时,直接使用column:data格式进行匹配过滤。其中column表示字段名,data表示查询条件,例如“last_name:Smith”。
1所示。 表1 DWS作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。
基本参数 表名 导出数据的HBase表名。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度C
源端作业参数如表1所示。 表1 MySQL作为源端时的作业参数 参数名 说明 取值样例 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。
模式,只能使用STANDALONE模式。 选择STANDALONE模式时,CDM支持在多个MRS集群的HDFS之间迁移数据。 若在一个CDM中同时连接两个及以上开启Kerberos认证且realm相同的集群,只能使用EMBEDDED运行模式连接其中一个集群,其余需使用STANDALONE。
配置为要连接的数据库名称。 dbname 用户名 待连接数据库的用户。该数据库用户需要有数据表的读写权限,以及对元数据的读取权限。 cdm 密码 用户名密码。 - 使用Agent Agent功能待下线,无需配置。 - Agent Agent功能待下线,无需配置。 - 引用符号 可选参数,连接引用表名或列名
传输多个文件时,CDM使用这里配置的文件分隔符来区分各个文件,默认为|。列表文件选择“是”时,不显示该参数。 | QUERY参数 该参数设置为“是”时,上传到OBS的对象使用的对象名,为去掉query参数后的字符。 该参数设置为“否”时,上传到OBS的对象使用的对象名,包含query参数。
配置为要连接的数据库名称。 dbname 用户名 待连接数据库的用户。该数据库用户需要有数据表的读写权限,以及对元数据的读取权限。 cdm 密码 用户名密码。 - 使用Agent Agent功能待下线,无需配置。 - Agent Agent功能待下线,无需配置。 - 引用符号 可选参数,连接引用表名或列名
进行权限管理。 使用场景:在DataArts Studio控制台购买的CDM集群按工作空间隔离,需要在关联的工作空间使用;在CDM控制台购买的CDM集群,不支持DataArts Studio工作空间级别的资源隔离,所有DataArts Studio工作空间均可使用。 集群创建好以
请联系客服或技术支持人员协助解决。 Cdm.0321 400 连接%s已被使用。 连接已被使用。 连接已被使用,无法执行当前的操作,请将连接释放后再重试。 Cdm.0322 400 作业%s已被使用。 作业已被使用。 请联系客服或技术支持人员协助解决。 Cdm.0323 400 该提交已存在,无法重复创建。
Resources: 已使用的内存与CPU核数 Max Resources:队列中最大可供使用的内存与CPU核数 Used Application Master Resources: 已使用的AM资源 Max Application Master Resources: 队列中最大可供使用的AM资源
受网络和数据源的影响,部分连接测试的时间可能需要30~60秒。 管理连接 CDM支持对已创建的连接进行以下操作: 删除:支持删除未被任何作业使用的连接,也支持批量删除连接。 编辑:支持修改已创建好的连接参数,但不支持重新选择连接器。修改连接时,需要重新输入数据源的登录密码。 测试连通性:支持直接测试已保存连接的连通性。
模式,只能使用STANDALONE模式。 选择STANDALONE模式时,CDM支持在多个MRS集群的HDFS之间迁移数据。 若在一个CDM中同时连接两个及以上开启Kerberos认证且realm相同的集群,只能使用EMBEDDED运行模式连接其中一个集群,其余需使用STANDALONE。
目录迁移的方式无法使用。 迁移方案 图1 迁移方案 H公司的车联网大数据业务平台当前CDH(Cloudera Hadoop) HBase集群中共有854张表约400TB,备HBase集群中共有149张表,约10TB数据。最近一个月新增的数据量是60TB。 使用CDM将CDH集群中的HBase
cdm 数据格式 解析数据时使用的格式: 二进制格式:适用于文件迁移场景,不解析数据内容原样传输。 CSV格式:以CSV格式解析源数据。 JSON格式:以JSON格式解析源数据。 二进制格式 字段分隔符 数据格式为“CSV格式”时呈现此参数。默认为逗号,使用Tab键作为分隔符请输入“\t”。
登录CloudTable集群的密钥。 您需要先创建当前账号的访问密钥,并获得对应的AK和SK。 - 是否使用集群配置 您可以通过使用集群配置,简化Hadoop连接参数配置。 否 集群配置名 仅当“是否使用集群配置”为“是”时,此参数有效。此参数用于选择用户已经创建好的集群配置。 集群配置的创建方法请参见管理集群配置。