云服务器内容精选

华为云首页用户手册

配置CDM作业目的端参数

云数据迁移 CDM-配置Hive目的端参数

配置Hive目的端参数作业中目的连接为Hive连接时，目的端作业参数如表1所示。表1 Hive作为目的端时的作业参数参数名说明取值样例数据库名称输入或选择写入数据的数据库名称。单击输入框后面的按钮可进入数据库选择界面。 default 表名输入或选择写入数据的目标表名。单击输入框后面的按钮可进入表的选择界面。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过 DataArts Studio 数据开发调度 CDM 迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 TBL_X 自动创表只有当源端为关系数据库时，才有该参数。表示写入表数据时，用户选择的操作：不自动创建：不自动建表。不存在时创建：当目的端的数据库没有“表名”参数中指定的表时，CDM会自动创建该表。如果“表名”参数配置的表已存在，则不创建，数据写入到已存在的表中。先删除后创建：CDM先删除“表名”参数中指定的表，然后再重新创建该表。说明：自动建表只同步列注释，表注释不会被同步。自动建表不支持同步主键。不自动创建源端null值转换值将源端null值转换为其他值。 TO_NULL TO_EMPTY_STRRING TO_NULL_STRING TO_NULL 导入前清空数据选择目的端表中数据的处理方式。是：任务启动前会清除目标表中数据。否：导入前不清空目标表中的数据，如果选“否”且表中有数据，则数据会追加到已有的表中。是换行符处理方式对于写入Hive textfile格式表的数据中存在换行符的场景，指定对换行符的处理策略。删除替换为其他字符串不处理删除 Hive表分区字段 “自动创建”设置为“不自动创建”时，无该此参数。对Hive建表设置分区字段，多个值以逗号隔开。 A,B 表路径 “自动创建”设置为“不自动创建”时，无该此参数。表路径。 - 存储格式 “自动创建”设置为“不自动创建”时，无该此参数。选择存储格式。行式存储格式：TEXTFILE。列式存储格式：ORC、RCFILE、PARQUET。 TEXTFILE使用明文存储，当数据存在特殊字符的场景下可能会导致数据写入错乱，请谨慎使用。建议优先使用ORC存储格式。 ORC hive表清理数据模式 “导入前清空数据”设置为“是”时，呈现此参数。选择Hive表清理数据模式。 LOAD_OVERWRITE模式：将生成一个临时数据文件目录，使用Hive的load overwrite语法将临时目录加载到Hive表中。 TRUCATE模式：只清理分区下的数据文件，不删除分区。说明：目的端为分区表时，Hive表清理数据模式建议设置为LOAD_OVERWRITE模式，否则可能会有集群内存过载/磁盘过载的风险。 TRUCATE 分区信息 “导入前清空数据”设置为“是”时，呈现此参数。目的端为分区表时，必须指定分区。当使用TRUCATE模式：只清理分区下的数据文件。当使用LOAD_OVERWRITE模式：覆盖写入到指定分区，仅支持指定单分区。单分区：year=2020,location=sun; 多分区：['year=2020,location=sun', 'year=2021,location=earth']. 删除前一日分区： day='${dateformat(yyyy-MM-dd HH:mm:ss, -1, DAY)}', 执行Analyze语句数据全部写入完成后会异步执行ANALYZE TABLE语句，用于优化Hive表查询速度。执行的SQL如下：非分区表：ANALYZE TABLE tablename COMPUTE STATIS TICS 分区表：ANALYZE TABLE tablename PARTITION(partcol1[=val1], partcol2[=val2], ...) COMPUTE STATISTI CS 说明： “执行Analyze语句”参数配置仅用于单表迁移场景。执行Analyze语句可能会对Hive造成压力。是内部写队列内存最大值当出现内存不足场景时，请酌情修改该参数，当参数过小时，会影响迁移速率。取值范围是1-128，默认为空，不做限制，单位为MB，超出范围会设置为不限制。 16 内部转换队列内存最大值当出现内存不足场景时，请酌情修改该参数，当参数过小时，会影响迁移速率。取值范围是1-128，默认为空，不做限制，单位为MB，超出范围会设置为不限制。 16 源端Hive包含array和map类型时，目的端表格式只支持ORC和parquet复杂类型。若目的端表格式为RC和TEXT时，会对源数据进行处理，支持成功写入。因map类型为无序的数据结构，迁移到目的端的数据类型可能跟源端顺序不一致。 Hive作为迁移的目的时，如果存储格式为Textfile，在Hive创建表的语句中需要显式指定分隔符。例如： CREATE TABLE csv_tbl( smallint_value smallint, tinyint_value tinyint, int_value int, bigint_value bigint, float_value float, double_value double, decimal_value decimal(9, 7), timestmamp_value timestamp, date_value date, varchar_value varchar(100), string_value string, char_value char(20), boolean_value boolean, binary_value binary, varchar_null varchar(100), string_null string, char_null char(20), int_null int ) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES ( "separatorChar" = "\t", "quoteChar" = "'", "escapeChar" = "\\" ) STORED AS TEXTFILE; 父主题：配置CDM作业目的端参数

云数据迁移 CDM 配置CDM作业目的端参数
数据治理中心 DATAARTS STUDIO-配置HBase/CloudTable目的端参数

配置HBase/CloudTable目的端参数作业中目的连接为HBase连接或CloudTable连接时，即导入数据到以下数据源时，目的端作业参数如表1所示。表1 HBase/CloudTable作为目的端时的作业参数参数名说明取值样例表名写入数据的HBase表名。如果是创建新HBase表，支持从源端复制字段名。单击输入框后面的按钮可进入表的选择界面。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 TBL_2 导入前清空数据选择目的端表中数据的处理方式：是：任务启动前会清除目标表中数据。否：导入前不清空目标表中的数据，如果选“否”且表中有数据，则数据会追加到已有的表中。是自动创表只有当源端为关系数据库时，才有该参数。表示写入表数据时，用户选择的操作：不自动创建：不自动建表。不存在时创建：当目的端的数据库没有“表名”参数中指定的表时，CDM会自动创建该表。如果“表名”参数配置的表已存在，则不创建，数据写入到已存在的表中。说明： Hbase自动建表包含列族与协处理器Coprocessor信息。其他属性按默认值设置，不跟随源端。不自动创建 Row key拼接分隔符可选参数，用于多列合并作为rowkey，默认为空格。 , Rowkey冗余可选参数，是否将选做Rowkey的数据同时写入HBase的列，默认值“否”。否压缩算法可选参数，创建新HBase表时采用的压缩算法，默认为值“NONE”。 NONE：不压缩。 SNAPPY：压缩为Snappy格式。 GZ：压缩为GZ格式。 NONE WAL开关选择是否开启HBase的预写日志机制（WAL，Write Ahead Log）。是：开启后如果出现HBase服务器宕机，则可以从WAL中回放执行之前没有完成的操作。否：关闭时能提升写入性能，但如果HBase服务器宕机可能会造成数据丢失。否匹配数据类型是：源端数据库中的Short、Int、Long、Float、Double、Decimal类型列的数据，会转换为Byte[]数组（二进制）写入HBase，其他类型的按字符串写入。如果这几种类型中，有合并做rowkey的，则依然当字符串写入。该功能作用是：降低存储占用空间，存储更高效；特定场景下rowkey分布更均匀。否：源端数据库中所有类型的数据，都会按照字符串写入HBase。否父主题：配置CDM作业目的端参数

数据治理中心 DATAARTS STUDIO 配置CDM作业目的端参数
数据治理中心 DATAARTS STUDIO-配置OBS目的端参数

配置OBS目的端参数作业中目的连接为OBS连接时，即导入数据到云服务OBS时，目的端作业参数如表1所示。高级属性里的参数为可选参数，默认隐藏，单击界面上的“显示高级属性”后显示。表1 OBS作为目的端时的作业参数参数类型参数名说明取值样例基本参数桶名写入数据的OBS桶名。 bucket_2 写入目录写入数据到OBS服务器的目录，目录前面不加“/”。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 directory/ 文件格式写入后的文件格式，可选择以下文件格式： CSV格式：按CSV格式写入，适用于数据表到文件的迁移。二进制格式：选择“二进制格式”时不解析文件内容直接传输，CDM会原样写入文件，不改变原始文件格式，适用于文件到文件的迁移。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，此处的“文件格式”只能选择与源端的文件格式一致。说明：当源端为 MRS Hive数据源时，仅支持配置CSV格式。当源端为FTP/SFTP数据源时，仅支持配置二进制格式。 CSV格式重复文件处理方式当源端为HDFS数据源时配置。只有文件名和文件大小都相同才会判定为重复文件。写入时如果出现文件重复，可选择如下处理方式：替换重复文件跳过重复文件停止任务具体使用方法可参见文件增量迁移。跳过重复文件高级属性加密方式选择是否对上传的数据进行加密，以及加密方式：无：不加密，直接写入数据。 KMS：使用数据加密服务中的KMS进行加密。如果启用KMS加密则无法进行数据的MD5校验。详细使用方法请参见迁移文件时加解密。 KMS KMS ID 写入文件时加密使用的密钥，“加密方式”选择“KMS”时显示该参数。单击输入框后面的，可以直接选择在数据加密服务中已创建好的KMS密钥。当使用与CDM集群相同项目下的KMS密钥时，不需要修改下面的“项目ID”参数。当用户使用其它项目下的KMS密钥时，需要修改下面的“项目ID”参数。 53440ccb-3e73-4700-98b5-71ff5476e621 项目ID KMS ID所属的项目ID，该参数默认值为当前CDM集群所属的项目ID。当“KMS ID”与CDM集群在同一个项目下时，这里的“项目ID”保持默认即可。当“KMS ID”使用的是其它项目下的KMS ID时，这里需要修改为KMS所属的项目ID。 9bd7c4bd54e5417198f9591bef07ae67 复制Content-Type属性 “文件格式”为“二进制”，且源端、目的端都为对象存储时，才有该参数。选择“是”后，迁移对象文件时会复制源文件的Content-Type属性，主要用于静态网站的迁移场景。归档存储的桶不支持设置Content-Type属性，所以如果开启了该参数，目的端选择写入的桶时，必须选择非归档存储的桶。否换行符文件中的换行符，默认自动识别“\n”、“\r”或“\r\n”。“文件格式”为“二进制格式”时该参数值无效。 \n 字段分隔符文件中的字段分隔符。“文件格式”为“二进制格式”时该参数值无效。 , 写入文件大小源端为数据库时该参数才显示，支持按大小分成多个文件存储，避免导出的文件过大，单位为MB。 1024 校验MD5值使用“二进制格式”传输文件时，才能校验MD5值。选择校验MD5值时，无法使用KMS加密。计算源文件的MD5值，并与OBS返回的MD5值进行校验。如果源端已经存在MD5文件，则直接读取源端的MD5文件与OBS返回的MD5值进行校验，具体请参见MD5校验文件一致性。是记录校验结果当选择校验MD5值时，可以选择是否记录校验结果。是校验结果写入连接可以指定任意一个OBS连接，将MD5校验结果写入该连接的桶下。 obslink OBS桶写入MD5校验结果的OBS桶。 cdm05 写入目录写入MD5校验结果的目录。 /md5/ 编码类型文件编码类型，例如：“UTF-8”或“GBK”。“文件格式”为“二进制格式”时该参数值无效。 GBK 使用包围符 “文件格式”为“CSV格式”，才有该参数，用于将数据库的表迁移到文件系统的场景。选择“是”时，如果源端数据表中的某一个字段内容包含字段分隔符或换行符，写入目的端时CDM会使用双引号（"）作为包围符将该字段内容括起来，作为一个整体存储，避免其中的字段分隔符误将一个字段分隔成两个，或者换行符误将字段换行。例如：数据库中某字段为hello,world，使用包围符后，导出到CSV文件的时候数据为"hello,world"。否首行为标题行从关系型数据库导出数据到OBS，“文件格式”为“CSV格式”时，才有该参数。在迁移表到CSV文件时，CDM默认是不迁移表的标题行，如果该参数选择“是”，CDM在才会将表的标题行数据写入文件。否作业成功标识文件当作业执行成功时，会在写入目录下生成一个标识文件，文件名由用户指定。不指定时默认关闭该功能。 finish.txt 文件夹模式从关系型数据库导出数据到OBS，才有该参数。启用后将会以根目录-表名-数据类型-数据的文件夹模型生成文件。例如：raw_schema/tbl_student/datas/tbl_student_1.csv 是 Blog/Clog文件扩展名 “文件夹模式”为“是”时，才有该参数。文件夹模式下自定义Blob/Clog数据的文件扩展名。 .dat/.jpg/.png 自定义目录层次选择“是”时，支持迁移后的文件按照自定义的目录存储。即只迁移文件，不迁移文件所归属的目录。是目录层次自定义迁移后文件的存储路径，支持时间宏变量。说明：源端为关系型数据库数据源时，目录层次为源端表名+自定义目录，其他场景下为自定义目录。 ${dateformat(yyyy-MM-dd HH:mm:ss, -1, DAY)} 自定义文件名从关系型数据库导出数据到OBS，且“文件格式”为“CSV格式”时，才有该参数。用户可以通过该参数自定义OBS端生成的文件名，支持以下自定义方式：字符串，支持特殊字符。例如“cdm#”，则生成的文件名为“cdm#.csv”。时间宏，例如“${timestamp()}”，则生成的文件名为“1554108737.csv”。表名宏，例如“${tableName}”，则生成的文件名为源表名“sqltabname.csv”。版本宏，例如“${version}”，则生成的文件名为集群版本号“2.9.2.200.csv”。字符串和宏（时间宏/表名宏/版本宏）任意组合，例如“cdm#${timestamp()}_${version}”，则生成的文件名为“cdm#1554108737_2.9.2.200.csv”。 cdm 父主题：配置CDM作业目的端参数

数据治理中心 DATAARTS STUDIO 配置CDM作业目的端参数
云数据迁移 CDM-配置OBS目的端参数

配置OBS目的端参数作业中目的连接为OBS连接时，即导入数据到云服务OBS时，目的端作业参数如表1所示。高级属性里的参数为可选参数，默认隐藏，单击界面上的“显示高级属性”后显示。表1 OBS作为目的端时的作业参数参数类型参数名说明取值样例基本参数桶名写入数据的OBS桶名。 bucket_2 写入目录写入数据到OBS服务器的目录，目录前面不加“/”。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 directory/ 文件格式写入后的文件格式，可选择以下文件格式： CSV格式：按CSV格式写入，适用于数据表到文件的迁移。二进制格式：选择“二进制格式”时不解析文件内容直接传输，CDM会原样写入文件，不改变原始文件格式，适用于文件到文件的迁移。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，此处的“文件格式”只能选择与源端的文件格式一致。说明：当源端为MRS Hive数据源时，仅支持配置CSV格式。当源端为FTP/SFTP数据源时，仅支持配置二进制格式。 CSV格式重复文件处理方式当源端为HDFS数据源时配置。只有文件名和文件大小都相同才会判定为重复文件。写入时如果出现文件重复，可选择如下处理方式：替换重复文件跳过重复文件停止任务具体使用方法可参见文件增量迁移。跳过重复文件高级属性加密方式选择是否对上传的数据进行加密，以及加密方式：无：不加密，直接写入数据。 KMS：使用数据加密服务中的KMS进行加密。如果启用KMS加密则无法进行数据的MD5校验。详细使用方法请参见迁移文件时加解密。 KMS KMS ID 写入文件时加密使用的密钥，“加密方式”选择“KMS”时显示该参数。单击输入框后面的，可以直接选择在数据加密服务中已创建好的KMS密钥。当使用与CDM集群相同项目下的KMS密钥时，不需要修改下面的“项目ID”参数。当用户使用其它项目下的KMS密钥时，需要修改下面的“项目ID”参数。 53440ccb-3e73-4700-98b5-71ff5476e621 项目ID KMS ID所属的项目ID，该参数默认值为当前CDM集群所属的项目ID。当“KMS ID”与CDM集群在同一个项目下时，这里的“项目ID”保持默认即可。当“KMS ID”使用的是其它项目下的KMS ID时，这里需要修改为KMS所属的项目ID。 9bd7c4bd54e5417198f9591bef07ae67 复制Content-Type属性 “文件格式”为“二进制”，且源端、目的端都为对象存储时，才有该参数。选择“是”后，迁移对象文件时会复制源文件的Content-Type属性，主要用于静态网站的迁移场景。归档存储的桶不支持设置Content-Type属性，所以如果开启了该参数，目的端选择写入的桶时，必须选择非归档存储的桶。否换行符文件中的换行符，默认自动识别“\n”、“\r”或“\r\n”。“文件格式”为“二进制格式”时该参数值无效。 \n 字段分隔符文件中的字段分隔符。“文件格式”为“二进制格式”时该参数值无效。 , 写入文件大小源端为数据库时该参数才显示，支持按大小分成多个文件存储，避免导出的文件过大，单位为MB。 1024 校验MD5值使用“二进制格式”传输文件时，才能校验MD5值。选择校验MD5值时，无法使用KMS加密。计算源文件的MD5值，并与OBS返回的MD5值进行校验。如果源端已经存在MD5文件，则直接读取源端的MD5文件与OBS返回的MD5值进行校验，具体请参见MD5校验文件一致性。是记录校验结果当选择校验MD5值时，可以选择是否记录校验结果。是校验结果写入连接可以指定任意一个OBS连接，将MD5校验结果写入该连接的桶下。 obslink OBS桶写入MD5校验结果的OBS桶。 cdm05 写入目录写入MD5校验结果的目录。 /md5/ 编码类型文件编码类型，例如：“UTF-8”或“GBK”。“文件格式”为“二进制格式”时该参数值无效。 GBK 使用包围符 “文件格式”为“CSV格式”，才有该参数，用于将数据库的表迁移到文件系统的场景。选择“是”时，如果源端数据表中的某一个字段内容包含字段分隔符或换行符，写入目的端时CDM会使用双引号（"）作为包围符将该字段内容括起来，作为一个整体存储，避免其中的字段分隔符误将一个字段分隔成两个，或者换行符误将字段换行。例如：数据库中某字段为hello,world，使用包围符后，导出到CSV文件的时候数据为"hello,world"。否首行为标题行从关系型数据库导出数据到OBS，“文件格式”为“CSV格式”时，才有该参数。在迁移表到CSV文件时，CDM默认是不迁移表的标题行，如果该参数选择“是”，CDM在才会将表的标题行数据写入文件。否作业成功标识文件当作业执行成功时，会在写入目录下生成一个标识文件，文件名由用户指定。不指定时默认关闭该功能。 finish.txt 文件夹模式从关系型数据库导出数据到OBS，才有该参数。启用后将会以根目录-表名-数据类型-数据的文件夹模型生成文件。例如：raw_schema/tbl_student/datas/tbl_student_1.csv 是 Blog/Clog文件扩展名 “文件夹模式”为“是”时，才有该参数。文件夹模式下自定义Blob/Clog数据的文件扩展名。 .dat/.jpg/.png 自定义目录层次选择“是”时，支持迁移后的文件按照自定义的目录存储。即只迁移文件，不迁移文件所归属的目录。是目录层次自定义迁移后文件的存储路径，支持时间宏变量。说明：源端为关系型数据库数据源时，目录层次为源端表名+自定义目录，其他场景下为自定义目录。 ${dateformat(yyyy-MM-dd HH:mm:ss, -1, DAY)} 自定义文件名从关系型数据库导出数据到OBS，且“文件格式”为“CSV格式”时，才有该参数。用户可以通过该参数自定义OBS端生成的文件名，支持以下自定义方式：字符串，支持特殊字符。例如“cdm#”，则生成的文件名为“cdm#.csv”。时间宏，例如“${timestamp()}”，则生成的文件名为“1554108737.csv”。表名宏，例如“${tableName}”，则生成的文件名为源表名“sqltabname.csv”。版本宏，例如“${version}”，则生成的文件名为集群版本号“2.9.2.200.csv”。字符串和宏（时间宏/表名宏/版本宏）任意组合，例如“cdm#${timestamp()}_${version}”，则生成的文件名为“cdm#1554108737_2.9.2.200.csv”。 cdm 父主题：配置CDM作业目的端参数

云数据迁移 CDM 配置CDM作业目的端参数