检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
常量参数即参数值是固定的参数,不需要重新配置值。例如“lable”=“friends”用来标识常量值。 变量 您可以使用时间宏、表名宏、版本宏等变量来标记数据库来源信息。变量的语法:${variable},其中“variable”指的是变量。例如“input_time”=“${timestamp()}”用来标识当前时间的时间戳。
文中提供的性能指标仅用于参考,实际环境会受源或目标数据源性能、网络带宽及时延、数据及业务模型等因素影响。推荐您在正式迁移前,可先用小数据量实测进行速度摸底。 环境信息 CDM集群为xlarge规格,2.9.1 200版本。 性能测试中,表数据规格为5000W行100列,HDFS二进制文件数据规格分别为3
在集群管理界面,找到步骤1:创建集群章节创建的集群“cdm-aff1”。 单击该CDM集群后的“作业管理”,进入作业管理界面。 选择“表/文件迁移 > 新建作业”,配置作业基本信息。 图1 新建作业 作业名称:输入便于记忆、区分的作业名称,例如:“mysql2dws”。 源端作业配置 源连接名称:选择步骤2:创建连接
当源端为Kafka时,如果DLI导入前清空数据,则不支持INSERT_OVERWRITE。 TRUNCATE 分区 “导入前清空数据”设置为“是”时,呈现此参数。 填写分区信息后,表示清空该分区的数据。 year=2020,location=sun 新增dli-trans*内部临时桶授权策略 登录统一身份认证服务IAM控制台。
作业执行成功后,单击作业操作列的“历史记录”,可查看该作业的历史执行记录、读取和写入的统计数据。 在历史记录界面单击“日志”,可查看作业的日志信息。 前往目的端数据源查看数据迁移的入库时间。 父主题: 关键操作指导
CDM转换空字符串表达式StringUtils.defaultIfEmpty不生效怎么解决? 当Hudi表属性和hoodie.properties文件中分区信息不一致时,会导致数据写入失败怎么解决? 当MySQL、Oracle、PostgreSQL作为源端时,如果作业报错“Read timed out”怎么处理?
目的端为分区表时,Hive表清理数据模式建议设置为LOAD_OVERWRITE模式,否则可能会有集群内存过载/磁盘过载的风险。 TRUCATE 分区信息 “导入前清空数据”设置为“是”时,呈现此参数。目的端为分区表时,必须指定分区。 当使用TRUCATE模式:只清理分区下的数据文件。 当使
datastore String 服务ID,用于区分不同服务。 links Array of ClusterLinks objects 链接信息。 表6 ClusterLinks 参数 参数类型 描述 rel String 关系。 href String 链接地址。 请求示例 GET
code String 返回编码。 errCode String 错误码。 message String 报错信息。 externalMessage String 附加信息。 状态码: 500 表14 响应Body参数 参数 参数类型 描述 message String 错误描述。
200 表4 响应Body参数 参数 参数类型 描述 submissions Array of Submission objects 作业运行信息,详见submissions参数说明。 total Integer 查询该作业总的历史记录数。 page_no Integer 查询作业记录时,分页数。
CDM与其他数据迁移服务有什么区别,如何选择? 华为云上涉及数据迁移的服务有以下几种: 云数据迁移服务 CDM 对象存储迁移服务 OMS 数据复制服务 DRS 主机迁移服务 SMS 数据库和应用迁移 UGO 数据快递服务 DES 上述数据迁移服务的区别请参见各个数据迁移服务区别。
200 表3 响应Body参数 参数 参数类型 描述 submissions Array of Submission objects 作业运行信息,详见submissions参数说明。 表4 Submission 参数 参数类型 描述 isIncrementing Boolean 作业是否为增量迁移。
cdm/v1.0/"+PROJECT_ID+"/clusters/"+CLUSTER_ID+"/cdm/job"); /**此处JSON信息比较复杂,可以先在作业管理界面上创建一个作业,然后单击作业后的“作业JSON定义”,复制其中的JSON内容,格式化为Java字符串语法,然后粘贴到此处。
常量参数即参数值是固定的参数,不需要重新配置值。例如“lable”=“friends”用来标识常量值。 变量 您可以使用时间宏、表名宏、版本宏等变量来标记数据库来源信息。变量的语法:${variable},其中“variable”指的是变量。例如“input_time”=“${timestamp()}”用来标识当前时间的时间戳。
作业JSON就是创建CDM作业的请求消息体模板,URL地址中[Endpoint]、{project_id}、{cluster_id}需要替换为您实际的信息: [Endpoint]:终端节点。 终端节点(Endpoint)即调用API的请求地址,不同服务不同区域的终端节点不同。本服务的Endp
code String 返回编码。 errCode String 错误码。 message String 报错信息。 externalMessage String 附加信息。 请求示例 创建一个源端为Elasticsearch数据连接,目的端为DIS数据连接,作业名为es_css的数据迁移作业。
配置OBS源端参数 作业中源连接为OBS连接时,源端作业参数如表1所示。 高级属性里的参数为可选参数,默认隐藏,单击界面上的“显示高级属性”后显示。 表1 源端为OBS时的作业参数 参数类型 参数名 说明 取值样例 基本参数 桶名 待迁移数据所在的桶名。 BUCKET_2 源目录或文件
code String 返回编码。 errCode String 错误码。 message String 报错信息。 externalMessage String 附加信息。 请求示例 修改一个源端为Elasticsearch数据连接,目的端为DIS数据连接,作业名为es_css的表数据迁移作业。
多个数据段联合做主键的场景,建议设置所有主键作为分布列。 在没有主键的场景下,如果没有选择分布列,DWS会默认第一列作为分布列,可能会有数据倾斜风险。 脱敏 隐藏字符串中的关键信息,例如要将“12345678910”转换为“123****8910”,则配置如下: “起始保留长度”为“3”。 “结尾保留长度”为“4”。
多个数据段联合做主键的场景,建议设置所有主键作为分布列。 在没有主键的场景下,如果没有选择分布列,DWS会默认第一列作为分布列,可能会有数据倾斜风险。 脱敏 隐藏字符串中的关键信息,例如要将“12345678910”转换为“123****8910”,则配置如下: “起始保留长度”为“3”。 “结尾保留长度”为“4”。