检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
fromJobConfig.inputDirectory 是 String 抽取文件的路径。支持输入多个文件路径(最多50个),默认以“|”分隔,也可以自定义文件分隔符,例如:“FROM/example.csv|FROM/b.txt”。 fromJobConfig.inputFormat 是
不能使用无符号的浮点数字。可以定义显示长度(M)和小数位数(D)。这不是必需的,并且默认为10,2。其中2是小数的位数,10是数字(包括小数)的总数。小数精度可以到24个浮点。 52.36 FLOAT FLOAT4 DOUBLE(M,D) 不能使用无符号的双精度浮点数。可以定义显示长度(M)和小数位数(D)。
“是否写入脏数据”选择为“是”时,该参数才显示。 OBS上存储脏数据的目录,只有在配置了脏数据目录的情况下才会记录脏数据。 用户可以进入脏数据目录,查看作业执行过程中处理失败的数据或者被清洗过滤掉的数据,针对该数据可以查看源数据中哪些数据不符合转换、清洗规则。 /user/dirtydir 单个分片的最大错误记录数
配置Redis源端参数 第三方云的Redis服务无法支持作为源端。如果是用户在本地数据中心或ECS上自行搭建的Redis支持作为源端或目的端。 作业中源连接为从本地Redis导出的数据时,源端作业参数如表1所示。 表1 Redis作为源端时的作业参数 参数类型 参数名 说明 取值样例
在开通CDM时有4种集群规格供您选择,您可根据业务需要选择合适的实例规格。 当集群创建成功后,无法对集群进行规格变更,不过您可以通过删除集群后重建集群,实现变更。 续费 资源包到期后,您可以进行续费以延长资源包的有效期,也可以设置到期自动续费。 到期与欠费 折扣套餐资源包到期后,自动转为按需计费。转按需后如果账号欠
如果之前执行过自动备份,“配置管理”页签下会显示备份列表:显示备份文件所在的OBS桶、路径、备份时间。 您可以单击备份列表操作列的“恢复备份”来恢复CDM作业。 作业参数的环境变量 CDM在创建迁移作业时,可以手动输入的参数(例如OBS桶名、文件路径等)、参数中的某个字段、或者字段中的某个字符,都
是否支持同步作业到其他集群? 问题描述 CDM是否支持同步作业到其他集群? 解决方案 CDM虽然不支持直接在不同集群间迁移作业,但是通过批量导出、批量导入作业的功能,可以间接实现集群间的作业迁移,方法如下: 将CDM集群1中的所有作业批量导出,将作业的JSON文件保存到本地。 由于安全原因,CDM导出作业时
Studio控制台首页,选择对应工作空间的“数据集成”模块,进入CDM首页。 图1 集群列表 “创建来源”列仅通过DataArts Studio服务进入数据集成界面可以看到。 选择集群操作列中的“更多 > 下载日志”,选择下载日志类型。 图2 下载日志类型 确认后,即可下载日志到本地。 父主题: 创建并管理CDM集群
目前,华为云已在全球多个地域开放云服务,您可以根据需求选择适合自己的区域和可用区。更多信息请参见华为云全球站点。 如何选择区域? 选择区域时,您需要考虑以下几个因素: 地理位置 一般情况下,建议就近选择靠近您或者您的目标用户的区域,这样可以减少网络时延,提高访问速度。不过,在基础设
varying。类似的问题还有string转bigint,bigint转int。 解决方案 根据报错信息找到哪个字段映射有问题,找DBA修改表结构。 如果只有极少数据有问题,可以配置脏数据策略解决。 父主题: 故障处理类
输入后端数据库的IP、端口、数据库名称、账户名、密码,以“:”隔开。即ip:port:dbs:username:password,其中username:password可以不填,此时以“用户名”、“密码”配置为准。 如果此处有多个后端数据库,需要确保表结构一致,并使用“|”分隔数据源。如果密码包含“|”或者“:”,可使用“\”转义。
参数位置:在创建表/文件迁移作业时,如果源端数据源为文件类型,那么源端作业参数的高级属性中可以看到“过滤类型”参数,该参数可选择:通配符或正则表达式。 参数原理:“过滤类型”选择“通配符”时,CDM就可以通过用户配置的通配符过滤文件或路径,CDM只迁移满足指定条件的文件或路径。 配置样例:
MongoDB/DDS增量迁移 使用CDM导出MongoDB或者DDS的数据时,支持导出指定时间段内的数据,配合CDM的定时任务,可以实现MongoDB/DDS的增量迁移。 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替
API概览 CDM所提供的API为自研API。通过配合使用CDM自研API,您可以使用CDM的如下功能。 表1 CDM API概览 类型 API 说明 用户流量限制(单位时间内的单个 用户请求次数上限) 集群管理API 创建集群 创建CDM集群。 5次/min 查询集群列表 查询并显示集群列表。
问题分析 日志中出现源端的read timeout报错,或者terminate by xxx之类的报错。 解决方案 如果源端网络不稳定,可以使用分片重试能力多次执行作业,可能需要调整作业配置。 如作业配置了分片数,或者源端为分区表,且作业配置了按表分区抽取,则单击更多-分片重试
线较慢,可以再执行一次以下命令检查一下: hbase hbck 表名 如果出现“Status : OK”则表示HBase表恢复成功。 执行完fixAssignments命令后,错误提示多个region有相同的startkey,部分region存在overlap情况: 可以再执行:
CDM集群Hive连接无法查询库和表的内容 问题描述 cdm集群hive连接无法查询到数据库和表的内容,手动配置库和表后字段可以显示,但报错hive 客户端初始化失败,无效的方案: get_table_req。 解决方案 用户的MRS集群是1.8.1,CDM为2.6.0。 报错看CDM封装的Hive
表示要抽取的表名。单击输入框后面的按钮可进入表的选择界面,用户也可以直接输入表名称。 如果选择界面没有待选择的表,请确认表是否已经创建,或者对应连接里的账号是否有元数据查询的权限。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。
性能调优 概述 根据数据迁移模型分析,除了源端读取速度、目的端写入性能、带宽优化外,您也可以通过如下方式优化作业迁移速度: 使用大规格CDM集群 不同规格的CDM集群网卡带宽、集群最大抽取并发数等有所差异。如果您有较高的迁移速度需求,或当前CDM集群的CPU使用率、磁盘使用率、内
修改CDM迁移作业,通过使用SQL语句的方式迁移。 SQL语句格式为:“select id,cast(原字段名 as INT) as 新字段名可以和原字段名一样 from schemaName.tableName;” 例如:select `id`, `name`, cast(`gender`