检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
根据迁移模型,可以看出CDM数据迁移的速率受源端读取速度、网络带宽、目的端写入性能、CDM集群和作业配置等因素影响。 表1 性能影响因素 影响因素 说明 业务相关因素 作业抽取并发数配置 创建CDM迁移作业时,支持设置该作业的抽取并发数。 该参数设置为适当的值可以有效提升迁移速度,过小则会
配置MongoDB目的端参数 作业中目的连接为MongoDB连接时,目的端作业参数如表1所示。 表1 MongoDB作为目的端时的作业参数 参数名 说明 取值样例 数据库名称 选择待导入数据的数据库。 mddb 集合名称 选择待导入数据的集合,相当于关系数据库的表名。单击输入框后面的按钮可
参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 hivelink Manager IP MRS Manager的浮动IP地址,可以单击输入框后的“选择”来选定已创建的MRS集群,CDM会自动填充下面的鉴权参数。 说明: 当前DataArts
参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 hivelink Manager IP MRS Manager的浮动IP地址,可以单击输入框后的“选择”来选定已创建的MRS集群,CDM会自动填充下面的鉴权参数。 说明: 当前DataArts
制,此场景可能会导致数据写入后精度丢失。 表1 MySQL->Hive自动建表时的字段映射 数据类型(MySQL) 数据类型(Hive) 说明 数值类型 tinyint(1),bit(1) BOOLEAN - TINYINT SMALLINT - TINYINT UNSIGNED
议使用的组件版本有哪些? 建议使用的组件版本既可以作为目的端使用,也可以作为源端使用。 表1 建议使用的组件版本 Hadoop类型 组件 说明 MRS/Apache/FusionInsight HD Hive 暂不支持2.x版本,建议使用的版本: 1.2.X 3.1.X HDFS
Apache HDFS Apache HBase Apache Hive Apache集群场景下,此处仅说明需要哪些配置文件与打包原则,各配置文件的具体获取方式请参见对应版本说明文档。 HDFS需要将以下文件压缩为无目录格式的zip包: hosts core-site.xml hdfs-site
用区内。 如果您的应用要求实例之间的网络延时较低,则建议您将资源创建在同一可用区内。 区域和终端节点 终端节点(Endpoint)即调用API的请求地址,不同服务不同区域的终端节点不同。本服务的Endpoint可从终端节点Endpoint获取。
配置DLI源端参数 作业中源连接为DLI连接时,源端作业参数如表1所示。 表1 DLI作为源端时的作业参数 参数名 说明 取值样例 资源队列 选择目的表所属的资源队列。 DLI的default队列无法在迁移作业中使用,您需要在DLI中新建SQL队列。 cdm 数据库名称 写入数据的数据库名称。
insert into xx select * from xxx DISTRIBUTE BY rand(); 使用DataArts Studio API方式提交Spark SQL,调大executor内存。 排查是否有其他连接在同时写hudi表,如果有,将连接停止,然后CDM作业失败重试。
委托配置 配置委托后,作业执行过程中,以委托的身份与其他服务交互。 说明: 作业级委托优先于工作空间级委托。 日志路径 选择作业日志的OBS存储路径。日志默认存储在以dlf-log-{Projectid}命名的桶中。 说明: 若您想自定义存储路径,请参见(可选)修改作业日志存储路径选择您已在OBS服务侧创建的桶。
或目的端。 作业中源连接为从本地Redis导出的数据时,源端作业参数如表1所示。 表1 Redis作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 Redis键前缀 键的前缀,类似关系型数据库的表名。 TABLE 值存储类型 仅支持以下数据格式: STRING:不带列名,如“值1,值2”形式。
续校验。 分批配置迁移任务,保证迁移进度与速度。 校验文件个数以及文件大小。 在MRS中恢复HBase表并验证。 准备数据 项目 数据项 说明 取值示例 DES盒子 挂载地址 DES盒子在客户的虚拟机挂载的地址。 //虚拟机IP/huawei 存储管理系统 DES盒子的存储管理系统,与管理IP相关。
您需要定期手动清理备份文件。 前提条件 已创建OBS连接,详情请参见OBS连接参数说明。 定时备份 在CDM作业管理界面,单击“配置管理”页签,配置定时备份的参数。 表2 定时备份参数 参数 说明 配置样例 定时备份 自动备份功能的开关,该功能只备份作业,不会备份连接。 开 备份策略
制格式或其他格式的消息内容解析。 作业中源连接为DIS连接时,源端作业参数如所表1示。 表1 DIS作为源端时的作业参数 参数类型 参数 说明 取值样例 基本参数 DIS通道 DIS的通道名。 dis 是否持久运行 用户自定义是否永久运行。设置为长久运行的任务,如果DIS系统发生中断,任务也会失败结束。
CDM迁移原理 用户使用CDM服务时,CDM管理系统在用户VPC中发放全托管的CDM实例。此实例仅提供控制台和Rest API访问权限,用户无法通过其他接口(如SSH)访问实例。这种方式保证了CDM用户间的隔离,避免数据泄漏,同时保证VPC内不同华为云服务间数据迁移时的传输安全
执行Region上线命令。 hbase hbck –fixAssignments table_20180811 出现“Status: OK”则说明恢复表成功。 使用快照迁移并恢复会变的数据 在源端CDH集群HBase shell中执行: flush <table name> 在源端CDH集群HBase
作业中源连接为HTTP连接时,源端作业参数如表1所示。当前只支持从HTTP URL导出数据,不支持导入。 表1 HTTP/HTTPS作为源端时的作业参数 参数名 说明 取值样例 文件URL 通过使用GET方法,从HTTP/HTTPS协议的URL中获取数据。 用于读取一个公网HTTP/HTTPS URL的
t”转换为“Cat”。 表达式:StringUtils.capitalize(value) 如果当前字段值为字符串类型,将首字母转换为小写,例如将“Cat”转换为“cat”。 表达式:StringUtils.uncapitalize(value) 如果当前字段值为字符串类型,使用
参考:CDM性能实测数据 背景说明 文中提供的性能指标仅用于参考,实际环境会受源或目标数据源性能、网络带宽及时延、数据及业务模型等因素影响。推荐您在正式迁移前,可先用小数据量实测进行速度摸底。 环境信息 CDM集群为xlarge规格,2.9.1 200版本。 性能测试中,表数据规