检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
fromJobConfig.type 是 String 抽取数据的类型,类似关系数据库中的表名。 fromJobConfig.columnList 否 String 需要抽取的字段列表,字段名之间使用“&”分隔,例如:“id&gid&name”。 fromJobConfig.splitNestedField
多并发抽取/写入速率,定义为分别取作业抽取并发数为1、10、20、30、50时,最大的抽取/写入速率。 数据源抽取写入性能实测数据 常见数据源的性能实测结果分别如表1和表2所示。 表1 读取性能实测数据 数据源 数据源规格 版本 单并发抽取速率(行/s) 多并发抽取速率(行/s) 云数据库 MySQL 8U 32G
当作业将数据导入到Doris时,目的端作业参数如表1所示。 表1 Doris作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 模式或表空间 待写入数据的数据库名称,支持自动创建Schema。单击输入框后面的按钮可选择模式或表空间。 schema 表名 写入数据的目标表名,单击输入框后面的按钮可进入表的选择界面。
时间区间左边界(包含该值),格式为“yyyy-MM-dd hh:mm:ss”。 表示只抽取该时间及以后的数据。 fromJobConfig.endTime 否 String 时间区间右边界(不包含该值),格式为“yyyy-MM-dd hh:mm:ss”。 表示只抽取该时间以前的数据。 fromJobConfig
只有当源端为关系数据库时,才有该参数。表示写入表数据时,用户选择的操作: 不自动创建:不自动建表。 不存在时创建:当目的端的数据库没有“表名”参数中指定的表时,CDM会自动创建该表。如果“表名”参数配置的表已存在,则不创建,数据写入到已存在的表中。 先删除后创建:CDM先删除“表名”参数中指定的表,然后再重新创建该表。
统计分析。 图1 场景方案 DLI创建OBS外表,对OBS表数据存储格式有所要求: 使用DataSource语法创建OBS表时,支持orc,parquet,json,csv,carbon,avro类型。 使用Hive语法创建OBS表时,支持TEXTFILE, AVRO, ORC,
操作步骤 进入CDM主界面,单击左侧导航上的“集群管理”,选择集群后的“作业管理”。 单击“表/文件迁移”显示作业列表,提供以下批量操作: 作业分组 CDM支持对分组进行新增、修改、查找、删除。删除分组时,会将组内的所有作业都删除。 创建作业的任务配置中,如果已经将作业分配到了不
已创建集群。 已参见表1下载对应的驱动。 已参见FTP/SFTP连接参数说明创建SFTP连接并将对应的驱动上传至线下文件服务器(可选)。 如何获取驱动 不同类型的关系数据库,需要适配不同类型的驱动。注意,上传的驱动版本不必与待连接的数据库版本相匹配,直接参考表1获取建议版本的JDK8
创建并管理CDM集群 创建CDM集群 解绑/绑定CDM集群的EIP 重启CDM集群 删除CDM集群 下载CDM集群日志 查看并修改CDM集群配置 管理集群标签 管理并查看CDM监控指标
通过调用IAM服务获取用户Token接口获取(响应消息头中X-Subject-Token的值)。 表3 请求Body参数 参数 是否必选 参数类型 描述 jobs 是 Array of Job objects 作业列表,请参见jobs数据结构说明。 表4 Job 参数 是否必选 参数类型 描述 job_type 是
首行为标题行 从关系型数据库导出数据到OBS,“文件格式”为“CSV格式”时,才有该参数。 在迁移表到CSV文件时,CDM默认是不迁移表的标题行,如果该参数选择“是”,CDM在才会将表的标题行数据写入文件。 否 作业成功标识文件 当作业执行成功时,会在写入目录下生成一个标识文件,文
其它参数保持默认即可。 图1 创建集群1 图2 创建集群2 查看当前配置,确认无误后单击“立即购买”进入规格确认界面。 集群创建好以后不支持修改规格,如果需要使用更高规格,需要重新创建。 单击“提交”,系统开始自动创建CDM集群,在“集群管理”界面可查看创建进度。
使用CDM提供的一系列常用实践。 表1 常用最佳实践 实践 描述 使用教程 创建MRS Hive连接器 MRS Hive连接适用于MapReduce服务,本最佳实践为您介绍如何创建MRS Hive连接器。 MySQL数据迁移到OBS CDM支持表到OBS的迁移,本最佳实践介绍如何
使用Token前请确保Token离过期有足够的时间,防止调用API的过程中Token过期导致调用API失败。 Token在计算机系统中代表令牌(临时)的意思,拥有Token就代表拥有某种权限。Token认证就是在调用API的时候将Token加到请求消息头,从而通过身份认证,获得操作API的权限。
关机时延,仅在stopMode为“GRACEFULLY”生效,单位:秒。该值为-1时,表示等待所有作业完成,并停止接受新作业。该值为大于0的任意值表示等待该时长后关机,并停止接受新作业。 响应参数 状态码: 200 表5 响应Body参数 参数 参数类型 描述 jobId Array of strings
11db3c745:表示cdm.medium规格,4核CPU、8G内存的虚拟机适合单张表规模<1000万条的场景。 5ddb1071-c5d7-40e0-a874-8a032e81a697:表示cdm.large规格,8核CPU、16G内存的虚拟机。适合单张表规模≥1000万条的场景。
这个问题,可以通过将目的端作业参数“扩大字符字段长度”选择“是”来解决,选择此选项后,再创建目的表时会自动将varchar类型的字段长度扩大3倍。 编辑CDM的表/文件迁移作业,目的端作业配置下“自动创表”选择“不存在时创建”,则高级属性下面会出现参数“扩大字符字段长度”,配置该参数为“是”即可,如图2所示。
fromJobConfig.regexSeparator 否 Boolean 是否使用正则表达式分割字段,当文件格式为“CSV_FILE”时此参数有效。 fromJobConfig.regex 否 String 正则表达式,当选择使用正则表达式分割字段时,此参数有效。 fromJobConfig.firstRowAsHeader
CDM有哪些安全防护? 如何降低CDM使用成本? CDM未使用数据传输功能时,是否会计费? 已购买包年包月的CDM套餐包,为什么还会产生按需计费的费用? 如何查看套餐包的剩余时长? 套餐包到期未续订或按需资源欠费时,我的数据会保留吗? CDM可以跨账户使用吗? CDM集群是否支持升级操作? CDM迁移性能如何?
b_name} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目ID和账号ID。 cluster_id 是 String 集群ID。 job_name 是 String 作业名称。 请求参数 表2 请求Header参数