检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选择HBase连接的运行模式: EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。 STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式。
开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 TBL_X hive写入模式 选择hive的写入模式。 TRUNCATE+LOAD:TRUNCATE模式只清理分区下的数据文件,不删除分区。 LOAD:写入前不做任何处理。 LOAD_OVERWRITE:
启动作业。 图6 启动配置 表3 启动配置参数 参数 说明 同步模式 数据源通用同步模式: 增量同步:从指定时间位点开始同步增量数据。 全量+增量:先同步全量数据,随后实时同步增量数据。 Kafka数据源专用同步模式: 最早:从Kafka Topic最早偏移量开始消费数据。 最新:从Kafka
DWS写入优化参数 参数名 类型 默认值 说明 写入模式 enum UPSERT DWS的写入模式,可在目的端配置中设置,实时处理集成作业推荐使用COPY MODE。 UPSERT:为批量更新入库模式。 COPY:为DWS专有的高性能批量入库模式。 批写最大数据量 int 50000 DW
DWS写入优化参数 参数名 类型 默认值 说明 写入模式 enum UPSERT DWS的写入模式,可在目的端配置中设置,实时处理集成作业推荐使用COPY MODE。 UPSERT:为批量更新入库模式。 COPY:为DWS专有的高性能批量入库模式。 批写最大数据量 int 50000 DW
创建数据连接,连接相关数据湖底座服务。具体请参见新建数据连接。 基于相应服务,新建数据库。具体请参见新建数据库。 如果是DWS连接,则需要新建数据库模式;否则直接新建数据表。具体请参见(可选)新建数据库模式。 新建数据表。具体请参见新建数据表。 父主题: 数据管理
参数类型 参数名 说明 取值样例 基本参数 模式或表空间 表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面,分库连接时此处默认展示对应第一个后端连接的表空间。用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的账号是否有元数据查询的权限。
手动 否 通过代理连接时,是必选项。 选择连接模式。如无访问其他项目或企业项目下MRS集群的需求,使用集群名模式即可。 使用集群名模式时,通过选择已有集群名称进行连接配置。仅可选择本项目内且企业项目相同的MRS集群进行连接。 使用连接串模式时,通过手动输入Manager IP,并打通
认证类型 是 使用连接串模式时,是必选项。 访问MRS的认证类型: SIMPLE:非安全模式选择Simple鉴权。 KERBEROS:安全模式选择Kerberos鉴权。 MRS版本 否 使用连接串模式时,是必选项。 选择MRS集群的版本。 组件名 否 使用连接串模式时,是必选项。 选择Spark组件的版本。
基础与网络连通配置 手动 是 选择连接模式。如无访问其他项目或企业项目下MRS集群的需求,使用集群名模式即可。 使用集群名模式时,通过选择已有集群名称进行连接配置。仅可选择本项目内且企业项目相同的MRS集群进行连接。 使用连接串模式时,通过手动输入Manager IP,并打通
hive表清理数据模式 “导入前清空数据”设置为“是”时,呈现此参数。 选择Hive表清理数据模式。 LOAD_OVERWRITE模式:将生成一个临时数据文件目录,使用Hive的load overwrite语法将临时目录加载到Hive表中。 TRUCATE模式:只清理分区下的数据文件,不删除分区。
Studio实例中,工作空间名称必须唯一。 描述 空间的描述信息。 空间模式 选择新建工作新建工作空间的模式。 简单模式:即传统的DataArts Studio工作空间模式,使用方便,但无法对数据开发流程和表权限进行强管控。 企业模式:企业模式下DataArts Studio数据开发组件以及对应管
关键操作指导 增量迁移原理介绍 事务模式迁移 迁移文件时加解密 MD5校验文件一致性 字段转换器配置指导 新增字段操作指导 指定文件名迁移 正则表达式分隔半结构化文本 记录数据迁移入库时间 文件格式介绍 不支持数据类型转换规避指导 自动建表原理介绍 父主题: 数据集成(CDM作业)
其余DWS目的端参数说明请参考下表。 图9 DWS配置项 表7 DWS配置项 配置项 默认值 单位 配置说明 写入模式 UPSERT - UPSERT MODE:批量更新入库模式。 COPY MODE:DWS专有的高性能批量入库模式。 批写最大数据量 50000 条 单批次写入DWS数据的条数,可根据表数据大小和作业内存使用适当调整。
into 高级参数 先导入阶段表 如果选择“是”,则启用事务模式迁移,CDM会自动创建临时表,先将数据导入到该临时表,导入成功后再通过数据库的事务模式将数据迁移到目标表中,导入失败则将目的表回滚到作业开始之前的状态,具体请参见事务模式迁移。 默认为“否”,CDM直接将数据导入到目的表。这
表1 ClickHouse作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 模式或表空间 待写入数据的数据库名称,支持自动创建Schema。单击输入框后面的按钮可选择模式或表空间。 schema 表名 写入数据的目标表名,单击输入框后面的按钮可进入表的选择界面。
数据迁移进阶实践 增量迁移原理介绍 时间宏变量使用解析 事务模式迁移 迁移文件时加解密 MD5校验文件一致性 字段转换器配置指导 新增字段操作指导 指定文件名迁移 正则表达式分隔半结构化文本 记录数据迁移入库时间 文件格式介绍 不支持数据类型转换规避指导
M集群可以提供通信代理服务,请选择一个CDM集群,如果没有可用的CDM集群,请参考创建CDM集群进行创建。 数据集成配置 安全模式认证 是 是否安全模式认证。 https访问 是 开启https访问。 Https协议提升了集群安全性,同时集群性能会下降。 连接超时时间 否 连接超时时间,单位ms。默认10000。
恢复”按钮。 图4 恢复作业2 动态加减表对于不同的启动模式有不同的操作效果,具体如下: 对于初始启动模式为“增量同步”的作业,暂停加表后恢复作业,新增的表将从暂停前的位点或用户重置的位点开始进行增量同步。 对于初始启动模式为“全量+增量”的作业,暂停加表后恢复作业,将对新增的表
Ctrl + Shift + R:替换 Ctrl + X:剪切,光标未选中时剪切一行 Alt + 鼠标拖动:列模式编辑,修改一整块内容 Ctrl + 鼠标点选:多列模式编辑,多行缩进 Shift + Ctrl + K:删除当前行 Ctrl + →或Ctrl + ←:向右或向左按单词移动光标