检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
60 高级属性 先导入阶段表 如果选择“是”,则启用事务模式迁移,CDM会自动创建临时表,先将数据导入到该临时表,导入成功后再通过数据库的事务模式将数据迁移到目标表中,导入失败则将目的表回滚到作业开始之前的状态,具体请参见事务模式迁移。 默认为“否”,CDM直接将数据导入到目的表。这
基础与网络连通配置 手动 是 选择连接模式。如无访问其他项目或企业项目下MRS集群的需求,使用集群名模式即可。 使用集群名模式时,通过选择已有集群名称进行连接配置。仅可选择本项目内且企业项目相同的MRS集群进行连接。 使用连接串模式时,通过手动输入Manager IP,并打通
否:导入前不清空目标表中的数据,如果选“否”且表中有数据,则数据会追加到已有的表中。 否 全量模式写Hoodie 选择写Hoodie模式,默认选“是”表示全量模式,“否”表示微批模式。 全量模式为异步分片写入Hoodie,适用于一次全量写入场景。 微批模式为异步分批写入Hoodie,适用于对入库时间SLA要求较为严
参数类型 参数名 说明 取值样例 基本参数 模式或表空间 “使用SQL语句”选择“否”时,显示该参数,表示待抽取数据的模式或表空间名称。 单击输入框后面的按钮可进入模式选择界面,用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的账号是否有元数据查询的权限。
分担压力。 数据集成配置 Redis部署方式 是 选择Redis部署方式。 包括Single模式、Cluster模式、Proxy模式。 若手动参数选择集群名模式时,仅支持Cluster模式。 Redis数据库索引 是 Redis部署方式为Single时的必选项。 类似关系数据库的数据库名称。
选择HBase连接的运行模式: EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。 STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源(MRS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式。
购买DataArts Studio实例 购买DataArts Studio增量包 访问DataArts Studio实例控制台 创建并配置简单模式工作空间 (可选)升级企业模式工作空间 管理DataArts Studio资源
源连接名称 选择已配置的MRS ClickHouse连接。 ck_from_cdm 模式或表空间 单击输入框后面的按钮可进入模式选择界面,用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的账号是否有元数据查询的权限。 说明: 该参数支持配置
创建数据连接,连接相关数据湖底座服务。具体请参见新建数据连接。 基于相应服务,新建数据库。具体请参见新建数据库。 如果是DWS连接,则需要新建数据库模式;否则直接新建数据表。具体请参见(可选)新建数据库模式。 新建数据表。具体请参见新建数据表。 父主题: 数据管理
参数类型 参数名 说明 取值样例 基本参数 模式或表空间 表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面,分库连接时此处默认展示对应第一个后端连接的表空间。用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的账号是否有元数据查询的权限。
集群 > 服务 > ClickHouse > 实例”,配置ClickHouseServer的默认端口,非安全模式MRS集群配置“http_port”参数对应的端口,安全模式MRS集群配置“https_port”参数对应的端口。 如果使用Balancer节点,开启“SSL加密”,配置默认端口。登录MRS
认证类型 是 使用连接串模式时,是必选项。 访问MRS的认证类型: SIMPLE:非安全模式选择Simple鉴权。 KERBEROS:安全模式选择Kerberos鉴权。 MRS版本 否 使用连接串模式时,是必选项。 选择MRS集群的版本。 组件名 否 使用连接串模式时,是必选项。 选择Spark组件的版本。
into 高级参数 先导入阶段表 如果选择“是”,则启用事务模式迁移,CDM会自动创建临时表,先将数据导入到该临时表,导入成功后再通过数据库的事务模式将数据迁移到目标表中,导入失败则将目的表回滚到作业开始之前的状态,具体请参见事务模式迁移。 默认为“否”,CDM直接将数据导入到目的表。这
表1 ClickHouse作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 模式或表空间 待写入数据的数据库名称,支持自动创建Schema。单击输入框后面的按钮可选择模式或表空间。 schema 表名 写入数据的目标表名,单击输入框后面的按钮可进入表的选择界面。
source_table_name}给源表名添加前后缀,变成目的端Hudi表的表名。 写入模式:选择数据写入模式。 UPSERT为批量更新入库模式,COPY为DWS专有的高性能批量入库模式。 批写最大数据量:根据表数据大小和作业内存使用,适当调整,数据范围1-10000000。
name from sqoop.user; 模式或表空间 “使用SQL语句”选择“否”时,显示该参数,表示待抽取数据的模式或表空间名称。 单击输入框后面的按钮可进入模式选择界面,用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的账号是否有元数据查询的权限。
RS、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式。 说明: STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的
String getPlanTime(String pattern) 获取指定pattern的计划时间字符串,pattern为日期、时间模式,请参考日期和时间模式。 获取作业调度计划时间,具体到毫秒: #{Job.getPlanTime("yyyy-MM-dd HH:mm:ss:SSS")}
e_table_name}给源表名添加前后缀,变成目的端Hudi表的表名。 写入模式:选择数据写入模式。 UPSERT MODE为批量更新入库模式,COPY MODE为DWS专有的高性能批量入库模式。 批写最大数据量:根据表数据大小和作业内存使用,适当调整,数据范围1-10000000。
如果作业名称不符合规则,将导致提交MRS作业失败。 运行模式 是 配置Spark作业的运行模式。 批处理:指Spark作业为批模式运行,节点会一直等待Spark作业执行完成才结束。 流处理:指Spark作业为流处理运行模式,节点执行时只要作业启动成功即执行成功。后续每次周期运行时