检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
单击操作列“表属性编辑”可配置Hudi表属性,包含表类型,分区类型及表自定义属性。 图10 Hudi单表表属性配置 表类型:Hudi的表类型,可选MERGE_ON_READ和COPY_ON_WRITE。 分区类型:Hudi表分区类型,可选无分区、时间分区、自定义分区。 其中时间分区
参见新建实时集成作业创建一个实时集成作业并进入作业配置界面。 选择数据连接类型:源端选MySQL,目的端选Hudi。 图2 选择数据连接类型 选择集成作业类型:同步类型默认为实时,同步场景包含整库和分库分表场景。 图3 选择集成作业类型 同步场景相关介绍请参见同步场景。 配置网络资源:选择已创建的MySQL、MRS
自定义字段名、选择字段类型、填写字段值。 字段名称:目的端DWS表新增字段的名称。 字段类型:目的端DWS表新增字段的类型。 (可选)字段类型长度:目的端DWS表新增字段类型的长度。 字段值:目的端DWS表新增字段的取值来源。 表9 附加字段取值方式 类型 示例 常量 任意字符 内置变量
键的前缀,类似关系型数据库的表名。 TABLE 值存储类型 仅支持以下数据格式: STRING:不带列名,如“值1,值2”形式。 HASH:带列名,如“列名1=值1,列名2=值2”的形式。 STRING 是否以列值作为field 当值存储类型为HASH时显示此参数。仅支持Hash,如果打
*规则名称 规则类型选择“内置”,规则名称自动关联分类模板生成。 自定义 *规则名称 规则类型选择“自定义”,您可以自行填写分类名称,名称为必填项。建议包含规则含义,避免无意义的描述,以便于使用中能快速选择需要的规则。 说明: 定义数据识别规则,名称必须唯一。 *识别规则 规则类型选择“自定义”,呈现此参数,支持正则表达式。
详情参考表2。 *数据类型 数据类型有:STRING、BIGINT、DOUBLE、TIMESTAMP、DATE、BOOLEAN、DECIMAL。 不同的系统数据类型可能存在差异,系统内部会做类型转换。如果未找到所需要的数据类型,您可以参考字段类型添加数据类型。 英文名称 数据标准的英文名称。
作业开发功能提供如下能力: 提供图形化设计器,支持拖拉拽方式快速构建数据处理工作流。 预设数据集成、计算&分析、资源管理、数据监控、其他等多种任务类型,通过任务间依赖完成复杂数据分析处理。 支持多种作业调度方式。 支持导入和导出作业。 支持作业状态运维监控和作业结果通知。 提供编辑锁定能力,支持多人协同开发场景。
选择“整库迁移 > 新建作业”,进入作业参数配置界面。 图1 创建整库迁移作业 配置源端作业参数,根据待迁移的数据库类型配置对应参数,如表1所示。 表1 源端作业参数 源端数据库类型 源端参数 参数说明 取值样例 DWS MySQL PostgreSQL SQL Server Oracle
规则模板”处,新建规则模板。新建的规则模板系统会自动被划分为对应的规则类型(表级、字段级、跨字段级和多表多字段),模板类型显示为自定义模板。新建质量/对账作业应用自定义模板与其他内置模板选择方式相同,规则类型选择为“表级规则”、“字段级规则”、“跨字段级规则”或“多表多字段规则”
批量设置多个作业实例重跑时,仅需要配置重跑开始位置、使用的作业参数、是否忽略OBS监听等参数。 表3 参数说明 参数 说明 重跑类型 选择需要重跑的实例。 重跑当前实例 重跑当前作业及其上下游作业实例 开始时间 仅当“重跑类型”选择“重跑当前作业及其上下游作业实例”时,才需要配置。 设置好开始时间和结束时间,系统会重跑所设置的时间段内的作业实例。
的数据处理和数据迁移类型节点后自动产生的,无需进行手动配置。支持自动血缘解析的节点类型和场景请参见自动血缘解析。 手动配置血缘,是在数据开发作业节点中,自定义血缘关系的输入表和输出表。注意手动配置血缘时,此节点的自动血缘解析将不生效。支持手动配置血缘的节点类型请参见手动配置血缘。
统计数据表行数 对于不同类型的数据源,DataArts Studio提供了多种方式来查看表的行数。 对于DWS、DLI、RDS、MRS Presto、MRS Hive、MRS Spark、MRS ClickHouse等数据源,您可以在数据开发组件执行对应类型的统计表行数的SQL脚本,来查看表行数。
的数据处理和数据迁移类型节点后自动产生的,无需进行手动配置。支持自动血缘解析的节点类型和场景请参见自动血缘解析。 手动配置血缘,是在数据开发作业节点中,自定义血缘关系的输入表和输出表。注意手动配置血缘时,此节点的自动血缘解析将不生效。支持手动配置血缘的节点类型请参见手动配置血缘。
String 节点类型,当前只有“cdm”一种类型。 表6 nics 参数 是否必选 参数类型 描述 securityGroupId 是 String 安全组ID。 net-id 是 String 子网ID。 表7 Datastore 参数 是否必选 参数类型 描述 type 否
什么是数据血缘关系? 大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息,通过联姻融合、转换变换、流转流通,又生成新的数据,汇聚成数据的海洋。 数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。我们借鉴人类社会中类似的一种关
数据目录如何可视化展示数据血缘? 数据血缘在数据目录中展示,首先要完成元数据采集任务,其次数据开发作业中要包含支持自动血缘解析的节点类型和场景,或者在作业节点中已自定义血缘关系的输入表和输出表。当存在运行成功的数据开发作业调度任务时,系统会生成作业中的血缘关系,并在数据目录中进行可视化展示。
作业中源连接为MongoDB连接时,即从本地MongoDB或DDS导出数据时,源端作业参数如表1所示。 表1 MongoDB/DDS作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 数据库名称 选择待迁移的数据库。 mongodb 集合名称 相当于关系数据库的表名。单击输入框后面的按
操作步骤 参见新建离线处理集成作业创建一个离线处理集成作业。 类型配置。 图1 类型配置 配置数据连接类型,包含配置源端数据类型和目的端数据类型,支持的数据类型请参见支持的数据源。 选择集成作业类型。 同步类型:默认为离线,不可更改。 同步场景:支持单表、分库分表和整库三种同
/文件同步支持的数据源类型。 分库分表同步:适用于数据入湖和数据上云场景下,多库多表同步场景,支持的数据源请参见分库分表同步支持的数据源类型。 整库迁移:适用于数据入湖和数据上云场景下,离线或自建数据库整体同步场景,支持的数据源请参见整库同步支持的数据源类型。 因各版本集群支持的
数据源信息参数说明 参数名 说明 数据连接类型 从下拉列表中选择数据连接类型。 说明: 元数据采集支持丰富的数据源类型,对于DWS、DLI、MRS HBase、MRS Hive、RDS(MySQL)、RDS(PostgreSQL)和ORACLE类型的数据源,首先需要在管理中心创建数据连