检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置元数据采集任务 本章主要介绍如何通过配置元数据采集策略新建采集任务,不同类型的数据源对应的采集策略不尽相同。元数据管理依据采集任务的配置策略,采集对应的技术元数据信息。 约束与限制 当元数据采集任务未指定采集范围时,默认采集该数据连接下的所有数据表/文件。采集任务运行完成后,
数据架构示例 DataArts Studio数据架构以关系建模、维度建模理论支撑,实现规范化、可视化、标准化数据模型开发,定位于数据治理流程设计落地阶段,输出成果用于指导开发人员实践落地数据治理方法论。 本章节操作场景如下: 对MRS Hive数据湖中的出租车出行数据进行数据模型设计。
配置CDM作业定时任务 在表/文件迁移的任务中,CDM支持定时执行作业,按重复周期分为:分钟、小时、天、周、月。 CDM在配置定时作业时,不要为大量任务设定相同的定时时间,应该错峰调度,避免出现异常。 如果通过DataArts Studio数据开发调度CDM迁移作业,此处也配置了
实例监控 作业每次运行,都会对应产生一次作业实例记录。在数据开发模块控制台的左侧导航栏,选择 “运维调度”,进入实例监控列表页面,用户可以在该页面中查看作业的实例信息,并根据需要对实例进行更多操作。 实例监控支持从“作业名称”、“创建人”、“责任人”、“CDM作业”、“节点类型”
新建整库迁移作业 操作场景 CDM支持在同构、异构数据源之间进行整库迁移,迁移原理与新建表/文件迁移作业相同,关系型数据库的每张表、Redis的每个键前缀、Elasticsearch的每个类型、MongoDB的每个集合都会作为一个子任务并发执行。 整库迁移作业每次运行,会根据整库
购买数据集成资源组增量包 数据集成资源组增量包对应数据集成实时作业所需的资源组。数据集成资源组提供数据上云和数据入湖出湖的集成能力,全向导式配置和管理,支持单表、整库、分库分表、全量+增量及增量同步等不同场景的数据迁移。 通过购买一个按需计费方式的数据集成资源组增量包,系统会按照
修改连接 功能介绍 修改连接接口。 调用方法 请参见如何调用API。 URI PUT /v1.1/{project_id}/clusters/{cluster_id}/cdm/link/{link_name} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是
步骤2:数据准备 使用DataArts Studio前的准备 如果您是第一次使用DataArts Studio,请参考购买并配置DataArts Studio章节完成注册华为账号、购买DataArts Studio实例(DataArts Studio企业版)、创建工作空间等一系列
批作业监控 批作业监控提供了对批处理作业的状态进行监控的能力。 批处理作业支持作业级别的调度计划,可以定期处理批量数据,主要用于实时性要求低的场景。批作业是由一个或多个节点组成的流水线,以流水线作为一个整体被调度。被调度触发后,任务执行一段时间必须结束,即任务不能无限时间持续运行。
处理消息 功能介绍 对收到的通知消息进行确认,可以在指定的时间范围内选择何时进行处理。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/service/messages 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是
配置OBS目的端参数 作业中目的连接为OBS连接时,即导入数据到云服务OBS时,目的端作业参数如表1所示。 高级属性里的参数为可选参数,默认隐藏,单击界面上的“显示高级属性”后显示。 表1 OBS作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 桶名 写入数据的OBS桶名。
配置OBS目的端参数 支持使用CSV、CarbonData或二进制格式批量传输大量文件到OBS。 表1 OBS作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 桶名 写入数据的OBS桶名。 bucket_2 写入目录 写入数据到OBS服务器的目录,目录前面不加“/”。
创建连接 功能介绍 创建连接接口。 调用方法 请参见如何调用API。 URI POST /v1.1/{project_id}/clusters/{cluster_id}/cdm/link 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目
查询集群列表 功能介绍 查询集群列表接口。 调用方法 请参见如何调用API。 URI GET /v1.1/{project_id}/clusters 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目ID和账号ID。
调度作业 对已编排好的作业设置调度方式。 如果您的作业是批处理作业,您可以配置作业级别的调度任务,即以作业为一个整体进行调度,支持单次调度、周期调度、事件驱动调度三种调度方式。具体请参见配置作业调度任务(批处理作业)。 如果您的作业是实时处理作业,您可以配置节点级别的调度任务,即
查询集群详情 功能介绍 查询集群详情接口。 调用方法 请参见如何调用API。 URI GET /v1.1/{project_id}/clusters/{cluster_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目ID和账号ID。
操作环境与数据准备 操作环境准备 如果您是第一次使用DataArts Studio,请参考购买并配置DataArts Studio章节完成注册华为账号、购买DataArts Studio实例(DataArts Studio企业版)、创建工作空间等一系列操作。然后进入到对应的工作空间,即可开始使用DataArts
支持的数据类型 配置字段映射时,数据源支持的数据类型请参见表1,以确保数据完整导入到目的端。 表1 支持的数据类型 数据连接类型 数据类型说明 MySQL 请参见MySQL数据库迁移时支持的数据类型。 SQL Server 请参见SQL Server数据库迁移时支持的数据类型。 Oracle