检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过数据开发实现数据增量迁移 DataArts Studio服务的DLF组件提供了一站式的大数据协同开发平台,借助DLF的在线脚本编辑、周期调度CDM的迁移作业,也可以实现增量数据迁移。 这里以DWS导入到OBS为例,介绍DLF配合CDM实现增量迁移的流程: 获取CDM作业的JSON
REST API SDK参考 本章节介绍了如何在API Explorer通过DataArts Studio API在线生成SDK代码,以及如何获取DataArts Studio服务的REST API SDK包和参考文档。 当前DataArts Studio服务的API Explorer接口和REST
API编排典型配置 API编排的典型使用场景如下: 对返回消息进行映射或格式转换:通过API编排的方式能够灵活实现消息映射及格式转换。 数据请求依赖多个数据API:使用API编排后,可以降低调用次数,减少集成成本,提升调用效率。 约束与限制 仅3.0.6及以上版本的数据服务专享版集群支持API编排。
了资源队列时,此处配置的资源队列为最高优先级。 SQL脚本 是 仅“脚本类型”配置为“在线脚本”时可以配置。 选择已创建的Spark Python脚本。 脚本参数 否 仅“脚本类型”配置为“在线脚本”时可以配置。 关联的Spark Python脚本中如果使用了参数,此处显示参数名称,请在参数名称后的输入框配置参数值。
控。 数据权限模块包含数据目录权限、数据表权限和审批中心三大子模块。具备的功能如下所示: 权限自助申请:用户可以选择自己需要权限的数据表,在线上快速发起申请。 权限审计:管理员可以快速方便地查看数据库表权限对应人员,进行审计管理。 权限回收/交还:管理员可以通过用户权限管理及时回
配置输出处理算子 输出处理算子负责对API工作流的执行结果进行错误码映射、结果集映射和格式转换,以确定最终返回的数据格式。 表1 输出处理算子 参数 是否必选 说明 错误码映射 否 针对数据服务返回的错误码,支持映射为自定义信息。 例如,将“DLM.0”错误码映射为“OK”。 结果集映射
支持管理DWS、DLI、MRS Hive等多种数据仓库。 支持可视化和DDL方式管理数据库表。 脚本开发 提供在线脚本编辑器,支持多人协作进行SQL、Shell、Python脚本在线代码开发和调测。 支持使用变量。 作业开发 提供图形化设计器,支持拖拽式工作流开发,快速构建数据处理业务流水线。
型设计,智能化的帮助用户生成数据处理代码,数据处理全流程质量监控,异常事件实时通知。 丰富的数据开发类型 支持多人在线协作开发,脚本开发可支持SQL、Shell在线编辑、实时查询;作业开发可支持CDM、SQL、MRS、Shell、Spark等多种数据处理节点,提供丰富的调度配置策略与海量的作业调度能力。
支持管理DWS、DLI、MRS Hive等多种数据仓库。 支持可视化和DDL方式管理数据库表。 脚本开发 提供在线脚本编辑器,支持多人协作进行SQL、Shell、Python脚本在线代码开发和调测。 支持使用变量和函数。 作业开发 提供图形化设计器,支持拖拉拽方式快速构建数据处理工作流。
于一次全量写入场景。 微批模式为异步分批写入Hoodie,适用于对入库时间SLA要求较为严格的场景,以及对资源消耗较小,对MOR表存储类型在线进行压缩的场景。 说明: 运行-失败重试期间不允许修改此模式。 是 批次数据大小 “全量模式写Hoodie”设置为“否”时,使用微批模式呈现此参数。
对象存储迁移服务(Object Storage Migration Service,简称OMS)是一种线上数据迁移服务,帮助您将其他云服务商对象存储服务中的数据在线迁移至华为云的对象存储服务(Object Storage Service,OBS)中。简言之,入云迁移、对象存储迁移。更多详情请参见对象存储迁移服务。
管理配置中心 约束与限制 配置中心中各类对象的自定义项配额如下: 主题自定义项10条。 表自定义项30条。 属性自定义项10条。 业务指标自定义项50条。 主题流程配置 主题流程配置用于自定义主题设计中的主题层级和自定义属性。系统默认有三个层级,从上到下分别命名为主题域分组(L1
不支持数据类型转换规避指导 操作场景 CDM在配置字段映射时提示字段的数据类型不支持,要求删除该字段。如果需要使用该字段,可在源端作业配置中使用SQL语句对字段类型进行转换,转换成CDM支持的类型,达到迁移数据的目的。 操作步骤 修改CDM迁移作业,通过使用SQL语句的方式迁移。
是否离线导入,取值为是或者f否,默认取否。 是: 表示离线导入,导入速度较快,但导入过程中图处于锁定状态,不可读不可写。 否:表示在线导入,相对离线导入,在线导入速度略慢,但导入过程中图并未锁定,可读不可写。 重复边忽略Label 否 重复边的定义,是否忽略Label。取值为是或者否,默认取是。
不支持数据类型转换规避指导 操作场景 CDM在配置字段映射时提示字段的数据类型不支持,要求删除该字段。如果需要使用该字段,可在源端作业配置中使用SQL语句对字段类型进行转换,转换成CDM支持的类型,达到迁移数据的目的。 操作步骤 修改CDM迁移作业,通过使用SQL语句的方式迁移。
表达式概述 数据开发模块作业中的节点参数可以使用表达式语言(Expression Language,简称EL),根据运行环境动态生成参数值。可以根据Pipeline输入参数、上游节点输出等决定是否执行此节点。数据开发模块EL表达式使用简单的算术和逻辑计算,引用内嵌对象,包括作业对象和一些工具类对象。
新建数据表 您可以通过可视化模式、DDL模式或SQL脚本方式新建数据表。 (推荐)可视化模式:您可以直接在DataArts Studio数据开发模块通过No Code方式,新建数据表。 (推荐)DDL模式:您可以在DataArts Studio数据开发模块,通过选择DDL方式,使用SQL语句新建数据表。
Hive等多种数据仓库。 支持可视化和DDL方式管理数据库表。 数据管理 脚本开发 脚本开发功能提供如下能力: 提供在线脚本编辑器,支持多人协作进行SQL、Shell等脚本在线代码开发和调测。 支持使用变量和函数。 支持脚本的版本管理能力。 脚本开发 作业开发 作业开发功能提供如下能力:
FTP/SFTP连接 介绍 通过FTP或SFTP连接,可以对FTP或SFTP服务器抽取或加载文件,支持CSV、二进制和JSON格式。 连接样例 { "links": [ { "link-config-values": {
面进行选择,这里不再赘述。配置完成后单击“确定”。 已被绑定脱敏算法的分类规则不支持被重复绑定。 图1 新建脱敏 适配脱敏算法后,支持用户在线进行测试。输入测试数据,单击“测试”,在测试结果文本框中进行验证。 开启或关闭状态,只有启用状态下的脱敏策略才可生效。 查看数据脱敏效果 在DataArts