检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
式保存该文件。 将源数据CSV文件上传到OBS服务。 登录控制台,选择“存储 > 对象存储服务 OBS”,进入OBS控制台。 单击“创建桶”,然后根据页面提示配置参数,创建一个名称为“fast-demo”的OBS桶。 为保证网络互通,OBS桶区域请选择和DataArts Stud
理。 对象存储服务(OBS)数据源约束 迁移文件时系统会自动并发,任务配置中的“抽取并发数”无效。 不支持断点续传。CDM传文件失败会产生OBS碎片,需要用户到OBS控制台清理碎片文件避免空间占用。 不支持对象多版本的迁移。 增量迁移时,单个作业的源端目录下的文件数量或对象数量,
--Flink作业资源包 wordcount --输入数据路径 obs://dlf-test/lkj_test/input/word.txt --输出数据路径 obs://dlf-test/lkj_test/output.txt 其中: obs://dlf-test/lkj_test/input/word
表名:要抽取的表名。 其他可选参数一般情况下保持默认即可。 目的端作业配置 目的连接名称:选择创建DWS连接中的连接“dwslink”。 模式或表空间:选择待写入数据的DWS数据库。 自动创表:只有当源端和目的端都为关系数据库时,才有该参数。 表名:待写入数据的表名,可以手动
SSL加密 是 DWS支持SSL通道加密和证书认证两种方式进行客户端与服务器端的通信。您可以通过服务器端是否强制使用SSL连接进行设置。 开关打开,即只能通过SSL方式进行通信。 开关关闭,SSL通道加密和证书认证两种方式均可进行通信。 手动 是 选择连接模式。 使用集群名模式时,通过选择已有集群名称进行连接配置。
选择子网和弹性IP,如果没有弹性IP,需要先申请一个。 完成之后,就可以到CDM控制台,通过Internet迁移公网的数据上云了。例如:迁移本地数据中心FTP服务器上的文件到OBS、迁移第三方云上关系型数据库到云服务RDS。 父主题: 数据集成(CDM作业)
Language,简称EL),根据运行环境动态生成参数值。数据开发EL表达式使用简单的算术和逻辑计算,引用内嵌对象,包括作业对象和一些工具类对象。 环境变量 环境变量是在操作系统中一个具有特定名字的对象,它包含了一个或者多个应用程序所将使用到的信息。 补数据 手工触发周期方式调度的作业任务,生成过去某时间段内的实例。
产品架构 如图所示,DataArts Studio基于数据底座,提供数据集成、开发、治理等能力。DataArts Studio支持对接所有华为云的数据湖与数据库云服务作为数据底座,例如MRS Hive、数据仓库服务DWS等,也支持对接企业传统数据仓库,例如Oracle、MySQL等。
Guest、Server Administrator。 Create OBS、Delete OBS、OBS Manager OBS OperateAccess 查看桶、上传对象、获取对象、删除对象、获取对象ACL等对象基本操作权限 SMN SMN Administrator 消息通知服务的所有执行权限。
无认证:不需要认证,所有用户均可访问,建议仅在测试接口时使用,不推荐正式使用。使用无认证方式时,无需鉴权认证信息,安全级别低,通过API调用工具或浏览器即可直接调用。 服务目录可见性 发布后,所选范围内的用户均可以在服务目录中看到此API。 当前工作空间可见 当前项目可见 当前租户可见 访问日志
DLI模型的表支持以下表类型: Managed:数据存储位置为DLI的表。 External:数据存储位置为OBS的表。当“表类型”设置为External时,需设置“OBS路径””参数。OBS路径格式如:/bucket_name/filepath。 DWS模型的表支持以下表类型: DWS_
不归档:不对脏数据进行存储,仅记录到任务日志中。 归档到OBS:将脏数据存储到OBS中,并打印到任务日志中。 不归档 脏数据写入连接 “脏数据策略”选择归档到OBS时显示该参数。 脏数据要写入的连接,目前只支持写入到OBS连接。 - 脏数据目录 脏数据写入的OBS目录。 - 脏数据阈值 是否写入脏数据为是时显示该参数。
整库迁移 添加源数据,选择需要迁移的库表 高级属性 不支持 配置目的端数据参数。 各数据源及各同步场景配置存在一定差异,选择目的端配置后,请参见配置作业目的端参数配置作业参数。 表2 目的端需要配置的作业参数 同步场景 目的端需要配置参数 字段映射 单表 基本参数 高级属性 支持 分库分表
型设计,智能化的帮助用户生成数据处理代码,数据处理全流程质量监控,异常事件实时通知。 丰富的数据开发类型 支持多人在线协作开发,脚本开发可支持SQL、Shell在线编辑、实时查询;作业开发可支持CDM、SQL、MRS、Shell、Spark等多种数据处理节点,提供丰富的调度配置策略与海量的作业调度能力。
Studio数据目录模块中,您可以查看数据地图,详情请参见数据目录章节。数据地图包含业务资产和技术资产,业务资产就是指逻辑实体和业务对象,技术资产就是指数据连接、数据库对象等。 本章节介绍如何在DataArts Studio数据目录中查看业务资产和技术资产。例如,在技术资产的事实表中,您可以
Studio数据架构控制台,单击左侧导航栏的“维度建模”进入维度建模页面。 打开需要逆向数据库导入的维度或表的页签,从下拉列表选择需要逆向数据库的维度或表,然后单击列表上方的“逆向数据库”。 图1 选中对象 在“逆向数据库”对话框中配置参数。 表1 逆向数据库 参数名称 说明 所属主题
records int 500 消费者每次poll时返回的最大消息条数。Kafka单条消息大的场景,可以适当调高每次获取的数据量,以提高性能。 目的端优化 OBS写入优化。 若开启了自动合并可尝试关闭,否则请优先增加并发解决。 父主题: 任务性能调优
开启数据服务集群OBS日志转储 功能介绍 开启数据服务集群OBS日志转储。 调用方法 请参见如何调用API。 URI PUT /v1/{project_id}/service/instances/{instance_id}/obs-log-dump 表1 路径参数 参数 是否必选
最大时间值数据并传递给目的端作业 打开已创建的子作业。 单击CDM作业名称后面的跳转到CDM作业配置界面。 图5 编辑CDM作业 在源端作业配置的高级属性里面,通过配置where子句获取迁移所需的数据,作业运行时,将从源端获取到的迁移数据复制导出并导入目的端。 图6 配置where子句
不归档:不对脏数据进行存储,仅记录到任务日志中。 归档到OBS:将脏数据存储到OBS中,并打印到任务日志中。 不归档 脏数据写入连接 “脏数据策略”选择归档到OBS时显示该参数。 脏数据要写入的连接,目前只支持写入到OBS连接。 - 脏数据目录 脏数据写入的OBS目录。 - 脏数据阈值 是否写入脏数据为是时显示该参数。