检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
obs_link OBS桶 选择OBS桶。 obs_test 配置文件 选择OBS的配置文件。 /obs/config.csv 最大消息数/poll 可选参数,每次向Kafka请求数据限制最大请求记录数。
目的端优化 OBS写入优化 若开启了自动合并可尝试关闭,否则请优先增加并发解决。 父主题: 任务性能调优
搬迁依赖于OBS功能,请您提前规划OBS桶和文件夹目录。 DataArts Studio数据搬迁时,依赖各组件的备份或导入导出能力。您可以根据自己的数据需求,自由选择搬迁哪个组件的数据。
仅当源端为Hive2.x且数据存储在HDFS、目的端为Hive3.x且数据存在OBS并行文件系统时,才支持文件迁移。 当选择文件迁移时,需保证源端和目的端的表格式和属性需一致才能迁移成功。 记录迁移 文件迁移 分区过滤条件 “读取方式”选择“HDFS”时显示此参数。
同时,可通过在Hudi的目的端配置中单击“Hudi表属性全局配置”或在映射后的单表“表属性编辑”中,添加优化参数。
数据服务简介 DataArts Studio数据服务旨在为企业搭建统一的数据服务总线,帮助企业统一管理对内对外的API服务。数据服务为您提供快速将数据表生成数据API的能力,涵盖API发布、管理、运维的全生命周期管理,帮助您简单、快速、低成本、低风险地实现微服务聚合、前后端分离、系统集成
这样每天就可以把昨天生成的文件都导入到目的端目录,实现增量同步。 文件增量迁移场景下,“路径过滤器”的使用方法同“文件过滤器”一样,需要路径名称里带有时间字段,这样可以定期增量同步指定目录下的所有文件。
查看该CDM实时作业:配置源端为Kafka,目的端为DLI字段映射,赋值来源为“源表字段”,赋值框使用kafka消息中的嵌套json数组写入方式为a[0]。
入门实践 当您参考购买并配置DataArts Studio章节完成注册华为账号、购买DataArts Studio实例(DataArts Studio企业版)、创建工作空间等一系列操作后,可以根据自身的业务需求使用DataArts Studio提供的一系列常用实践。 表1 常用最佳实践
参数名即子作业中定义的变量,参数值按如下原则填写: 当循环执行的子作业需要根据父作业的变量读取替换时,则本参数为可配置为EL表达式,一般配置为#{Loop.current[0]}或#{Loop.current[1]}等,表示循环中取遍历到的数据集二维数组当前行的第一个值或第二个值等,详见Loop内嵌对象
梳理、维护并更新领域数据元数据(业务对象、数据标准、数据模型)。 推广和维护数据治理工具和平台在本领域的应用。 数据专员(Data Specialists):数据专员是领域数据治理工作的专家团队。
本例中使用按需计费,完成后删除新建的存储桶即可;另外,DataArts Studio作业日志和DLI脏数据默认存储在以dlf-log-{Project id}命名的OBS桶中,在退订DataArts Studio后可以一并删除。
“OBS”触发事件类型的参数(当前仅上海二区域支持) 说明: “OBS”触发事件类型的事件驱动调度,依赖于OBS的“事件通知 -> DIS通知”功能,由于OBS该功能在华为云暂未正式上线,因此当前暂时无法使用OBS触发事件类型。 OBS路径 选择要监听的OBS路径。
在“详情”页签,可查看技术元数据基本属性、编辑描述;可给数据表添加标签和密级;可给数据表的列和OBS对象添加或删除分类、标签和密级。 图1 查看详情 在“权限”页签,可申请数据表权限或给其他用户授权。
在逻辑模型中,找到所需要的逻辑模型,单击模型卡片进入,在主题目录中选择对象,然后单击“更多 > 导出”。 图4 导出表或DDL 在弹出对话框中,选择需要导出的对象。 导出的Excel表可以用于导入操作。 图5 导出表 导出DDL时,会将所选表的DDL语句导出成txt文件。
同时,可通过在Hudi的目的端配置中单击“Hudi表属性全局配置”或在映射后的单表“表属性编辑”中,添加优化参数。
单次提交行数 否 指定每次批量提交的行数,根据数据目的端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。默认10000。 单次写入行数 否 可选参数,指定单次批量写入的行数,当写入行数累计到单次批量提交行数时提交一次,该值应当小于单次提交行数。
图3 选择连接器类型 连接器类型选择“对象存储服务(OBS)”后,单击“下一步”配置OBS连接参数,如图5所示。 名称:用户自定义连接名称,例如“obslink”。 OBS服务器、端口:配置为OBS实际的地址信息。 访问标识(AK)、密钥(SK):登录OBS的AK、SK。
选择所需导出的逻辑实体,单击列表上方的“导出”按钮,导出所选的逻辑实体,建议导出对象选择为“表”。导出完成后,即可通过浏览器下载地址,获取到导出的xlsx文件。 图7 导出逻辑实体 在主题树上方,依次选择其他模型,进入模型后重复步骤3,依次下载其他模型的表/实体。
上传CDM连接驱动 JDBC即Java DataBase Connectivity,java数据库连接;JDBC提供的API可以让JAVA通过API方式访问关系型数据库,执行SQL语句,获取数据。 CDM连接关系数据库前,需要先上传所需关系数据库的JDK8版本.jar格式驱动。 前提条件