检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
关键配置:文件/路径过滤器+定时执行作业。 前提条件:源端目录或文件名带有时间字段。 增量导出指定时间以后的文件 适用场景:源端数据源为文件类型(OBS/HDFS/FTP/SFTP)。这里的指定时间,是指文件的修改时间,当文件的修改时间大于等于指定的起始时间,CDM才迁移该文件。 关键配置:时间过滤+定时执行作业。 前提条件:无。
于资源组创建在用户账户下属的资源租户,使用资源租户的VPC网段,因此不占用用户账户的VPC网段。 查看方式: 登录DataArts Studio控制台,进入实例,单击“资源管理”进入资源管理页面,在“实时资源管理”中单击指定资源组的下拉框,查看该资源组的VPC网段。 图2 查询资源组网段
用户Token,使用Token认证时必选。通过调用IAM服务的“获取用户Token”接口获取响应消息头中X-Subject-Token的值。 workspace 是 String 工作空间ID,获取方法请参见实例ID和工作空间ID。 Dlm-Type 否 String 数据服务的版本类型,指定SHARED共享版或EXCLUSIVE专享版。
通过购买一个套餐包方式的数据集成资源组增量包,系统不自动创建新的资源组,而是在生效期内的每个计费月内按月提供745小时/月的使用时长,在绑定区域为在DataArts Studio控制台购买的对应资源组使用。 数据集成资源组可用于如下场景: 用于创建并运行数据迁移作业,提供数据上云和数据入湖的集成能力。
于资源组创建在用户账户下属的资源租户,使用资源租户的VPC网段,因此不占用用户账户的VPC网段。 查看方式: 登录DataArts Studio控制台,进入实例,单击“资源管理”进入资源管理页面,在“实时资源管理”中单击指定资源组的下拉框,查看该资源组的VPC网段。 图4 查询资源组网段
关键配置:文件/路径过滤器+定时执行作业。 前提条件:源端目录或文件名带有时间字段。 增量导出指定时间以后的文件 适用场景:源端数据源为文件类型(OBS/HDFS/FTP/SFTP)。这里的指定时间,是指文件的修改时间,当文件的修改时间大于等于指定的起始时间,CDM才迁移该文件。 关键配置:时间过滤+定时执行作业。 前提条件:无。
形成稳定、持续的收益。目前数据交易所主要以API、数据包或数据模型的方式来交付数据产品。如果走无形资产路线,卖的就不是数据本身而是数据服务,可选择数据模型或数据软件服务的形式,以特许经营、软件授权等方式来产生可持续现金流。 数据产品的结算系统搭建非常关键,建立合理的利益分配机制,
条件分支算子通过获取上游算子的请求参数或结果集进行条件判断,根据定义的表达式来确定下一步执行的分支。注意,多个分支满足条件时仅执行第一个满足条件的分支。 表1 条件分支算子 参数 说明 分支1 条件类型 选择条件类型。 满足当前条件时:表示传入“条件分支”的数据满足指定的表达式时,将执行该分支。
数据迁移作业提交运行后,CDM会根据作业配置中的“抽取并发数”参数,将每个作业拆分为多个Task,即作业分片。 不同源端数据源的作业分片维度有所不同,因此某些作业可能出现未严格按作业“抽取并发数”参数分片的情况。 CDM依次将Task提交给运行池运行。根据集群配置管理中的“最大抽取并发
如果选择“是”,CDM读取HDFS系统上的文件时,会先对待迁移的源目录创建快照(不允许对单个文件创建快照),然后CDM迁移快照中的数据。 需要HDFS系统的管理员权限才可以创建快照,CDM作业完成后,快照会被删除。 否 加密方式 “文件格式”选择“二进制格式”时,该参数才显示。 如果源端数据是被加密过的,则CD
在CountingRows作业操作列,单击“运行”,生成作业对应的实例。 单击“运维管理”,进入作业实例列表界面,找到对应的作业实例。待实例运行完成后,单击“结果&日志”,在“运行结果”页签,可查看该质量作业的运行结果,即待统计表的总行数。 图6 查看表的总行数 统计数据库大小 您可以直接在数据目录组件中查看数据库大小。
用于连通数据源和资源组网络的中间桥梁,本方案中需要使用企业路由器中配置的当前租户下的虚拟私有云。 查看方式: 在当前租户下,登录企业路由器控制台,在左侧导航栏,选择“企业路由器 > 我的ER”,在列表中查找所用的企业路由器,单击“管理连接”进入配置界面,在“连接”页签中找到属于当前租户的VPC即可作为中转VPC。
采集任务。 技术资产中的数据血缘关系更新依赖于作业调度,数据血缘关系是基于最新的作业调度实例产生的。需要注意的是,数据血缘关系删除需要通过删除作业或删除作业元数据的方式进行,仅将作业停止调度不会触发血缘关系的删除。 资产搜索 通过资产名称和描述的关键字或按所有属性搜索资产,支持模糊搜索。
描述 id String l1的ID,ID字符串。 name String l1名称。 tb_logic_guid String 表发布后对应的逻辑实体guid。 quality_id String 质量ID。 reversed Boolean 是否是逆向的。 partition_conf
Studio实例或增量包时,是否将资源放在同一可用区内,主要取决于您对容灾能力和网络时延的要求。 如果您的应用需要较高的容灾能力,建议您将资源部署在同一区域的不同可用区内。 如果您的应用要求实例之间的网络延时较低,则建议您将资源创建在同一可用区内。 实例可以转移到另一个区域/可用区吗?
”必须选择“CSV格式”。 图1 正则表达式参数 在迁移CSV格式的文件时,CDM支持使用正则表达式分隔字段,并按照解析后的结果写入目的端。正则表达式语法请参考对应的相关资料,这里举例下面几种日志文件的正则表达式的写法: Log4J日志 Log4J审计日志 Tomcat日志 Django日志
”必须选择“CSV格式”。 图1 正则表达式参数 在迁移CSV格式的文件时,CDM支持使用正则表达式分隔字段,并按照解析后的结果写入目的端。正则表达式语法请参考对应的相关资料,这里举例下面几种日志文件的正则表达式的写法: Log4J日志 Log4J审计日志 Tomcat日志 Django日志
Hive数据连接中的用户账号需要同时满足如下条件: 需要配置至少具备Cluster资源管理权限的角色(可直接配置为默认的Manager_operator角色)。 需要配置hive用户组。 为实现DWS数据源的数据访问审计,需要满足如下条件: 已开启DWS集群的审计功能开关audit_enabled。
自动建表原理介绍 CDM将根据源端的字段类型进行默认规则转换成目的端字段类型,并在目的端建数据表。 自动建表时的字段类型映射 CDM在数据仓库服务(Data Warehouse Service,简称DWS)中自动建表时,DWS的表与源表的字段类型映射关系如图1所示。例如使用CDM
DLI作为目的端时的作业参数 参数名 说明 取值样例 资源队列 选择目的表所属的资源队列。 DLI的default队列无法在迁移作业中使用,您需要在DLI中新建SQL队列。 新建队列操作请参考创建队列。 cdm 数据库名称 写入数据的数据库名称。 dli 表名 写入数据的表名。 car_detail