检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Each节点在处理数据集的时候,是一行一行进行处理的。Loop.current表示当前遍历到的For Each节点“数据集”中定义的二维数组的某一行,该数据行为一维数组。 一般定义格式为#{Loop.current[0]}、#{Loop.current[1]}或其他。其中[0]表示遍历到的当前行的第一个值,[1]
抽取分片字段 “按表分区抽取”选择“否”时,显示该参数,表示抽取数据时使用该字段进行数据切分,CDM依据此字段将作业分割为多个任务并发执行。一般使用数据均匀分布的字段,例如以自然增长的序号字段作为分片字段。 单击输入框后面的按钮可进入字段选择界面,用户也可以直接输入抽取分片字段名。
ob.getNodeOutput('preNodeName')}”,即前一个节点的输出值。 子作业参数:参数名即子作业中定义的变量;参数值一般配置为数据集中的某组数据,每次运行中会将参数值传递到子作业以供使用。例如参数值填写为:#{Loop.current[0]},即将数据集中每行数据的第一个数值遍历传递给子作业。
ob.getNodeOutput('preNodeName')}”,即前一个节点的输出值。 子作业参数:参数名即子作业中定义的变量;参数值一般配置为数据集中的某组数据,每次运行中会将参数值传递到子作业以供使用。例如参数值填写为:#{Loop.current[0]},即将数据集中每行数据的第一个数值遍历传递给子作业。
rel String 关系。 href String 链接地址。 表7 Datastore 参数 参数类型 描述 type String 类型,一般为cdm。 version String 集群版本。 请求示例 GET /v1.1/1551c7f6c808414d8e9f3c514a1
对DWI层数据进行标准化清洗 一般在数据加工前后,对数据的质量通过六大维度的规则进行质量监控,当发现不符合规则的异常数据时向用户发送报警 6 数据目录 需要支持哪些数据源? MRS Hive - 数据资产的数量规模有多大? 本示例表在百级以内 最大可支持100w数据表的管理 元数据采集的调度频率是多少?
s Studio管理控制台。 在DataArts Studio控制台首页,选择对应工作空间的“数据服务”模块,进入数据服务页面。 在左侧导航栏选择服务版本(例如:专享版),进入总览页。 获取待调用API的调用地址、请求方法和入参信息。 在左侧导航栏中进入API管理,找到待调用的A
s Studio管理控制台。 在DataArts Studio控制台首页,选择对应工作空间的“数据服务”模块,进入数据服务页面。 在左侧导航栏选择服务版本(例如:专享版),进入总览页。 获取待调用API的调用地址、请求方法和入参信息。 在左侧导航栏中进入API管理,找到待调用的A
开通DLI服务后,您需要在管理中心创建DLI连接,然后通过数据开发组件新建数据库,再执行SQL来创建OBS外表。操作步骤如下: 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studio控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。
构造请求 本节介绍REST API请求的组成,并以调用IAM服务的管理员创建IAM用户接口为例说明如何调用API。该API用于管理员创建IAM用户。 您还可以通过这个视频教程了解如何构造请求调用API:https://bbs.huaweicloud.com/videos/102987
抽取分区字段 “使用SQL语句”选择“否”时,显示该参数,表示抽取数据时使用该字段进行数据切分,CDM依据此字段将作业分割为多个任务并发执行。一般使用数据均匀分布的字段,例如以自然增长的序号字段作为分区字段。 单击输入框后面的按钮可进入字段选择界面,用户也可以直接输入抽取分区字段名。
在数据权限管理中使用自身用户信息进行认证。 值得注意的是,DataArts Studio实例内对每个MRS/DWS集群只能有一个用户同步任务,因此用户同步任务为DataArts Studio实例级别配置,各工作空间之间数据互通。 前提条件 新建用户同步任务前,已在管理中心创建数据
另外,除数据集成之外其他各组件所使用的数据连接,均来自于管理中心已勾选对应组件的数据连接(只有勾选适用组件后,在相应组件内才能使用对应的连接)。因此如需对接这些数据源,请前往“DataArts Studio控制台 > 管理中心”创建数据连接。 数据集成组件中集成作业支持的数据源与
publicIp String 公网ip。 manageIp String 管理ip。 trafficIp String 流量ip。 shard_id String 分片id。 manage_fix_ip String 管理修复ip。 private_ip String 私有ip。 internal_ip
步骤2:数据集成 OBS数据迁移到DWS 登录CDM管理控制台。单击左侧导航上的“集群管理”,进入集群管理界面。 或参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。在DataArts Studio控制台首页,选择对应工作空间的“数据集成”模块,进入CDM首页。
系统默认为数仓分层中配置为数据连接类型。不可修改。 数据连接 选择所需要的数据连接。同一个关系模型一般建议使用统一的数据连接。 如果您还未创建与数据源之间的数据连接,请前往DataArts Studio管理中心进行创建,详情请参见配置DataArts Studio数据连接参数。 数据库 选择数据库。
传输数据时所用的文件格式,目前支持以下文件格式: CSV_FILE:CSV格式,用于迁移文件到数据表的场景。 JSON_FILE:JSON格式,一般都是用于迁移文件到数据表的场景。 BINARY_FILE:二进制格式,不解析文件内容直接传输,不要求文件格式必须为二进制。适用于文件到文件的原样复制。
的企业项目。 创建DWS集群后,您需要在管理中心创建DWS连接,然后通过数据开发组件新建数据库、数据库模式,再执行SQL来创建DWS表。操作步骤如下: 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studi
如果选择“是”,CDM读取HDFS系统上的文件时,会先对待迁移的源目录创建快照(不允许对单个文件创建快照),然后CDM迁移快照中的数据。 需要HDFS系统的管理员权限才可以创建快照,CDM作业完成后,快照会被删除。 否 加密方式 “文件格式”选择“二进制格式”时,该参数才显示。 如果源端数据是被加
如果选择“是”,CDM读取HDFS系统上的文件时,会先对待迁移的源目录创建快照(不允许对单个文件创建快照),然后CDM迁移快照中的数据。 需要HDFS系统的管理员权限才可以创建快照,CDM作业完成后,快照会被删除。 否 加密方式 “文件格式”选择“二进制格式”时,该参数才显示。 如果源端数据是被加