检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据湖是一个集中存储各类结构化和非结构化数据的大型数据仓库,它可以存储来自多个数据源、多种数据类型的原始数据,数据无需经过结构化处理,就可以进行存取、处理、分析和传输。数据湖能帮助企业快速完成异构数据源的联邦分析、挖掘和探索数据价值。
图10 添加路由1 图11 添加路由2 (可选)MRS类型数据源还需要进行以下操作打通网络。 实时网络连接创建完成并绑定资源组后,单击右侧“更多 > 修改主机信息”,按照输入框提示的格式填写MRS集群所有节点的IP和域名。
说明: 如果要让“00”“01”当成数字类型作为参数传递,需要配置为[["00"],["01"]];[[00],[01]];[['00'],['01']]。
实例类型 目前数据集成集群支持以下部分规格供用户选择: cdm.large:8核CPU、16G内存的虚拟机,最大带宽/基准带宽为3/0.8 Gbps,集群作业并发数上限为16。
例如,源端是VARCHAR类型的数据写到INT类型的目标列中,导致因为转换不合理而无法写入的数据。 作业(数据开发) 在数据开发中,作业由一个或多个节点组成,共同执行以完成对数据的一系列操作。 节点 节点用于定义对数据执行的操作。
实时队列用于运行实时作业,离线队列用于运行批处理作业,默认即不区分队列的作业类型。 图3 MRS Yarn队列详情 图4 DLI队列详情 为分配的队列资源进行授权。
数据架构API概览 表1 数据架构API类型 类型 说明 概览 概览接口。 信息架构接口 信息架构接口。 数据标准接口 数据标准接口 数据源接口 数据源接口。 码表管理接口 码表管理接口。 流程架构接口 流程架构接口。 数据标准模板接口 数据标准模板接口。
配置样例: 假设数据库表中存在表示时间的列DS,类型为“varchar(30)”,插入的时间格式类似于“2017-xx-xx”,如图1所示,参数配置如下: 图1 表数据 Where子句:配置为DS='${dateformat(yyyy-MM-dd,-1,DAY)}'。
配置样例: 假设数据库表中存在表示时间的列DS,类型为“varchar(30)”,插入的时间格式类似于“2017-xx-xx”,如图1所示,参数配置如下: 图1 表数据 Where子句:配置为DS='${dateformat(yyyy-MM-dd,-1,DAY)}'。
表1 网络不通排查方法 类型 异常项 方法 数据源 - CDM异常 实例状态检查异常 检查集群是否在及是否正常运行。 连通性检查异常 若CDM集群和数据源在同一个VPC下,请确保数据源安全组入方向添加CDM集群内网IP,CDM集群安全组出方向添加数据源IP。
"value": "|" } ], "name": "fromJobConfig" } ] } 参数说明 参数 是否必选 类型
表1 支持云审计的关键操作列表 操作名称 资源类型 事件名称 添加数据掩码 datamask createDataMask 查询数据掩码列表 datamask listDataMask 查询数据掩码 datamask getDataMask 删除数据掩码 datamask deleteDataMask
配置ClickHouse源端参数 参数类型 参数名 说明 取值样例 基本参数 模式或表空间 “使用SQL语句”选择“否”时,显示该参数,表示待抽取数据的模式或表空间名称。 单击输入框后面的按钮可进入模式选择界面,用户也可以直接输入模式或表空间名称。
图1 添加高级属性 表1 DWS写入优化参数 参数名 类型 默认值 说明 写入模式 enum UPSERT DWS的写入模式,可在目的端配置中设置,实时处理集成作业推荐使用COPY MODE。 UPSERT:为批量更新入库模式。 COPY:为DWS专有的高性能批量入库模式。
此时可通过EL表达式分割字符串结果,获取前一节点输出的字段值,但注意输出结果类型为String。需要输出原数据类型时,仍需通过For Each节点及其支持的Loop内嵌对象EL表达式获取。
表1 PostgreSQL作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。
SFTP/FTP数据连接参数说明 表1 SFTP/FTP数据连接 参数 是否必选 说明 数据连接类型 是 SFTP/FTP连接固定选择为SFTP/FTP。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。
属性 表1 属性说明 属性 类型 描述 示例 dataArray String Loop.dataArray表示For Each节点“数据集”中定义的二维数组。
表1 CloudTable OpenTSDB连接参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 TSDB_link OpenTSDB链接地址 OpenTSDB的ZK链接地址。
图2 新建密级权限管控策略参数配置 创建密级权限管控策略参数配置说明: 表1 配置策略参数 参数名 参数说明 *用户类型 选择为用户或用户组进行密级权限管控。 *用户名称 选择当前实例所有工作空间成员中的用户或用户组。