检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
包括结构化、半结构化和非结构化数据。 数据处理工具,则分为两大类: 第一类工具,聚焦如何把数据“搬到”湖里。包括定义数据源、制定数据同步策略、移动数据、编制数据目录等。 第二类工具,关注如何对湖中的数据进行分析、挖掘、利用。数据湖需要具备完善的数据管理能力、多样化的数据分析能力
DateUtil内嵌对象 DateUtil内嵌对象提供了一系列时间格式化、时间计算方法。 方法 表1 方法说明 方法 描述 示例 String format(Date date, String pattern) 将Date类型时间按指定pattern格式为字符串。 将作业调度计划的时间,转换为毫秒格式。
在CDM集群中创建作业 新建表/文件迁移作业 新建整库迁移作业 配置CDM作业源端参数 配置CDM作业目的端参数 配置CDM作业字段映射 配置CDM作业定时任务 CDM作业配置管理 管理单个CDM作业 批量管理CDM作业 父主题: 数据集成(CDM作业)
创建API 配置方式生成API 脚本/MyBatis方式生成API 注册API 父主题: 开发数据服务API
配置作业目的端参数 配置PostgreSQL目的端参数 配置Oracle目的端参数 配置MySQL目的端参数 配置SQLServer目的端参数 配置Hudi目的端参数 配置Hive目的端参数 配置DLI目的端参数 配置ElasticSearch目的端参数 配置DWS目的端参数 配置OBS目的端参数
指定文件名迁移 从FTP/SFTP/OBS导出文件时,CDM支持指定文件名迁移,用户可以单次迁移多个指定的文件(最多50个),导出的多个文件只能写到目的端的同一个目录。 在创建表/文件迁移作业时,如果源端数据源为FTP/SFTP/OBS,CDM源端的作业参数“源目录或文件”支持输
自动建表原理介绍 CDM将根据源端的字段类型进行默认规则转换成目的端字段类型,并在目的端建数据表。 自动建表时的字段类型映射 CDM在数据仓库服务(Data Warehouse Service,简称DWS)中自动建表时,DWS的表与源表的字段类型映射关系如图1所示。例如使用CDM
(可选)升级企业模式工作空间 企业模式简介 创建企业模式工作空间 企业模式角色操作 父主题: 购买并配置DataArts Studio
OBS路径仅支持OBS桶,不支持并行文件系统。 修改工作空间的用户账号,需要满足如下任一条件: DAYU Administrator或Tenant Administrator账号。 DAYU User账号,但为当前工作空间的管理员。 配置作业日志的桶目录的步骤操作如下: 登录DataArts Studio管理控制台。
日期和时间模式 EL表达式中的日期和时间可以按用户指定的格式进行显示,日期和时间格式由日期和时间模式字符串指定。日期和时间模式字符串由A到Z、a到z的非引号字母组成,字母的含义如表1所示。 表1 字母含义 字母 描述 示例 G 纪元标记 AD y 年 2001 M 年中的月份 July
StringUtil内嵌对象 StringUtil内嵌对象提供了一系列字符串操作方法,例如从一个字符串中截取一个子字符串。 StringUtil内部是由org.apache.commons.lang3.StringUtils实现的,具体使用方法请参考apache commons文档。
Loop内嵌对象 使用Loop内嵌对象可获取For Each节点数据集中的数据。 属性 表1 属性说明 属性 类型 描述 示例 dataArray String Loop.dataArray表示For Each节点“数据集”中定义的二维数组。 一般定义格式为#{Loop.dataArray[0][0]}、#{Loop
中该审核人,再单击“删除”按钮,即可删除指定的审核人。 指标配置 进入数据指标的“配置中心 > 指标配置”页面,可以对业务指标进行自定义项设置。 单击“新建”,输入自定义相的参数信息。包含选项名称的中英文、可选值、是否必填、描述等。 如果勾选了“是否必填”,在创建指标定义时,该自定义项参数则为必填项。
映射名称:新建映射时会自动生成,用户可以手动修改。 源逻辑实体:如果数据来源于一个模型中的多个逻辑实体,可以单击逻辑实体后的按钮为该逻辑实体和其他逻辑实体之间设置JOIN。 图7 设置源表JOIN条件 表5 JOIN条件参数说明 参数名 参数说明 *JOIN逻辑实体 下拉选择需要和源逻辑实体建立JOIN关系的逻辑实体。
配置CDM作业源端参数 配置OBS源端参数 配置HDFS源端参数 配置HBase/CloudTable源端参数 配置Hive源端参数 配置DLI源端参数 配置FTP/SFTP源端参数 配置HTTP源端参数 配置PostgreSQL/SQL Server源端参数 配置DWS源端参数
编排API简介 数据服务API编排是指将已经开发好的服务API接口,在无需编写复杂代码的情况下,根据特定的业务逻辑和流程进行可视化的重组和重构,从而实现在不影响原生接口的前提下进行简便的二次开发。API编排为您提供拖拽式、可视化的API工作流程编排能力,您可以按照业务逻辑,以串行
数据血缘方案简介 什么是数据血缘 大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息,通过联姻融合、转换变换、流转流通,又生成新的数据,汇聚成数据的海洋。 数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。我们借鉴人类社会中
数据质量操作列表 云审计服务(Cloud Trace Service,简称CTS)为用户提供了云账户下资源的操作记录,可以帮您记录相关的操作事件,便于日后的查询、审计和回溯。 表1 支持云审计的关键操作列表 操作名称 资源类型 事件名称 创建目录 Category createCategory
配置Hive源端参数 支持从Hive导出数据,使用JDBC接口抽取数据。 Hive作为数据源,CDM自动使用Hive数据分片文件进行数据分区。 表1 Hive作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 读取方式 包括HDFS和JDBC两种读取方式。默认为HD
动态脱敏任务 管理动态脱敏策略 订阅动态脱敏策略 父主题: 敏感数据保护