检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
管理数据水印 嵌入数据水印 溯源数据水印 父主题: 敏感数据保护
动态脱敏任务 管理动态脱敏策略 订阅动态脱敏策略 父主题: 敏感数据保护
元数据简介 按照传统的定义,元数据(Metadata)是关于数据的数据。元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。在数据仓库系统中,元数据可以帮助数
Studio是否支持修改时区? 问题描述 DataArts Studio是否支持修改时区,如果不支持应该如何处理。 解决方案 DataArts Studio实例暂不支持修改时区。 数据开发作业调度时可通过EL表达式适配当地时间,例如: #{DateUtil.format(DateUtil.addHours(Job
管理单个CDM作业 已存在的CDM作业支持查看、修改、删除、启动、停止等操作,这里主要介绍作业的查看和修改。 查看 查看作业状态 作业状态有New,Pending,Booting,Running,Failed,Succeeded,stopped。 其中“Pending”表示正在等
创建并配置简单模式工作空间 创建简单模式工作空间 设置工作空间配额 (可选)修改作业日志存储路径 父主题: 购买并配置DataArts Studio
配置连接参数 OBS连接参数说明 PostgreSQL/SQLServer连接参数说明 数据仓库服务(DWS)连接参数说明 云数据库MySQL/MySQL数据库连接参数说明 Oracle数据库连接参数说明 DLI连接参数说明 Hive连接参数说明 HBase连接参数说明 HDFS连接参数说明
配置HDFS源端参数 表1 HDFS作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 源连接名称 由用户下拉选择即可。 hdfs_to_cdm 源目录或文件 “列表文件”选择为“否”时,才有该参数。 待迁移数据的目录或单个文件路径。 该参数支持配置为时间宏变量,且
user; 模式或表空间 “使用SQL语句”选择“否”时,显示该参数,表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面,用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的账号是否有元数据查询的权限。 该参数支持配置正则表达式,实现导出满足规则的所有数据库。
配置OBS源端参数 表1 源端为OBS时的作业参数 参数类型 参数名 说明 取值样例 基本参数 桶名 待迁移数据所在的桶名。 BUCKET_2 文件格式 传输数据时使用的格式。 CSV格式:以CSV格式解析源文件,用于迁移文件到数据表的场景。 JSON格式:以JSON格式解析源文
cdm_topic 数据格式 解析数据时使用的格式: JSON:以JSON格式解析源数据。 CSV格式:以CSV格式解析源数据。 JSON格式 消费组ID 用户指定消费组ID。 如果是从DMS Kafka导出数据,专享版请任意输入,标准版请输入有效的消费组ID。 sumer-group 消费记录策略
查询SQL获取max值传递给CDM作业 场景描述 通过查询SQL语句,将获取到的最大时间的max值传递给CDM作业。在CDM作业的高级属性里面,通过where子句判断最大时间范围,获取所需要的迁移数据,从而完成数据迁移任务,最终完成增量迁移任务。 约束条件 已完成新建数据连接的操作。
数据血缘方案简介 什么是数据血缘 大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息,通过联姻融合、转换变换、流转流通,又生成新的数据,汇聚成数据的海洋。 数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。我们借鉴人类社会中
数据安全为数据湖提供数据生命周期内统一的数据使用保护能力。通过敏感数据识别、分级分类、隐私保护、资源权限控制、数据加密传输、加密存储、数据风险识别以及合规审计等措施,帮助用户建立安全预警机制,增强整体安全防护能力,让数据可用不可得和安全合规。 功能模块 数据安全包括: 数据密级 对数据进行等级划分,方便数据的管理。
Oracle到DWS参数调优 源端优化 Oracle抽取优化 暂无优化配置项。 目的端优化 DWS写入优化 可通过在DWS的目的端配置中修改写入相关配置,且可以通过单击高级配置的“查看编辑”按钮,添加高级属性。 图1 添加高级属性 表1 DWS写入优化参数 参数名 类型 默认值 说明
在CDM集群中创建连接 创建CDM与数据源之间的连接 配置连接参数 上传CDM连接驱动 新建Hadoop集群配置 父主题: 数据集成(CDM作业)
OBSUtil内嵌对象 OBSUtil内嵌对象提供了一系列针对OBS的操作方法,例如判断OBS文件或目录是否存在。 方法 表1 方法说明 方法 说明 示例 boolean isExistOBSPath(String obsPath) 判断OBS文件或目录(目录请以“/”结尾)是否
性能调优概述 实时处理集成作业各链路如果出现时延持续增长、反压持续处于高位或同步速率过慢(查看作业监控指标速率不符合实时集成作业提供的性能规格)等情况,需要考虑以下几点: 目的端写入过慢。 源端抽取过慢。 其他问题(请联系技术支持人员协助解决)。 因为目的端写入过慢会影响至源端,
规范化的数据如何使用? 问题描述 规范化的数据使用场景需要说明下。 解决方案 规范化的数据可以作为BI的基本信息,也可以作为上层应用的源数据,也可以接入各类数据可视化报表等。 父主题: 数据架构
参考:CDM性能实测数据 背景说明 文中提供的性能指标仅用于参考,实际环境会受源或目标数据源性能、网络带宽及时延、数据及业务模型等因素影响。推荐您在正式迁移前,可先用小数据量实测进行速度摸底。 环境信息 CDM集群为xlarge规格,2.9.1 200版本。 性能测试中,表数据规