检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
支持的数据源 数据集成离线同步支持单表同步至目标单表、分库分表同步至目标单表及整库同步至目标单表三种同步方式,不同的同步方式支持的数据源有所不同: 单表同步:适用于数据入湖和数据上云场景下,表或文件级别的数据同步,支持的数据源请参见表/文件同步支持的数据源类型。 分库分表同步:适用
通过数据质量对比数据迁移前后结果 数据对账对数据迁移流程中的数据一致性至关重要,数据对账的能力是检验数据迁移或数据加工前后是否一致的关键指标。 本章以DWS数据迁移到MRS Hive分区表为例,介绍如何通过DataArts Studio中的数据质量模块实现数据迁移前后的一致性校验。
如何创建数据库和数据表,数据库对应的是不是数据连接? 问题描述 用户对于创建数据库和数据表,数据库与数据连接的关系不清楚,需要具体解释下,便于用户理解。 解决方案 数据库和数据表可以在DataArts Studio服务中创建。 数据库对应的不是数据连接,数据连接是创建DataArts
avg_rating desc limit 10 图2 脚本(top_rating_movie) 关键参数说明: 数据连接:步骤4中创建的DWS数据连接。 数据库:步骤6中创建的数据库。 脚本调试无误后,单击“保存并提交版本”提交该脚本,脚本名称为“top_rating_movie”。在后续开发并调度作业引用该脚本。
iam:permissions:revokeRoleFromGroup Security Administrator DLI权限同步权限 DLI权限同步时,需要该权限。 例如DLI权限同步时,如果无此权限会导致同步失败,系统提示权限不足。 DLI权限管理时必选 dli:database:grantPrivilege
初级版:数据集成+数据开发 基础版:数据集成+数据开发+数据治理 高级版:数据集成+数据开发+数据治理 专业版:数据集成+数据开发+数据治理 企业版:数据集成+数据开发+数据治理 免费版:数据集成+数据开发 初级版:数据集成+数据开发 专家版:数据集成+数据开发+轻量数据治理 企业版:数据集成+数据开发+数据治理
采集数据源的元数据 元数据简介 配置元数据采集任务 查看任务监控 父主题: 数据目录
数据,任务将失败退出。 是:允许脏数据,即任务产生脏数据时不影响任务执行。 允许脏数据并设置其阈值时: 若产生的脏数据在阈值范围内,同步任务将忽略脏数据(即不会写入目标端),并正常执行。 若产生的脏数据超出阈值范围,同步任务将失败退出。 说明: 脏数据认定标准:脏数据是对业务没有
数据治理模块域 数据治理主要专注于如下模块域: 数据集成 数据集成用来完成数据入湖动作,不是简单的数据搬家,而是按照一定的方法论进行数据备份。数据入湖的前提条件是满足6项数据标准,包括:明确数据Owner、发布数据标准、定义数据密级、明确数据源、数据质量评估、元数据注册。此标准由
如何备份CDM作业? 问题描述 如何备份CDM作业? 解决方案 用户可以先通过CDM的批量导出功能,把所有作业脚本保存到本地,在需要的时候再重新创建集群、重新导入作业,实现作业备份。 父主题: 数据集成
勾选“忽略更新、添加操作”:不采集数据源中的元数据 数据源元数据已删除 当数据连接中元数据发生变化时,通过配置删除策略,设置数据目录中元数据的更新方式。 勾选“从数据目录中删除元数据”:当数据源中的某些元数据已经被删除,数据目录中也将同步删除对应的元数据 勾选“忽略删除”:当数据源中的某些元数据已经被删除,数据目录中不同步删除对应元数据。
场景四:更新数据目录中的元数据,添加新元数据 ,并从数据目录中删除元数据 用户的数据库中数据表有删除的情况,采集任务能够删除数据目录中对应的数据表。 例如数据库删除table1的情况下: 采集前的数据表元数据:table1,table2,table3 采集后的数据表元数据:table2,table3
Administrator用户或者数据安全管理员有权限将敏感数据通过自动或手动方式同步到数据地图组件。 自动同步:创建敏感数据发现任务,默认不勾选任务中的“手动同步数据识别结果”参数时,会自动同步敏感数据到数据地图组件。 手动同步:创建敏感数据发现任务,勾选任务中的“手动同步数据识别结果”参数时,
M,并保存到本地。 已完成数据水印嵌入任务,请参考嵌入数据水印。 约束与限制 数据水印溯源的源文件大小不能超过20MB。 为实现准确溯源,请确保数据的完整性以及正确性:数据水印溯源的表数据文件第一列不允许为空,表数据记录数建议在5000以上。 创建数据水印溯源任务 在DataArts
数据架构配置数据搬迁 当前管理中心支持直接搬迁数据架构组件中的主题、流程、码表、数据标准、关系建模模型、维度、业务指标、原子指标、衍生指标、复合指标和汇总表数据,但不包含事实表数据。 您可以通过管理中心配置数据搬迁进行搬迁,也可以参考本章节通过数据架构的导入导出功能进行搬迁。 数
多种数据源间的数据同步 实时同步支持多种数据源型链路组合,您可以将多种输入及输出数据源搭配组成同步链路进行数据同步。详情请参见支持的数据源。 复杂网络环境下的数据同步 支持云数据库、本地IDC、ECS自建数据库等多种数据库的数据同步。您可以根据数据库所在网络环境,选择合适的同步解决方案来实现数据源
数据安全配置数据搬迁 当前暂不支持数据安全数据的导入导出,需要您手动同步各项配置数据和任务。 数据安全的配置数据,需要您按照旧空间的相关配置,手动在新空间进行重新配置。 父主题: DataArts Studio配置数据搬迁实践
0 是否写入脏数据 选择是否记录脏数据,默认不记录脏数据,当脏数据过多时,会影响同步任务的整体同步速度。 否:默认为否,不记录脏数据。 表示不允许脏数据存在。如果同步过程中产生脏数据,任务将失败退出。 是:允许脏数据,即任务产生脏数据时不影响任务执行。 允许脏数据并设置其阈值时:
如何处理CDM从OBS迁移数据到DLI出现迁移中断失败的问题? 问题描述 CDM从OBS迁移数据到DLI出现迁移中断失败。 解决方案 此类作业问题表现为配置了脏数据写入,但并无脏数据。这种情况下需要调低并发任务数,即可避免此类问题。 父主题: 数据集成
API传参是否支持传递操作符? 工作空间内的API配额已满,无法新建API怎么解决? 数据服务专享版的API如何通过公网访问? 数据服务专享版的API怎样通过域名访问? 如何处理API对应的数据表数据量较大时,获取数据总条数比较耗时的问题?