搜索_华为云

新建一个对账作业实例 - 数据治理中心 DataArts Studio

新建一个对账作业实例场景说明数据对账对于数据开发和数据迁移流程中的数据一致性至关重要，而跨源数据对账的能力是检验数据迁移或数据加工前后是否一致的关键指标。本章分别以DLI和DWS作为数据源，介绍如何通过DataArts Studio中的数据质量模块实现跨源数据对账的基本一致性校验。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据质量 > 使用教程
数据集成（CDM作业） - 数据治理中心 DataArts Studio

获取集群列表为空/没有权限访问/操作时报当前策略不允许执行？ Oracle迁移到DWS报错ORA-01555 MongoDB连接迁移失败时如何处理？ Hive迁移作业长时间卡顿怎么办？使用CDM迁移数据由于字段类型映射不匹配导致报错怎么处理？ MySQL迁移时报错“JDBC连接超时”怎么办？创建了Hiv

帮助中心 > 数据治理中心 DataArts Studio > 常见问题
（可选）购买DataArts Studio功能增量包 - 数据治理中心 DataArts Studio

large：8核CPU、16G内存的虚拟机，最大带宽/基准带宽为3/0.8 Gbps，集群作业并发数上限为16。 cdm.xlarge：16核CPU、32G内存的虚拟机，最大带宽/基准带宽为10/4 Gbps，集群作业并发数上限为32，适合使用10GE高速带宽进行TB级以上的数据量迁移。 cdm.4x

帮助中心 > 数据治理中心 DataArts Studio > 准备工作 > 购买DataArts Studio实例
Kafka连接 - 数据治理中心 DataArts Studio

Kafka连接介绍通过Kafka连接器可以与开源的Kafka数据源建立连接，并按照用户指定配置将Kafka中的数据迁移到其它数据源。目前仅支持从Kafka导出数据。连接样例 { "links": [ { "link-config-values":

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据集成API > 附：公共数据结构 > 连接参数说明
配置MongoDB/DDS源端参数 - 数据治理中心 DataArts Studio

配置MongoDB/DDS源端参数从MongoDB、DDS迁移数据时，CDM会读取集合的首行数据作为字段列表样例，如果首行数据未包含该集合的所有字段，用户需要自己手工添加字段。作业中源连接为MongoDB连接时，即从本地MongoDB或DDS导出数据时，源端作业参数如表1所示。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建作业 > 配置CDM作业源端参数
配置Hive源端参数 - 数据治理中心 DataArts Studio

填写该参数表示指定抽取的WHERE子句，不指定则抽取整表。如果要迁移的表中没有WHERE子句的字段，则会迁移失败。该参数支持配置为时间宏变量，实现抽取指定日期的数据，详细说明请参见关系数据库增量迁移。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建作业 > 配置CDM作业源端参数
步骤4：元数据采集 - 数据治理中心 DataArts Studio

步骤4：元数据采集为了在DataArts Studio平台中对迁移到云上的原始数据进行管理和监控，我们必须先在DataArts Studio数据目录模块中对SDI贴源层数据进行元数据采集并监控。采集并监控元数据在DataArts Studio控制台首页，选择对应工作空间的“数据目录”模块，进入数据目录页面。

帮助中心 > 数据治理中心 DataArts Studio > 快速入门 > 企业版：基于MRS Hive的出租车出行数据治理流程
自动建表原理介绍 - 数据治理中心 DataArts Studio

自动建表时的字段类型映射 CDM在数据仓库服务（Data Warehouse Service，简称DWS）中自动建表时，DWS的表与源表的字段类型映射关系如图1所示。例如使用CDM将Oracle整库迁移到DWS，CDM在DWS上自动建表，会将Oracle的NUMBER(3,0)字段映射到DWS的SMALLINT。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 关键操作指导
上传增量数据 - 数据治理中心 DataArts Studio

“重复周期”配置为1天。 “开始时间”配置为每天凌晨0点1分执行。这样CDM每天凌晨自动执行全量迁移，但因为“重复文件处理方式”选择了“跳过重复文件”，相同名称且相同大小的文件不迁移，所以只会上传每天新增的文件。单击“保存”，完成CDM的增量同步配置。父主题：使用CDM上传数据到OBS

帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 贸易数据极简上云与统计分析 > 使用CDM上传数据到OBS
FTP/SFTP连接参数说明 - 数据治理中心 DataArts Studio

FTP/SFTP连接适用于从线下文件服务器或ECS服务器上迁移文件到数据库。当前仅支持Linux操作系统的FTP 服务器。作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户，密码不会立即生效且作业会运行失败。连接FTP或SFTP服务器时，连接参数相同，如表1所示。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建连接 > 配置连接参数
数据质量 - 数据治理中心 DataArts Studio

数据质量质量作业和对账作业有什么区别？如何确认质量作业或对账作业已经阻塞？如何手工重启阻塞的质量作业或对账作业？怎样查看质量规则模板关联的作业？用户在执行质量作业时提示无MRS权限怎么办？

帮助中心 > 数据治理中心 DataArts Studio > 常见问题
配置DWS目的端参数 - 数据治理中心 DataArts Studio

age > 18 and age <= 60 先导入阶段表如果选择“是”，则启用事务模式迁移，CDM会自动创建临时表，先将数据导入到该临时表，导入成功后再通过数据库的事务模式将数据迁移到目标表中，导入失败则将目的表回滚到作业开始之前的状态。默认为“否”，CDM直接将数据导入

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建作业 > 配置CDM作业目的端参数
正则表达式分隔半结构化文本 - 数据治理中心 DataArts Studio

正则表达式参数在迁移CSV格式的文件时，CDM支持使用正则表达式分隔字段，并按照解析后的结果写入目的端。正则表达式语法请参考对应的相关资料，这里举例下面几种日志文件的正则表达式的写法： Log4J日志 Log4J审计日志 Tomcat日志 Django日志 Apache server日志 Log4J日志

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 关键操作指导
CDM是否支持参数或者变量？ - 数据治理中心 DataArts Studio

如果CDM作业使用了在数据开发时配置的作业参数或者变量，则后续在DataArts Studio数据开发模块调度此节点，可以间接实现CDM作业根据参数变量进行数据迁移。父主题：数据集成（CDM作业）

帮助中心 > 数据治理中心 DataArts Studio > 常见问题 > 数据集成（CDM作业）
如何将云下内网或第三方云上的私网与CDM连通？ - 数据治理中心 DataArts Studio

WS配置一致，且推荐在同一个内网和安全组，如果不同，还需要配置允许两个安全组之间的数据访问。端口映射不仅可以用于迁移内网数据库的数据，还可以迁移例如SFTP服务器上的数据。 Linux机器也可以通过IPTABLE实现端口映射。内网中的FTP通过端口映射到公网时，需要检查是否启

 帮助中心 > 数据治理中心 DataArts Studio > 常见问题 > 数据集成（CDM作业）
开发Python脚本 - 数据治理中心 DataArts Studio

已新增Python脚本，请参见新建脚本。已新建主机连接，该Linux主机配有用于执行Python脚本的环境。新建主机连接请参见主机连接参数说明。连接主机的用户需要具有主机/tmp目录下文件的创建与执行权限。 Shell或Python脚本可以在该ECS主机上运行的最大并发数由ECS主机的/etc/ssh/

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据开发 > 脚本开发 > 开发脚本
云搜索服务（CSS）连接参数说明 - 数据治理中心 DataArts Studio

连接的名称，根据连接的数据源类型，用户可自定义便于记忆、区分的连接名。 css_link Elasticsearch服务器列表配置为一个或多个Elasticsearch服务器的IP地址或域名，包括端口号，格式为“ip:port”，多个地址之间使用“;”分隔。 192.168.0.1:9200;192

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建连接 > 配置连接参数
入门实践 - 数据治理中心 DataArts Studio

通过数据质量对比数据迁移前后结果数据对账对数据迁移流程中的数据一致性至关重要，数据对账的能力是检验数据迁移或数据加工前后是否一致的关键指标。本文以DWS数据迁移到MRS Hive分区表为例，介绍如何通过DataArts Studio中的数据质量模块实现数据迁移前后的一致性校验。

帮助中心 > 数据治理中心 DataArts Studio > 快速入门
配置Oracle源端参数 - 数据治理中心 DataArts Studio

抽取整表。该参数支持配置为时间宏变量，实现抽取指定日期的数据，详细说明请参见关系数据库增量迁移。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建作业 > 配置CDM作业源端参数
Hive连接参数说明 - 数据治理中心 DataArts Studio

60000：迁移数据量较大、或通过查询语句检索全表时，会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间（单位ms），避免超时导致失败。 hive.server2.idle.operation.timeout=360000：为避免Hive迁移作业长时间卡住

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建连接 > 配置连接参数

总条数： 598

上一页
1
...
6
7
8
...
30
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

新建一个对账作业实例 - 数据治理中心 DataArts Studio

数据集成（CDM作业） - 数据治理中心 DataArts Studio

（可选）购买DataArts Studio功能增量包 - 数据治理中心 DataArts Studio

Kafka连接 - 数据治理中心 DataArts Studio

配置MongoDB/DDS源端参数 - 数据治理中心 DataArts Studio

配置Hive源端参数 - 数据治理中心 DataArts Studio

步骤4：元数据采集 - 数据治理中心 DataArts Studio

自动建表原理介绍 - 数据治理中心 DataArts Studio

上传增量数据 - 数据治理中心 DataArts Studio

FTP/SFTP连接参数说明 - 数据治理中心 DataArts Studio

数据质量 - 数据治理中心 DataArts Studio

配置DWS目的端参数 - 数据治理中心 DataArts Studio

正则表达式分隔半结构化文本 - 数据治理中心 DataArts Studio

CDM是否支持参数或者变量？ - 数据治理中心 DataArts Studio

如何将云下内网或第三方云上的私网与CDM连通？ - 数据治理中心 DataArts Studio

开发Python脚本 - 数据治理中心 DataArts Studio

云搜索服务（CSS）连接参数说明 - 数据治理中心 DataArts Studio

入门实践 - 数据治理中心 DataArts Studio

配置Oracle源端参数 - 数据治理中心 DataArts Studio

Hive连接参数说明 - 数据治理中心 DataArts Studio

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线