搜索_华为云

时间宏变量使用解析 - 数据治理中心 DataArts Studio

时间宏变量使用解析在创建表/文件迁移作业时，CDM支持在源端和目的端的以下参数中配置时间宏变量：源端的源目录或文件源端的表名 “通配符”过滤类型中的目录过滤器和文件过滤器 “时间过滤”中的起始时间和终止时间分区过滤条件和Where子句目的端的写入目录目的端的表名支持

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业）
调度作业 - 数据治理中心 DataArts Studio

选择要监听的OBS路径，如果该路径下有新增文件，则触发调度；新增的文件的路径名，可以通过变量Job.trigger.obsNewFiles引用。前提条件：该OBS路径已经配置DIS消息通知。最大处理文件数节点被驱动运行时，每批次最多可处理的文件数。当“触发事件类型”选择“OBS”时才需要配置。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据开发 > 作业开发
配置HDFS目的端参数 - 数据治理中心 DataArts Studio

/user/output 文件格式写入后的文件格式，可选择以下文件格式： CSV格式：按CSV格式写入，适用于数据表到文件的迁移。二进制格式：选择“二进制格式”时不解析文件内容直接传输，CDM会原样写入文件，不改变原始文件格式，适用于文件到文件的迁移。如果是文件类数据源（FTP/S

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建作业 > 配置CDM作业目的端参数
主机连接参数说明 - 数据治理中心 DataArts Studio

etc/hosts.allow文件里面。 CDM集群的内网IP获取方式请参见查看并修改CDM集群配置。端口是主机的SSH端口号。 Linux操作系统主机的默认登录端口为22，如有修改可通过主机路径“/etc/ssh/sshd_config”文件中的port字段确认端口号。 KMS密钥

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 管理中心 > 配置DataArts Studio数据连接参数
查看脚本引用 - 数据治理中心 DataArts Studio

如要查看某个脚本引用情况，右键单击待查看的脚本，选择“查看引用”，弹出“引用列表”窗口。如要查看文件夹下的所有脚本引用情况，右键单击待查看的文件夹，选择“查看引用”，弹出“查看引用”窗口。在弹出的窗口，可以查看该脚本或该文件夹下所有脚本被引用的情况。图1 某个脚本被引用列表父主题：（可选）管理脚本

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据开发 > 脚本开发 > （可选）管理脚本
字段转换器配置指导 - 数据治理中心 DataArts Studio

作业参数配置完成后，将进行字段映射的配置，您可以单击操作列下创建字段转换器。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，且源端“文件格式”配置为“二进制格式”（即不解析文件内容直接传输），则没有字段映射这一步骤。在创建表/文件迁移作业的字段映射界面，可新建字段转换器，如下图所示。

帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 数据迁移进阶实践
配置元数据采集任务 - 数据治理中心 DataArts Studio

选择待采集数据的采集范围。选择“当前文件夹”，采集任务仅采集OBS路径中设置的文件夹下的对象。选择“当前文件夹和所有子文件夹”，采集任务会采集OBS路径中设置的文件夹下所有的对象，包括其子文件夹下的对象采集内容选择待采集数据的采集内容。选择“文件夹和对象”，采集任务采集文件夹和对象。选择“

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据目录 > 采集数据源的元数据
字段转换器配置指导 - 数据治理中心 DataArts Studio

作业参数配置完成后，将进行字段映射的配置，您可以单击操作列下创建字段转换器。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，且源端“文件格式”配置为“二进制格式”（即不解析文件内容直接传输），则没有字段映射这一步骤。在创建表/文件迁移作业的字段映射界面，可新建字段转换器，如下图所示。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 关键操作指导
配置Elasticsearch/云搜索服务（CSS）目的端参数 - 数据治理中心 DataArts Studio

接参数说明时，即将数据导入到Elasticsearch/云搜索服务（CSS）时，目的端作业参数如表1所示。表/文件迁移和整库迁移时需配置的参数不同，下表参数为表/文件迁移时的全量参数，实际参数以界面显示为准。表1 Elasticsearch/云搜索服务（CSS）作为目的端时的作业参数

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建作业 > 配置CDM作业目的端参数
字段转换器配置指导 - 数据治理中心 DataArts Studio

作业参数配置完成后，将进行字段映射的配置，您可以单击操作列下创建字段转换器。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，且源端“文件格式”配置为“二进制格式”（即不解析文件内容直接传输），则没有字段映射这一步骤。在创建表/文件迁移作业的字段映射界面，可新建字段转换器，如图1所示。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（离线作业）
配置Hive源端参数 - 数据治理中心 DataArts Studio

传输模式支持记录迁移和文件迁移默认为记录迁移。仅当源端为Hive2.x且数据存储在HDFS、目的端为Hive3.x且数据存在OBS并行文件系统时，才支持文件迁移。当选择文件迁移时，需保证源端和目的端的表格式和属性需一致才能迁移成功。记录迁移文件迁移分区过滤条件 “读取方式”选择“HDFS”时显示此参数。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（离线作业） > 配置作业源端参数
管理资源 - 数据治理中心 DataArts Studio

字符、“_”、“-”，且长度为1~32个字符。类型是选择资源的文件类型： jar：用户jar文件。 pyFile：用户Python文件。 file：用户文件。 archive：用户AI模型文件。支持的文件后缀名为：zip、tgz、tar.gz、tar、jar。资源位置是

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据开发 > 配置管理
配置OBS目的端参数 - 数据治理中心 DataArts Studio

Parquet格式：按Parquet格式写入，适用于数据表到文件的迁移。 ORC格式：按ORC格式写入，适用于数据表到文件的迁移。二进制格式：选择“二进制格式”时不解析文件内容直接传输，CDM会原样写入文件，不改变原始文件格式，适用于文件到文件的迁移。如果是文件类数据源（FTP/SFTP/HDFS/

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（离线作业） > 配置作业目的端参数
全量导出/导出/导入API - 数据治理中心 DataArts Studio

在导出窗口中单击“确认”导出全量API，单击确认即可以Excel文件的形式导出API。图1 全量导出API 打开下载到本地的Excel文件，可以查看导出的API。不同类型的API会分别导出到文件页签中，单击下方页签可以切换查看并编辑。图2 Excel文件样式导出API 在DataArts Stu

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据服务 > 开发数据服务API > 管理API
源端为HDFS - 数据治理中心 DataArts Studio

fromJobConfig.splitType 否枚举指定任务分片方式，选择按文件或文件大小进行分割。HDFS上的文件，如果在HDFS上已经分片，则HDFS每个分片视为一个文件。 FILE：按文件数量进行分片。例如有10个文件，并在任务参数中指定“throttlingConfig.numEx

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据集成API > 附：公共数据结构 > 源端作业参数说明
目的端为OBS - 数据治理中心 DataArts Studio

源端为数据库时该参数有效，支持按大小分成多个文件存储，避免导出的文件过大，单位为MB。 toJobConfig.duplicateFileOpType 否枚举重复文件处理方式，只有文件名和文件大小都相同才会判定为重复文件。重复文件支持以下处理方式： REPLACE：替换重复文件。 SKIP：跳过重复文件。 ABANDON：发现重复文件停止任务。

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据集成API > 附：公共数据结构 > 目的端作业参数说明
数据集成配置数据搬迁 - 数据治理中心 DataArts Studio

集群“操作”列的“作业管理”，进入到“表/文件迁移”界面。单击作业列表上方的“导入”按钮，准备导入JSON文件。图3 批量导入在弹出的窗口中，选择导出作业获取的JSON文件，上传JSON文件。图4 选择JSON文件 JSON文件上传成功后，单击“设置密码”，配置数据连接的密码或SK。

帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > DataArts Studio配置数据搬迁实践
上传增量数据 - 数据治理中心 DataArts Studio

“重复周期”配置为1天。 “开始时间”配置为每天凌晨0点1分执行。这样CDM每天凌晨自动执行全量迁移，但因为“重复文件处理方式”选择了“跳过重复文件”，相同名称且相同大小的文件不迁移，所以只会上传每天新增的文件。单击“保存”，完成CDM的增量同步配置。父主题：使用CDM上传数据到OBS

帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 贸易数据极简上云与统计分析 > 使用CDM上传数据到OBS
新增字段操作指导 - 数据治理中心 DataArts Studio

作业参数配置完成后，将进行字段映射的配置，您可以通过字段映射界面的可自定义新增字段。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，且源端“文件格式”配置为“二进制格式”（即不解析文件内容直接传输），则没有字段映射这一步骤。其他场景下，CDM会自动匹配源端和目的

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 关键操作指导
新建MRS Hive连接时，提示：CORE_0031:Connect time out. (Cdm.0523) 怎么解决？ - 数据治理中心 DataArts Studio

Hive连接时，提示：CORE_0031:Connect time out. (Cdm.0523) 。解决方案新建MRS Hive连接时，提示无法下载配置文件，实际是用户权限不足。建议您新建一个业务用户，给对应的权限后重试即可。如果要创建MRS安全集群的数据连接，不能使用admin用户。因为a

帮助中心 > 数据治理中心 DataArts Studio > 常见问题 > 数据集成（CDM作业）

总条数： 391

上一页
1
2
3
4
5
...
20
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

时间宏变量使用解析 - 数据治理中心 DataArts Studio

调度作业 - 数据治理中心 DataArts Studio

配置HDFS目的端参数 - 数据治理中心 DataArts Studio

主机连接参数说明 - 数据治理中心 DataArts Studio

查看脚本引用 - 数据治理中心 DataArts Studio

字段转换器配置指导 - 数据治理中心 DataArts Studio

配置元数据采集任务 - 数据治理中心 DataArts Studio

字段转换器配置指导 - 数据治理中心 DataArts Studio

配置Elasticsearch/云搜索服务（CSS）目的端参数 - 数据治理中心 DataArts Studio

字段转换器配置指导 - 数据治理中心 DataArts Studio

配置Hive源端参数 - 数据治理中心 DataArts Studio

管理资源 - 数据治理中心 DataArts Studio

配置OBS目的端参数 - 数据治理中心 DataArts Studio

全量导出/导出/导入API - 数据治理中心 DataArts Studio

源端为HDFS - 数据治理中心 DataArts Studio

目的端为OBS - 数据治理中心 DataArts Studio

数据集成配置数据搬迁 - 数据治理中心 DataArts Studio

上传增量数据 - 数据治理中心 DataArts Studio

新增字段操作指导 - 数据治理中心 DataArts Studio

新建MRS Hive连接时，提示：CORE_0031:Connect time out. (Cdm.0523) 怎么解决？ - 数据治理中心 DataArts Studio

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线