搜索_华为云

配置HDFS目的端参数 - 数据治理中心 DataArts Studio

/user/output 文件格式写入后的文件格式，可选择以下文件格式： CSV格式：按CSV格式写入，适用于数据表到文件的迁移。二进制格式：选择“二进制格式”时不解析文件内容直接传输，CDM会原样写入文件，不改变原始文件格式，适用于文件到文件的迁移。如果是文件类数据源（FTP/S

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建作业 > 配置CDM作业目的端参数
字段转换器配置指导 - 数据治理中心 DataArts Studio

作业参数配置完成后，将进行字段映射的配置，您可以单击操作列下创建字段转换器。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，且源端“文件格式”配置为“二进制格式”（即不解析文件内容直接传输），则没有字段映射这一步骤。在创建表/文件迁移作业的字段映射界面，可新建字段转换器，如下图所示。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 关键操作指导
字段转换器配置指导 - 数据治理中心 DataArts Studio

作业参数配置完成后，将进行字段映射的配置，您可以单击操作列下创建字段转换器。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，且源端“文件格式”配置为“二进制格式”（即不解析文件内容直接传输），则没有字段映射这一步骤。在创建表/文件迁移作业的字段映射界面，可新建字段转换器，如下图所示。

帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 数据迁移进阶实践
嵌入数据水印 - 数据治理中心 DataArts Studio

过后采取数据水印技术生成可外发数据文件。数据版权保护通过在关系数据库中嵌入代表所有权的水印信息，可以将数据库与其拥有者联系起来，从而实现数据的版权保护。对泄露数据进行快速溯源通过对泄露数据文件解封，根据数据文件的完整度和水印信息痕迹来检测水印是否存在，快速识别水印标记信息

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据安全 > 敏感数据保护 > 管理数据水印
字段转换器配置指导 - 数据治理中心 DataArts Studio

作业参数配置完成后，将进行字段映射的配置，您可以单击操作列下创建字段转换器。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，且源端“文件格式”配置为“二进制格式”（即不解析文件内容直接传输），则没有字段映射这一步骤。在创建表/文件迁移作业的字段映射界面，可新建字段转换器，如图1所示。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（离线作业）
全量导出/导出/导入API - 数据治理中心 DataArts Studio

在导出窗口中单击“确认”导出全量API，单击确认即可以Excel文件的形式导出API。图1 全量导出API 打开下载到本地的Excel文件，可以查看导出的API。不同类型的API会分别导出到文件页签中，单击下方页签可以切换查看并编辑。图2 Excel文件样式导出API 在DataArts Stu

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据服务 > 开发数据服务API > 管理API
管理资源 - 数据治理中心 DataArts Studio

字符、“_”、“-”，且长度为1~32个字符。类型是选择资源的文件类型： jar：用户jar文件。 pyFile：用户Python文件。 file：用户文件。 archive：用户AI模型文件。支持的文件后缀名为：zip、tgz、tar.gz、tar、jar。资源位置是

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据开发 > 配置管理
配置OBS目的端参数 - 数据治理中心 DataArts Studio

Parquet格式：按Parquet格式写入，适用于数据表到文件的迁移。 ORC格式：按ORC格式写入，适用于数据表到文件的迁移。二进制格式：选择“二进制格式”时不解析文件内容直接传输，CDM会原样写入文件，不改变原始文件格式，适用于文件到文件的迁移。如果是文件类数据源（FTP/SFTP/HDFS/

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（离线作业） > 配置作业目的端参数
源端为HDFS - 数据治理中心 DataArts Studio

fromJobConfig.splitType 否枚举指定任务分片方式，选择按文件或文件大小进行分割。HDFS上的文件，如果在HDFS上已经分片，则HDFS每个分片视为一个文件。 FILE：按文件数量进行分片。例如有10个文件，并在任务参数中指定“throttlingConfig.numEx

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据集成API > 附：公共数据结构 > 源端作业参数说明
迁移准备 - 数据治理中心 DataArts Studio

使用华为云专线搭建CDH集群与华为云VPC之间的专属连接通道。迁移流程预估迁移数据量、迁移时间。输出详细待迁移数据表、文件个数、大小，用于后续校验。分批配置迁移任务，保证迁移进度与速度。校验文件个数以及文件大小。在MRS中恢复HBase表并验证。准备数据项目数据项说明取值示例 DES盒子

 帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 车联网大数据零丢失搬迁入湖
配置CDM作业字段映射 - 数据治理中心 DataArts Studio

可以通过字段映射界面的可自定义新增字段，也可单击操作列下创建字段转换器。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，且源端“文件格式”配置为“二进制格式”（即不解析文件内容直接传输），则没有字段映射这一步骤。其他场景下，CDM会自动匹配源端和目的

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建作业
开发SQL脚本 - 数据治理中心 DataArts Studio

作，可以通过自动检测倾斜的数据并相应地优化连接算法来提高性能） spark.sql.mergeSmallFiles.enabled（启用合并小文件功能，可以通过将小文件合并成较大的文件来提高性能，可以减少处理许多小文件的时间，并通过减少需要从远程存储中读取的文件数量来提高数据本地性。）

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据开发 > 脚本开发 > 开发脚本
支持的数据源 - 数据治理中心 DataArts Studio

因各版本集群支持的数据源有所差异，其他版本支持的数据源仅做参考。不同CDM集群支持的数据源程度不一样，以实际为准。表/文件同步支持的数据源类型表/文件同步可以实现表或文件级别的数据同步。支持单表同步的数据源（已支持的数据源即可作为源端，又可作为目的端组成不同链路）如下所示：数据仓库：DWS、DLI

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（离线作业）
上传增量数据 - 数据治理中心 DataArts Studio

“重复周期”配置为1天。 “开始时间”配置为每天凌晨0点1分执行。这样CDM每天凌晨自动执行全量迁移，但因为“重复文件处理方式”选择了“跳过重复文件”，相同名称且相同大小的文件不迁移，所以只会上传每天新增的文件。单击“保存”，完成CDM的增量同步配置。父主题：使用CDM上传数据到OBS

帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 贸易数据极简上云与统计分析 > 使用CDM上传数据到OBS
新增字段操作指导 - 数据治理中心 DataArts Studio

作业参数配置完成后，将进行字段映射的配置，您可以通过字段映射界面的可自定义新增字段。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，且源端“文件格式”配置为“二进制格式”（即不解析文件内容直接传输），则没有字段映射这一步骤。其他场景下，CDM会自动匹配源端和目的

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 关键操作指导
OBS连接 - 数据治理中心 DataArts Studio

linkConfig.obsBucketType 否 String OBS桶类型。对象桶：OB。并行文件系统：PFS。说明：桶类型分为对象桶和并行文件系统，对象桶过滤文件会比较慢，建议客户使用并行文件桶。 linkConfig.server 是 String OBS服务器的终端节点（Endpoint）。

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据集成API > 附：公共数据结构 > 连接参数说明
新增字段操作指导 - 数据治理中心 DataArts Studio

作业参数配置完成后，将进行字段映射的配置，您可以通过字段映射界面的可自定义新增字段。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，且源端“文件格式”配置为“二进制格式”（即不解析文件内容直接传输），则没有字段映射这一步骤。其他场景下，CDM会自动匹配源端和目的

 帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 数据迁移进阶实践
配置元数据采集任务 - 数据治理中心 DataArts Studio

选择待采集数据的采集范围。选择“当前文件夹”，采集任务仅采集OBS路径中设置的文件夹下的对象。选择“当前文件夹和所有子文件夹”，采集任务会采集OBS路径中设置的文件夹下所有的对象，包括其子文件夹下的对象采集内容选择待采集数据的采集内容。选择“文件夹和对象”，采集任务采集文件夹和对象。选择“

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据目录 > 采集数据源的元数据
新增字段操作指导 - 数据治理中心 DataArts Studio

作业参数配置完成后，将进行字段映射的配置，您可以通过字段映射界面的可自定义新增字段。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，且源端“文件格式”配置为“二进制格式”（即不解析文件内容直接传输），则没有字段映射这一步骤。其他场景下，CDM会自动匹配源端和目的

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（离线作业）
主机连接参数说明 - 数据治理中心 DataArts Studio

etc/hosts.allow文件里面。 CDM集群的内网IP获取方式请参见查看并修改CDM集群配置。端口是主机的SSH端口号。 Linux操作系统主机的默认登录端口为22，如有修改可通过主机路径“/etc/ssh/sshd_config”文件中的port字段确认端口号。 KMS密钥

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 管理中心 > 配置DataArts Studio数据连接参数

总条数： 379

上一页
1
2
3
4
5
...
19
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

配置HDFS目的端参数 - 数据治理中心 DataArts Studio

字段转换器配置指导 - 数据治理中心 DataArts Studio

字段转换器配置指导 - 数据治理中心 DataArts Studio

嵌入数据水印 - 数据治理中心 DataArts Studio

字段转换器配置指导 - 数据治理中心 DataArts Studio

全量导出/导出/导入API - 数据治理中心 DataArts Studio

管理资源 - 数据治理中心 DataArts Studio

配置OBS目的端参数 - 数据治理中心 DataArts Studio

源端为HDFS - 数据治理中心 DataArts Studio

迁移准备 - 数据治理中心 DataArts Studio

配置CDM作业字段映射 - 数据治理中心 DataArts Studio

开发SQL脚本 - 数据治理中心 DataArts Studio

支持的数据源 - 数据治理中心 DataArts Studio

上传增量数据 - 数据治理中心 DataArts Studio

新增字段操作指导 - 数据治理中心 DataArts Studio

OBS连接 - 数据治理中心 DataArts Studio

新增字段操作指导 - 数据治理中心 DataArts Studio

配置元数据采集任务 - 数据治理中心 DataArts Studio

新增字段操作指导 - 数据治理中心 DataArts Studio

主机连接参数说明 - 数据治理中心 DataArts Studio

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线