搜索_华为云

管理样本库 - 数据治理中心 DataArts Studio

脱敏，则测试算法时限制样本文件大小不能超过10kb。注意，10kb仅为算法测试功能的限制，静态脱敏时并不限制样本文件大小不超过10kb。样本文件大小建议不超过10MB，否则运行需要解析样本文件的静态脱敏任务时，静态脱敏任务可能会失败。 OBS样本文件只能用于DLI引擎的静态脱敏

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据安全 > 敏感数据保护 > 静态脱敏任务
配置HDFS目的端参数 - 数据治理中心 DataArts Studio

/user/output 文件格式写入后的文件格式，可选择以下文件格式： CSV格式：按CSV格式写入，适用于数据表到文件的迁移。二进制格式：选择“二进制格式”时不解析文件内容直接传输，CDM会原样写入文件，不改变原始文件格式，适用于文件到文件的迁移。如果是文件类数据源（FTP/S

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建作业 > 配置CDM作业目的端参数
字段转换器配置指导 - 数据治理中心 DataArts Studio

作业参数配置完成后，将进行字段映射的配置，您可以单击操作列下创建字段转换器。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，且源端“文件格式”配置为“二进制格式”（即不解析文件内容直接传输），则没有字段映射这一步骤。在创建表/文件迁移作业的字段映射界面，可新建字段转换器，如下图所示。

帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 数据迁移进阶实践
字段转换器配置指导 - 数据治理中心 DataArts Studio

作业参数配置完成后，将进行字段映射的配置，您可以单击操作列下创建字段转换器。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，且源端“文件格式”配置为“二进制格式”（即不解析文件内容直接传输），则没有字段映射这一步骤。在创建表/文件迁移作业的字段映射界面，可新建字段转换器，如图1所示。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（离线作业）
管理资源 - 数据治理中心 DataArts Studio

字符、“_”、“-”，且长度为1~32个字符。类型是选择资源的文件类型： jar：用户jar文件。 pyFile：用户Python文件。 file：用户文件。 archive：用户AI模型文件。支持的文件后缀名为：zip、tgz、tar.gz、tar、jar。资源位置是

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据开发 > 配置管理
数据开发概述 - 数据治理中心 DataArts Studio

脚本：脚本（Script）是一种批处理文件的延伸，是一种纯文本保存的程序，一般来说的计算机脚本程序是确定的一系列控制计算机进行运算操作动作的组合，在其中可以实现一定的逻辑分支等。节点：定义对数据执行的操作。资源：用户可以上传自定义的代码或文本文件作为资源，以便在节点运行时调用。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据开发
开发SQL脚本 - 数据治理中心 DataArts Studio

spark.sql.mergeSmallFiles.enabled（启用合并小文件功能，可以通过将小文件合并成较大的文件来提高性能，可以减少处理许多小文件的时间，并通过减少需要从远程存储中读取的文件数量来提高数据本地性。）如果不使用的话，可以手动配置相关参数进行关闭，参数值设置为false。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据开发 > 脚本开发 > 开发脚本
迁移准备 - 数据治理中心 DataArts Studio

使用华为云专线搭建CDH集群与华为云VPC之间的专属连接通道。迁移流程预估迁移数据量、迁移时间。输出详细待迁移数据表、文件个数、大小，用于后续校验。分批配置迁移任务，保证迁移进度与速度。校验文件个数以及文件大小。在MRS中恢复HBase表并验证。准备数据项目数据项说明取值示例 DES盒子

 帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 车联网大数据零丢失搬迁入湖
配置OBS目的端参数 - 数据治理中心 DataArts Studio

Parquet格式：按Parquet格式写入，适用于数据表到文件的迁移。 ORC格式：按ORC格式写入，适用于数据表到文件的迁移。二进制格式：选择“二进制格式”时不解析文件内容直接传输，CDM会原样写入文件，不改变原始文件格式，适用于文件到文件的迁移。如果是文件类数据源（FTP/SFTP/HDFS/

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（离线作业） > 配置作业目的端参数
源端为HDFS - 数据治理中心 DataArts Studio

fromJobConfig.splitType 否枚举指定任务分片方式，选择按文件或文件大小进行分割。HDFS上的文件，如果在HDFS上已经分片，则HDFS每个分片视为一个文件。 FILE：按文件数量进行分片。例如有10个文件，并在任务参数中指定“throttlingConfig.numEx

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据集成API > 附：公共数据结构 > 源端作业参数说明
配置元数据采集任务 - 数据治理中心 DataArts Studio

选择待采集数据的采集范围。选择“当前文件夹”，采集任务仅采集OBS路径中设置的文件夹下的对象。选择“当前文件夹和所有子文件夹”，采集任务会采集OBS路径中设置的文件夹下所有的对象，包括其子文件夹下的对象采集内容选择待采集数据的采集内容。选择“文件夹和对象”，采集任务采集文件夹和对象。选择“

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据目录 > 采集数据源的元数据
上传增量数据 - 数据治理中心 DataArts Studio

“重复周期”配置为1天。 “开始时间”配置为每天凌晨0点1分执行。这样CDM每天凌晨自动执行全量迁移，但因为“重复文件处理方式”选择了“跳过重复文件”，相同名称且相同大小的文件不迁移，所以只会上传每天新增的文件。单击“保存”，完成CDM的增量同步配置。父主题：使用CDM上传数据到OBS

帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 贸易数据极简上云与统计分析 > 使用CDM上传数据到OBS
OBS连接 - 数据治理中心 DataArts Studio

linkConfig.obsBucketType 否 String OBS桶类型。对象桶：OB。并行文件系统：PFS。说明：桶类型分为对象桶和并行文件系统，对象桶过滤文件会比较慢，建议客户使用并行文件桶。 linkConfig.server 是 String OBS服务器的终端节点（Endpoint）。

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据集成API > 附：公共数据结构 > 连接参数说明
主机连接参数说明 - 数据治理中心 DataArts Studio

etc/hosts.allow文件里面。 CDM集群的内网IP获取方式请参见查看并修改CDM集群配置。端口是主机的SSH端口号。 Linux操作系统主机的默认登录端口为22，如有修改可通过主机路径“/etc/ssh/sshd_config”文件中的port字段确认端口号。 KMS密钥

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 管理中心 > 配置DataArts Studio数据连接参数
配置CDM作业字段映射 - 数据治理中心 DataArts Studio

可以通过字段映射界面的可自定义新增字段，也可单击操作列下创建字段转换器。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，且源端“文件格式”配置为“二进制格式”（即不解析文件内容直接传输），则没有字段映射这一步骤。其他场景下，CDM会自动匹配源端和目的

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建作业
新增字段操作指导 - 数据治理中心 DataArts Studio

作业参数配置完成后，将进行字段映射的配置，您可以通过字段映射界面的可自定义新增字段。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，且源端“文件格式”配置为“二进制格式”（即不解析文件内容直接传输），则没有字段映射这一步骤。其他场景下，CDM会自动匹配源端和目的

 帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 数据迁移进阶实践
新增字段操作指导 - 数据治理中心 DataArts Studio

作业参数配置完成后，将进行字段映射的配置，您可以通过字段映射界面的可自定义新增字段。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，且源端“文件格式”配置为“二进制格式”（即不解析文件内容直接传输），则没有字段映射这一步骤。其他场景下，CDM会自动匹配源端和目的

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（离线作业）
新增字段操作指导 - 数据治理中心 DataArts Studio

作业参数配置完成后，将进行字段映射的配置，您可以通过字段映射界面的可自定义新增字段。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，且源端“文件格式”配置为“二进制格式”（即不解析文件内容直接传输），则没有字段映射这一步骤。其他场景下，CDM会自动匹配源端和目的

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 关键操作指导
HDFS连接 - 数据治理中心 DataArts Studio

配置此参数。 linkConfig.keytab 否 FileContent Kerveros认证所需的keytab文件的本地绝对路径，您也可以联系管理员获取此文件。使用集群配置前需在集群配置管理中配置此参数。 linkConfig.runMode 否枚举选择HDFS连接的运行模式：

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据集成API > 附：公共数据结构 > 连接参数说明
配置Hive源端参数 - 数据治理中心 DataArts Studio

传输模式支持记录迁移和文件迁移默认为记录迁移。仅当源端为Hive2.x且数据存储在HDFS、目的端为Hive3.x且数据存在OBS并行文件系统时，才支持文件迁移。当选择文件迁移时，需保证源端和目的端的表格式和属性需一致才能迁移成功。记录迁移文件迁移分区过滤条件 “读取方式”选择“HDFS”时显示此参数。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（离线作业） > 配置作业源端参数

总条数： 374

上一页
1
2
3
4
5
...
19
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

管理样本库 - 数据治理中心 DataArts Studio

配置HDFS目的端参数 - 数据治理中心 DataArts Studio

字段转换器配置指导 - 数据治理中心 DataArts Studio

字段转换器配置指导 - 数据治理中心 DataArts Studio

管理资源 - 数据治理中心 DataArts Studio

数据开发概述 - 数据治理中心 DataArts Studio

开发SQL脚本 - 数据治理中心 DataArts Studio

迁移准备 - 数据治理中心 DataArts Studio

配置OBS目的端参数 - 数据治理中心 DataArts Studio

源端为HDFS - 数据治理中心 DataArts Studio

配置元数据采集任务 - 数据治理中心 DataArts Studio

上传增量数据 - 数据治理中心 DataArts Studio

OBS连接 - 数据治理中心 DataArts Studio

主机连接参数说明 - 数据治理中心 DataArts Studio

配置CDM作业字段映射 - 数据治理中心 DataArts Studio

新增字段操作指导 - 数据治理中心 DataArts Studio

新增字段操作指导 - 数据治理中心 DataArts Studio

新增字段操作指导 - 数据治理中心 DataArts Studio

HDFS连接 - 数据治理中心 DataArts Studio

配置Hive源端参数 - 数据治理中心 DataArts Studio

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线