搜索_华为云

管理脱敏算法 - 数据治理中心 DataArts Studio

S时才可以选择此算法。支持配置开始位置、结束位置和掩码标志。 dws数值型掩码从start到end的位置脱敏成指定的数字。仅当静态脱敏任务中源端、目标端数据源同为DWS，且执行引擎为DWS时才可以选择此算法。支持配置开始位置、结束位置和掩码标志。身份证号码掩码掩码身份证号。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据安全 > 敏感数据保护 > 静态脱敏任务
MRS HDFS数据迁移到OBS - 数据治理中心 DataArts Studio

源目录或文件：待迁移数据的目录或单个文件路径。文件格式：传输数据时所用的文件格式，这里选择“二进制格式”。不解析文件内容直接传输，不要求文件格式必须为二进制。适用于文件到文件的原样复制。其他可选参数一般情况下保持默认即可。目的端作业配置目的连接名称：选择创建OBS连接中的“obs_link”。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 使用教程
正则表达式分隔半结构化文本 - 数据治理中心 DataArts Studio

文件格式”必须选择“CSV格式”。图1 正则表达式参数在迁移CSV格式的文件时，CDM支持使用正则表达式分隔字段，并按照解析后的结果写入目的端。正则表达式语法请参考对应的相关资料，这里举例下面几种日志文件的正则表达式的写法： Log4J日志 Log4J审计日志 Tomcat日志

 帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 数据迁移进阶实践
正则表达式分隔半结构化文本 - 数据治理中心 DataArts Studio

文件格式”必须选择“CSV格式”。图1 正则表达式参数在迁移CSV格式的文件时，CDM支持使用正则表达式分隔字段，并按照解析后的结果写入目的端。正则表达式语法请参考对应的相关资料，这里举例下面几种日志文件的正则表达式的写法： Log4J日志 Log4J审计日志 Tomcat日志

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 关键操作指导
导入导出 - 数据治理中心 DataArts Studio

Studio实例的数据架构中已创建的表导出到Excel文件中。导出后的文件可用于导入到关系模型中。导出模型的操作请参见导出表或DDL。打开下载的模板，请根据业务需求填写好模板中的相关参数并保存，模板中的“填写说明”Sheet页供参考。模板中的参数，其中名称前带“*”的参数为必填参数，名称前未带“*”的参数为可选参数。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据架构 > 通用操作
管理样本库 - 数据治理中心 DataArts Studio

管理样本库数据安全支持将您提供的OBS或HDFS样本文件生成样本库。当新建随机脱敏或字符替换类型的脱敏算法时，可以选择将敏感数据脱敏为样本库文件中的值。本章主要介绍如何创建样本。前提条件已在OBS或HDFS中上传样本文件。样本文件只支持txt格式，大小建议不超过10MB，其中数据可通过换行“\n”、空格“

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据安全 > 敏感数据保护 > 静态脱敏任务
IF条件判断教程 - 数据治理中心 DataArts Studio

件，选择不同的执行路径，可使用IF条件判断。本教程包含以下三个常见场景举例。根据前一个节点的执行状态进行IF条件判断根据前一个节点的输出结果进行IF条件判断多IF条件下当前节点的执行策略 IF条件的数据来源于EL表达式，通过EL表达式，根据具体的场景选择不同的EL表达式来

 帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 数据开发进阶实践
配置HDFS目的端参数 - 数据治理中心 DataArts Studio

/user/output 文件格式写入后的文件格式，可选择以下文件格式： CSV格式：按CSV格式写入，适用于数据表到文件的迁移。二进制格式：选择“二进制格式”时不解析文件内容直接传输，CDM会原样写入文件，不改变原始文件格式，适用于文件到文件的迁移。如果是文件类数据源（FTP/S

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建作业 > 配置CDM作业目的端参数
数据开发配置数据搬迁 - 数据治理中心 DataArts Studio

在数据开发主界面，单击左侧导航上的“脚本开发”，进入脚本目录。单击脚本目录中的，选择“显示复选框”。勾选需要导出的脚本，单击 > 导出脚本。导出完成后，即可通过浏览器下载地址，获取到导出的zip文件。图1 选择并导出脚本在弹出的“导出脚本”界面，选择需要导出的脚本的状态，单击“确定”。

帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > DataArts Studio配置数据搬迁实践
配置Hive源端参数 - 数据治理中心 DataArts Studio

读取方式为JDBC时，单击“显示高级属性”后显示此参数。填写该参数表示指定抽取的WHERE子句，不指定则抽取整表。如果要迁移的表中没有WHERE子句的字段，则会迁移失败。该参数支持配置为时间宏变量，实现抽取指定日期的数据，详细说明请参见关系数据库增量迁移。说明：如果配置了时间宏变量，通过DataArts

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（CDM作业） > 在CDM集群中创建作业 > 配置CDM作业源端参数
迁移准备 - 数据治理中心 DataArts Studio

CDH HBase的版本号小于或等于MRS HBase的版本号。待迁移的表在迁移过程中不能有写入，Split，Merge等操作。使用华为云专线搭建CDH集群与华为云VPC之间的专属连接通道。迁移流程预估迁移数据量、迁移时间。输出详细待迁移数据表、文件个数、大小，用于后续校验。

帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 车联网大数据零丢失搬迁入湖
源端为HDFS - 数据治理中心 DataArts Studio

inputDirectory”（抽取文件的路径）参数中如果输入的是多个文件路径，CDM使用这里配置的文件分隔符来区分各个文件，默认为“|”。 fromJobConfig.filterType 否枚举选择过滤器类型： WILDCARD：输入通配符作为过滤文件，满足过滤条件的路径或文件会被传输。 TI

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 数据集成API > 附：公共数据结构 > 源端作业参数说明
是否支持字段转换？ - 数据治理中心 DataArts Studio

如果当前字段为字符串类型，去除字段开头所有指定的字符，例如去除当前字段开头的所有空格。表达式：StringUtils.stripStart(value,null) 如果当前字段为字符串类型，获取字符串指定位置后（索引从0开始，包括指定位置的字符）的子字符串，指定位置如果为负数，则从末尾往前计算位置，末尾第一位为

 帮助中心 > 数据治理中心 DataArts Studio > 常见问题 > 数据集成（CDM作业）
关系建模 - 数据治理中心 DataArts Studio

更新：当数据重复时系统中的原有数据为草稿状态，则会覆盖生成新的草稿数据。系统中的原有数据为发布状态，则会生成下展数据。单击“添加文件”，选择提前准备好的.pdm格式的物理模型。单击“上传文件”，上传完成后，自动跳转到“上次导入”页签，查看已导入的数据。单击“关闭”退出该页面。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据架构 > 模型设计
配置OBS目的端参数 - 数据治理中心 DataArts Studio

Parquet格式：按Parquet格式写入，适用于数据表到文件的迁移。 ORC格式：按ORC格式写入，适用于数据表到文件的迁移。二进制格式：选择“二进制格式”时不解析文件内容直接传输，CDM会原样写入文件，不改变原始文件格式，适用于文件到文件的迁移。如果是文件类数据源（FTP/SFTP/HDFS/

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据集成（离线作业） > 配置作业目的端参数
配置DataArts Studio资源迁移 - 数据治理中心 DataArts Studio

源迁移页面。图1 资源迁移单击“新建导出”，配置文件的OBS存储位置和文件名称。图2 选择导出文件单击“下一步”，勾选导出的模块。图3 勾选导出的模块单击“下一步”，等待导出完成，资源包导出到所设置的OBS存储位置。图4 导出完成导出资源耗时1分钟仍未显示结果则表

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 管理中心
配置元数据采集任务 - 数据治理中心 DataArts Studio

采集范围选择待采集数据的采集范围。选择“当前文件夹”，采集任务仅采集OBS路径中设置的文件夹下的对象。选择“当前文件夹和所有子文件夹”，采集任务会采集OBS路径中设置的文件夹下所有的对象，包括其子文件夹下的对象采集内容选择待采集数据的采集内容。选择“文件夹和对象”，采集任务采集文件夹和对象。

帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 数据目录 > 采集数据源的元数据
上传增量数据 - 数据治理中心 DataArts Studio

这样CDM每天凌晨自动执行全量迁移，但因为“重复文件处理方式”选择了“跳过重复文件”，相同名称且相同大小的文件不迁移，所以只会上传每天新增的文件。单击“保存”，完成CDM的增量同步配置。父主题：使用CDM上传数据到OBS

帮助中心 > 数据治理中心 DataArts Studio > 最佳实践 > 贸易数据极简上云与统计分析 > 使用CDM上传数据到OBS
主机连接参数说明 - 数据治理中心 DataArts Studio

了保障作业的正常调度，强烈建议您使用ECS主机的root用户将绑定Agent（即CDM集群）的内网IP加到/etc/hosts.allow文件里面。 CDM集群的内网IP获取方式请参见查看并修改CDM集群配置。端口是主机的SSH端口号。 Linux操作系统主机的默认登录端口

 帮助中心 > 数据治理中心 DataArts Studio > 用户指南 > 管理中心 > 配置DataArts Studio数据连接参数
解析响应消息体中的流 - 数据治理中心 DataArts Studio

解析响应消息体中的流导出作业和导出连接的接口响应消息是一个流，需要转化为一个文件。您可以参考下面的样例代码： String EXPORT_JOB_URL = "https://{endpoint}/v1/{project_id}/jobs/{job_name}/export";

帮助中心 > 数据治理中心 DataArts Studio > API参考 > 附录

总条数： 1467

上一页
1
2
3
4
5
...
74
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

管理脱敏算法 - 数据治理中心 DataArts Studio

MRS HDFS数据迁移到OBS - 数据治理中心 DataArts Studio

正则表达式分隔半结构化文本 - 数据治理中心 DataArts Studio

正则表达式分隔半结构化文本 - 数据治理中心 DataArts Studio

导入导出 - 数据治理中心 DataArts Studio

管理样本库 - 数据治理中心 DataArts Studio

IF条件判断教程 - 数据治理中心 DataArts Studio

配置HDFS目的端参数 - 数据治理中心 DataArts Studio

数据开发配置数据搬迁 - 数据治理中心 DataArts Studio

配置Hive源端参数 - 数据治理中心 DataArts Studio

迁移准备 - 数据治理中心 DataArts Studio

源端为HDFS - 数据治理中心 DataArts Studio

是否支持字段转换？ - 数据治理中心 DataArts Studio

关系建模 - 数据治理中心 DataArts Studio

配置OBS目的端参数 - 数据治理中心 DataArts Studio

配置DataArts Studio资源迁移 - 数据治理中心 DataArts Studio

配置元数据采集任务 - 数据治理中心 DataArts Studio

上传增量数据 - 数据治理中心 DataArts Studio

主机连接参数说明 - 数据治理中心 DataArts Studio

解析响应消息体中的流 - 数据治理中心 DataArts Studio

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线