检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Parquet格式:按Parquet格式写入,适用于数据表到文件的迁移。 ORC格式:按ORC格式写入,适用于数据表到文件的迁移。 二进制格式:选择“二进制格式”时不解析文件内容直接传输,CDM会原样写入文件,不改变原始文件格式,适用于文件到文件的迁移。 如果是文件类数据源(FTP/SFTP/HDFS/
项。 类似关系数据库的数据库名称。 例如:0。 配置文件路径 是 认证类型为KERBEROS时显示该参数。 集群配置文件的OBS存放路径。 keytab文件路径 是 认证类型为KERBEROS时显示该参数。 配置keytab文件的OBS存放路径。 Principal名称 是 认证类型为KERBEROS时显示该参数。
导入导出接口 导出资源 获取导入导出的任务状态 下载资源任务文件 上传导入的文件接口 导入资源 父主题: 数据质量API
类型。此处即使自定义也不会生效。 type 操作 操作类型。 INDEX:不指定主键,es内部生成id,使得每次写入都是不同id的新增数据文件。 CREATE:需要指定主键。如果主键已经存在,写入失败。 UPDATE:需要指定主键。如果主键已经存在,覆盖原有数据。 UPSERT:
移动脚本/脚本目录 您可以通过移动功能把脚本文件从当前目录移动到另一个目录,也可以把当前脚本目录移动到另一个目录中。 前提条件 已完成脚本开发,请参见开发脚本。 操作步骤 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts
关键操作指导 增量迁移原理介绍 事务模式迁移 迁移文件时加解密 MD5校验文件一致性 字段转换器配置指导 新增字段操作指导 指定文件名迁移 正则表达式分隔半结构化文本 记录数据迁移入库时间 文件格式介绍 不支持数据类型转换规避指导 自动建表原理介绍 父主题: 数据集成(CDM作业)
fromJobConfig.splitType 否 枚举 指定任务分片方式,选择按文件或文件大小进行分割。HDFS上的文件,如果在HDFS上已经分片,则HDFS每个分片视为一个文件。 FILE:按文件数量进行分片。例如有10个文件,并在任务参数中指定“throttlingConfig.numEx
和执行,开发完成的脚本可以在作业中调度运行(请参见开发Pipeline作业)。 前提条件 已新增Shell脚本,请参见新建脚本。 已新建主机连接,该Linux主机用于执行Shell脚本,请参见主机连接参数说明。 连接主机的用户需要具有主机/tmp目录下文件的创建与执行权限。 Sh
20 获取导入导出的任务状态 该接口用于获取导出导入任务的进度状态。 300 40 下载资源任务文件 该接口用于下载资源文件。 300 40 上传导入的文件接口 该接口用于数据质量导入文件使用。 1800 20 导入资源 该接口用于数据质量导入操作使用。 1800 20 父主题: API概览
备份作业:例如需要将CDM集群停掉或删除来降低成本时,可以先通过批量导出把作业脚本保存下来,仅在需要的时候再重新创建集群和重新导入作业。 批量创建作业任务:可以先手工创建一个作业,导出作业配置(导出的文件为JSON格式),然后参考该作业配置,在JSON文件中批量复制出更多作业,最后导入CDM以实现批量创建作业。
响应消息的Content-Type是application/octet-stream,需要解析转化为一个文件,可以参考解析响应消息体中的流样例代码。响应是一个压缩文件,文件名称格式DLF_{job_name}.zip,压缩文件里面的文件目录如下: jobs ├─{job_name}.job scripts ├─{script_name}
敏感数据保护 隐私数据保护简介 静态脱敏任务 动态脱敏任务 管理数据水印 管理文件水印 管理动态水印策略 父主题: 数据安全
增量迁移原理介绍 文件增量迁移 关系数据库增量迁移 HBase/CloudTable增量迁移 MongoDB/DDS增量迁移 父主题: 数据迁移进阶实践
增量迁移原理介绍 文件增量迁移 关系数据库增量迁移 HBase/CloudTable增量迁移 MongoDB/DDS增量迁移 父主题: 关键操作指导
如何查看套餐包的剩余时长? 套餐包的剩余时长需要在官网查询。 您可以进入华为云官网,在用户名下拉列表中选择“费用中心”,然后进入“订单管理 - 续费管理”查看对应套餐包的剩余时长。 父主题: 咨询与计费
在CDM集群中创建作业 新建表/文件迁移作业 新建整库迁移作业 配置CDM作业源端参数 配置CDM作业目的端参数 配置CDM作业字段映射 配置CDM作业定时任务 CDM作业配置管理 管理单个CDM作业 批量管理CDM作业 父主题: 数据集成(CDM作业)
据水印嵌入后的敏感数据一旦发生数据泄露,数据溯源可以通过导入泄露文件运行溯源任务提取水印标识,精准定位泄露单位及责任人。 文件水印 文件水印支持如下两种场景,能够将水印注入数据文件中,实现对安全事件精准定位追责。 对结构化数据文件(csv、xml和json)注入暗水印,水印内容不可见,需要进行水印提取。
例如:“id&gid&name”。 toJobConfig.pipeLine 否 String 需要先在kibana中创建管道ID,这里才可以选择,该参数用于数据传到云搜索服务/Elasticsearch后,通过Elasticsearch的数据转换pipeline进行数据格式变换。
选择“当前文件夹”,采集任务仅采集OBS路径中设置的文件夹下的对象。 选择“当前文件夹和所有子文件夹”,采集任务会采集OBS路径中设置的文件夹下所有的对象,包括其子文件夹下的对象 采集内容 选择待采集数据的采集内容。 选择“文件夹和对象”,采集任务采集文件夹和对象。 选择“ 文件夹”,采集任务仅采集文件夹。 DIS 是否采集转储任务
关联关系。 您可以通过以下两种方式进行主题设计: 新建主题并发布 手动新建并发布主题。 导入主题设计信息 如果主题信息比较复杂,建议采用导入方式批量导入主题信息。 您可以下载系统提供的主题设计模板,在模板文件中填写主题的相关参数后,使用模板批量导入主题信息。 您可以预先将某个DataArts