检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CSV_FILE:CSV格式,用于迁移文件到数据表的场景。 JSON_FILE:JSON格式,一般都是用于迁移文件到数据表的场景。 BINARY_FILE:二进制格式,不解析文件内容直接传输,不要求文件格式必须为二进制。适用于文件到文件的原样复制。 当选择“BINARY_FILE”时,目的端也必须为文件系统。 fromJobConfig
当换行符处理方式选择为替换时,指定替换的字符串。 - 高级属性 写入到临时文件 文件格式为二进制格式时显示该参数。 将二进制文件先写入到临时文件。临时文件以".tmp"作为后缀。 否 换行符 文件格式为CSV格式时显示该参数。 文件中的换行符,默认自动识别"\n"、"\r"或"\r\n"。手动
将二进制文件先写入到临时文件(临时文件以“.tmp”作为后缀),迁移成功后,再进行rename或move操作,在目的端恢复文件。 toJobConfig.duplicateFileOpType 否 枚举 重复文件处理方式,只有文件名和文件大小都相同才会判定为重复文件。重复文件支持以下处理方式:
集群“操作”列的“作业管理”,进入到“表/文件迁移”界面。 单击作业列表上方的“导入”按钮,准备导入JSON文件。 图3 批量导入 在弹出的窗口中,选择导出作业获取的JSON文件,上传JSON文件。 图4 选择JSON文件 JSON文件上传成功后,单击“设置密码”,配置数据连接的密码或SK。
在数据架构主界面,单击左侧导航栏的“主题设计”,进入主题设计页面。 单击列表上方的“更多 > 导入”按钮,在弹出的导入窗口中,选择并上传需要导入的主题文件。 图16 导入主题 图17 添加文件 上传文件后系统开始自动导入,导入成功后系统会显示导入的情况。 图18 导入主题成功 导入成功后,请单击“发布”,使其处于“已发布”状态。
在导出窗口中单击“确认”导出全量API,单击确认即可以Excel文件的形式导出API。 图1 全量导出API 打开下载到本地的Excel文件,可以查看导出的API。不同类型的API会分别导出到文件页签中,单击下方页签可以切换查看并编辑。 图2 Excel文件样式 新空间导入数据 在DataArts S
数据迁移进阶实践 增量迁移原理介绍 时间宏变量使用解析 事务模式迁移 迁移文件时加解密 MD5校验文件一致性 字段转换器配置指导 新增字段操作指导 指定文件名迁移 正则表达式分隔半结构化文本 记录数据迁移入库时间 文件格式介绍 不支持数据类型转换规避指导
JDBC读取方式时,不支持分片。 对象存储 对象存储服务(OBS) 支持按文件分片。 文件系统 FTP 支持按文件分片。 SFTP 支持按文件分片。 HTTP 支持按文件分片。 关系型数据库 云数据库 MySQL 支持按表字段分片。 仅当配置“按表分区抽取”时,按表分区分片。 云数据库 PostgreSQL
关键操作指导 增量迁移原理介绍 事务模式迁移 迁移文件时加解密 MD5校验文件一致性 字段转换器配置指导 新增字段操作指导 指定文件名迁移 正则表达式分隔半结构化文本 记录数据迁移入库时间 文件格式介绍 不支持数据类型转换规避指导 自动建表原理介绍 父主题: 数据集成(CDM作业)
待导入的资源应为通过导出获取的zip文件,导入时系统会进行资源校验。 由于安全原因,导出连接时没有导出连接密码,需要在导入时自行输入。 仅企业版支持数据目录(分类、标签、采集任务)导出,专家版暂不支持。 导入文件时,OBS和本地方式均限制文件大小不超过10MB。 导出资源 参考访问DataArts
请输入“\t”。 , 高级参数 使用配置文件 “数据格式”选择为“CDC场景”时配置,用于配置OBS文件。 否 OBS链接 选择OBS连接器信息。 obs_link OBS桶 选择OBS桶。 obs_test 配置文件 选择OBS的配置文件。 /obs/config.csv 最大消息数/poll
需手动重新调整为单行)。 单击“文件 > 另存为”,在弹出的对话框中,“保存类型”选择为“所有文件(*.*)”,在“文件名”处输入文件名和.csv后缀,选择“UTF-8”编码格式(不能带BOM),则能以CSV格式保存该文件。 将源数据CSV文件上传到OBS服务。 登录控制台,选择“存储
导入导出接口 导出资源 获取导入导出的任务状态 下载资源任务文件 上传导入的文件接口 导入资源 父主题: 数据质量API
所示。 图2 主机上做软连接 在文件中设置标准编码方式。 # -*- coding: utf-8 -*-;或者设置主机的编码格式:在python安装目录的Lib\site-packages文件夹下新建一个sitecustomize.py文件,在文件中写入如下内容。 # encoding=utf8
在数据开发主界面,单击左侧导航上的“资源管理”,进入资源管理页面。 单击资源目录中的,选择“导入资源”。 图8 选择导入资源 在弹出的导入资源窗口中,“文件位置”选择为“本地”,选择从旧空间导出的资源文件,“重名处理策略”默认选择“覆盖”,单击下一步。 图9 导入资源 资源开始导入,导入成功后系统会显示导入的资源名。
81.53版本。 说明: 驱动文件所在的OBS路径中不能包含中文。 如果需要更新驱动文件,则需要先在数据集成页面重启CDM集群,然后通过编辑数据连接的方式重新选择新版本驱动,更新驱动才能生效。 驱动文件 是 “驱动文件来源”选择“本地文件”时配置。 驱动文件请根据驱动类型去相关官网上
20c8eb05ccc4 准备数据文件“in.txt”,内容为一段英文单词。 操作步骤 将作业资源包和数据文件传入OBS桶中。 本例中,WordCount.jar文件上传路径为:lkj_test/WordCount.jar;word.txt 文件上传路径为:lkj_test/input/word
查看API不同操作对应的实例信息(专享版) 查看API调试信息(专享版) 导入包含API信息的EXCEL文件 导出包含API信息的EXCEL文件 全量导出包含API的EXCEL压缩文件 下载EXCEL模板 父主题: 数据服务API
数据。 字段转换 支持去隐私、字符串操作、日期操作等常用字段的数据转换功能。 文件加密 在迁移文件到文件系统时,CDM支持对写入云端的文件进行加密。 MD5校验一致性 支持使用MD5校验,检查端到端文件的一致性,并输出校验结果。 脏数据归档 支持将迁移过程中处理失败的、被清洗过滤
DependPackage参数说明 参数名 是否必选 参数类型 说明 type 否 String 文件类型。 location 否 String 文件路径。 响应参数 无 请求示例 修改资源名称为test的资源内容,资源类型为jar,资源文件所在OBS路径为obs://dlf-test/hadoop-mapreduce-examples-2