检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
inputFormat 是 枚举 传输数据时所用的文件格式,目前支持以下文件格式: CSV_FILE:CSV格式,用于迁移文件到数据表的场景。 JSON_FILE:JSON格式,一般都是用于迁移文件到数据表的场景。 BINARY_FILE:二进制格式,不解析文件内容直接传输,不要求文件格式必须为二进制。适用于文件到文件的原样复制。
当换行符处理方式选择为替换时,指定替换的字符串。 - 高级属性 写入到临时文件 文件格式为二进制格式时显示该参数。 将二进制文件先写入到临时文件。临时文件以".tmp"作为后缀。 否 换行符 文件格式为CSV格式时显示该参数。 文件中的换行符,默认自动识别"\n"、"\r"或"\r\n"。手动
com/object-key 列表文件 选择“是”,将待上传的文本文件中所有URL对应的文件拉取到OBS,文本文件记录的是HDFS上的文件路径。 是 列表文件源连接 文本文件存储在OBS桶中,这里需要选择已建立的OBS连接。 obs_link 列表文件OBS桶 存储文本文件的OBS桶名称。 obs-cdm
路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参见项目ID和账号ID。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 workspace 是 String DataArts Studio工作空间ID,获取方法请参见实例ID和工作空间ID。
配置。 是 文件分隔符 “源目录或文件”参数中如果输入的是多个文件路径,CDM使用这里配置的文件分隔符来区分各个文件,默认为|。 | 标识文件名 选择开启作业标识文件的功能时,需要指定启动作业的标识文件名。指定文件后,只有在源端路径下存在该文件的情况下才会运行任务。该文件本身不会被迁移。
directory/ 文件格式 写入后的文件格式,可选择以下文件格式: CSV格式:按CSV格式写入,适用于数据表到文件的迁移。 二进制格式:选择“二进制格式”时不解析文件内容直接传输,CDM会原样写入文件,不改变原始文件格式,适用于文件到文件的迁移。 如果是文件类数据源(FTP/S
txt”,内容为一段英文单词。 操作步骤: 将脚本和数据文件传入OBS桶中,如下图。 图1 上传文件至OBS桶 本例中,wordcount.py和in.txt文件上传路径为:obs://obs-tongji/python/ 创建一个数据开发模块空作业,作业名称为“job_MRS_Spark_Python”。
String 需要解压缩的文件后缀名。当一批文件中以该值为后缀时,才会执行解压缩操作,否则保持原样传输。当输入*或为空时,所有文件都会被解压。 fromJobConfig.fileSeparator 否 String 传输多个文件时,CDM使用这里配置的文件分隔符来区分各个文件,默认为|。 fromJobConfig
响应参数 响应消息的Content-Type是application/octet-stream,需要解析转化为一个文件,可以参考解析响应消息体中的流样例代码。响应是一个压缩文件,文件名称格式DLF_{job_name}.zip,压缩文件里面的文件目录如下: jobs ├─{job_name}
持该参数。 否:如果已存在同名API,则不导入该API。 是:如果存在同名API,则按照导入的API更新API定义。 导入文件 待导入的API文件可以是从其他项目直接导出的API文件,也可以是通过模板填写的Excel文件,需要确保符合模板规范要求。 图5 导入API 导入成功后,即可在API列表中查看导入的API。
参数类型 说明 name 是 String 资源名称,只能包含英文字母、数字、中文字符、下划线或中划线,且长度为1-32个字符。 type 是 String 资源类型,包含: archive file jar location 是 String 资源文件所在OBS路径,当类型为j
数据集成到云上,我们需要先将样例数据存储为CSV文件,将CSV文件上传至OBS服务中。 创建CSV文件(UTF-8无bom格式),文件名称为对应的数据表名,将后文提供的各样例数据分别复制粘贴到不同CSV文件中,然后保存CSV文件。 以下是Windows下生成.csv文件的办法之一:
配置Redis源端参数 第三方云的Redis服务无法支持作为源端。如果是用户在本地数据中心或ECS上自行搭建的Redis支持作为源端或目的端。 作业中源连接为从本地Redis导出的数据时,源端作业参数如表1所示。 表1 Redis作为源端时的作业参数 参数类型 参数名 说明 取值样例
DataArts Studio和沃土是什么关系? 华为沃土数字平台是使能行业客户数字化转型的平台参考架构。以云为基础,通过优化整合新ICT技术,融合数据,使能客户实现业务协同与敏捷创新。 DataArts Studio作为沃土平台数据使能模块,帮助接入沃土数字平台的企业更好的管理使用数据。
JDBC读取方式时,不支持分片。 对象存储 对象存储服务(OBS) 支持按文件分片。 文件系统 FTP 支持按文件分片。 SFTP 支持按文件分片。 HTTP 支持按文件分片。 关系型数据库 云数据库 MySQL 支持按表字段分片。 仅当配置“按表分区抽取”时,按表分区分片。 云数据库 PostgreSQL
单击“确定”,移动作业。 方式二:通过拖拽的方式。 单击选中待移动的作业或作业文件夹,拖拽至需要移动的目标文件夹松开鼠标即可。 方式三:批量选中进行移动。 批量选择待移动的多个作业或作业文件夹,移动到目标文件夹下。 作业移动时,支持将作业移动到翻牌目录下。 移入翻牌目录的作业支持移出。
关键操作指导 增量迁移原理介绍 事务模式迁移 迁移文件时加解密 MD5校验文件一致性 字段转换器配置指导 新增字段操作指导 指定文件名迁移 正则表达式分隔半结构化文本 记录数据迁移入库时间 文件格式介绍 不支持数据类型转换规避指导 自动建表原理介绍 父主题: 数据集成(CDM作业)
集群“操作”列的“作业管理”,进入到“表/文件迁移”界面。 单击作业列表上方的“导入”按钮,准备导入JSON文件。 图3 批量导入 在弹出的窗口中,选择导出作业获取的JSON文件,上传JSON文件。 图4 选择JSON文件 JSON文件上传成功后,单击“设置密码”,配置数据连接的密码或SK。
在数据架构主界面,单击左侧导航栏的“主题设计”,进入主题设计页面。 单击列表上方的“更多 > 导入”按钮,在弹出的导入窗口中,选择并上传需要导入的主题文件。 图16 导入主题 图17 添加文件 上传文件后系统开始自动导入,导入成功后系统会显示导入的情况。 图18 导入主题成功 导入成功后,请单击“发布”,使其处于“已发布”状态。
toJobConfig.bucketName 是 String OBS的桶名,例如“cdm”。 toJobConfig.outputDirectory 是 String 数据写入路径,例如“data_dir”。 toJobConfig.outputFormat 是 枚举 写入数据时所用的文件格式(二进制除外),支持以下文件格式: