检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
需要先将样例数据存储为CSV文件,将CSV文件上传至OBS服务中。 创建CSV文件(UTF-8无bom格式),文件名称为对应的数据表名,将后文提供的各样例数据分别复制粘贴到不同CSV文件中,然后保存CSV文件。 以下是Windows下生成.csv文件的办法之一: 使用文本编辑工具
密出来的数据会错误,且系统不会提示异常。 这样CDM从HDFS导出加密过的文件时,写入目的端的文件便是解密后的明文文件。 目的端配置加密 创建CDM导入文件到HDFS的作业时,目的端数据源选择HDFS、文件格式选择二进制格式后,在“目的端作业配置”的“高级属性”中,配置如下参数。
size int 8192 数据缓存队列条数,默认为8192,当源表中单条数据过大时(如1MB),缓存过多数据会导致内存溢出,可以考虑减小该值。 debezium.max.queue.size.in.bytes int 0 数据缓存队列大小,默认为0,即表示缓存队列不考虑数据大小,只按照数据条数计算。在debezium
JDBC读取方式时,不支持分片。 对象存储 对象存储服务(OBS) 支持按文件分片。 文件系统 FTP 支持按文件分片。 SFTP 支持按文件分片。 HTTP 支持按文件分片。 关系型数据库 云数据库 MySQL 支持按表字段分片。 仅当配置“按表分区抽取”时,按表分区分片。 云数据库 PostgreSQL
String 父目录ID,没有则为根目录。ID字符串。 prev_id String 上个节点ID,没有则为首节点。ID字符串。 next_id String 下个节点ID,没有则为尾节点。ID字符串。 id String 创建时传空,更新时必填。ID字符串。 qualified_id
SDK使用前准备 下载SDK,并导入对应SDK到本地开发工具。 登录DataArts Studio控制台。 单击“数据服务”模块。 单击左侧菜单“共享版 > SDK”或“专享版 > SDK”。 单击SDK使用引导区域里对应语言的SDK,下载SDK包到本地。 进行SDK包完整性校验。Win
Agent功能待下线,无需配置。 - 导入模式 COPY模式:将源数据经过DWS管理节点后复制到数据节点。如果需要通过Internet访问DWS,只能使用COPY模式。 COPY 单击“保存”完成创建连接。 创建迁移作业 选择“表/文件迁移 > 新建作业”,开始创建从Oracle导出数据到DWS的任务。
size int 8192 数据缓存队列条数,默认为8192,当源表中单条数据过大时(如1MB),缓存过多数据会导致内存溢出,可以考虑减小该值。 debezium.max.queue.size.in.bytes int 0 数据缓存队列大小,默认为0,即表示缓存队列不考虑数据大小,只按照数据条数计算。在debezium
SQL脚本支持在脚本编辑器中直接输入参数(Flink SQL不支持),脚本独立执行时可通过编辑器下方配置,如图3所示;通过作业调度时可通过节点属性赋值,如图4所示。 Shell脚本可以配置参数和交互式参数以实现参数传递功能。 Python脚本可以配置参数和交互式参数以实现支持参数传递功能。
是:重新执行作业,请配置以下参数。 超时重试 最大重试次数 重试间隔时间(秒) 否:默认值,不重新执行作业。 说明: 如果作业节点配置了重试,并且配置了超时时间,该节点执行超时后,系统支持再重试。 当节点运行超时导致的失败不会重试时,您可前往“默认项设置”修改此策略。 当“失败重试”配置为“是”才显示“超时重试”。
扫描难以使用索引)的场景。 行模式 导入模式 导入数据到DWS时,用户可以指定导入模式: COPY模式,源数据经过管理节点后,复制到DWS的DataNode节点。 UPSERT模式,数据发生主键或唯一约束冲突时,更新除了主键和唯一约束列的其他列数据。 COPY 导入开始前 导入数据前,选择是否清除目的表的数据:
表4 CdmQueryClusterInstanceDetail 参数 参数类型 描述 configurationStatus String 节点配置状态: In-Sync:配置已同步。 Applying:配置中。 Sync-Failure:配置失败。 paramsGroupId String
据。 字段转换 支持去隐私、字符串操作、日期操作等常用字段的数据转换功能。 文件加密 在迁移文件到文件系统时,数据集成支持对写入云端的文件进行加密。 MD5校验一致性 支持使用MD5校验,检查端到端文件的一致性,并输出校验结果。 脏数据归档 支持将迁移过程中处理失败的、被清洗过滤
表4 响应Body参数 参数 参数类型 描述 - File 导出包含API的EXCEL文件,会导出多个EXCEL文件,每个EXCEL文件最多200个API,多个EXCEL文件会打包到ZIP文件返回。 状态码: 400 表5 响应Body参数 参数 参数类型 描述 error_code
上传导入的文件接口 功能介绍 该接口用于数据质量导入文件使用。 调用方法 请参见如何调用API。 URI POST /v2/{project_id}/quality/resource/upload 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String
50000 DWS单次写入的最大条数,可在目的端配置中设置。 当缓存的数据达到“批写最大数据量”和“定时批写时间间隔”之一的条件时,触发数据写入。 单次写入条数增大可以减少请求DWS的次数,但可能导致单次请求时长增加,同时也可能导致缓存的数据增加进而影响内存使用。请综合考虑DWS规格和负载,
50000 DWS单次写入的最大条数,可在目的端配置中设置。 当缓存的数据达到“批写最大数据量”和“定时批写时间间隔”之一的条件时,触发数据写入。 单次写入条数增大可以减少请求DWS的次数,但可能导致单次请求时长增加,同时也可能导致缓存的数据增加进而影响内存使用。请综合考虑DWS规格和负载,
如果CDM需要访问本地数据源、Internet的数据源,或者跨VPC的云服务,则必须要为CDM集群绑定一个弹性IP,或者使用NAT网关让CDM集群与其他弹性云服务器共享弹性IP访问Internet,具体操作请见添加SNAT规则。 如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。
deployed_version 否 integer 已发布节点版本。 item_name 否 String 发布任务名称。 pending_item_id 否 String 发布任务ID。 pending_version 否 integer 当前节点版本。 script_id 否 String
清除部分数据 是否在集群操作 “导入开始前”参数选择为“清除部分数据”或“清除全部数据”时,显示该参数。如果设置为是,将对集群中的所有节点进行全部/部分数据清除操作。 是 where条件 “导入开始前”参数选择为“清除部分数据”时配置,配置后导入前根据where条件删除目的表的数据。