检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为便于水印嵌入任务管理,建议名称中标明要嵌入水印的对象和水印标识。 描述 为更好地识别嵌入水印任务,此处加以描述信息。 *水印标识 系统会将水印标识嵌入到数据表中,标识长度不超过16个字符即可。 *纠错等级 等级越高,水印信息编码位数越长,溯源时误码率越低。
目的端优化 Kafka写入优化 Kafka写入通常速率极快,若有阻塞的场景请优先增加并发解决。 父主题: 任务性能调优
CDM的作业配置: “源目录或文件”输入:/hbase/data/default/src_test/.snapshot/s0 目的端“写入目录”输入:/hbase/data/default/表名 执行fixMeta和fixAssignments等命令恢复表,参考使用命令恢复历史不变的数据
可对比源端和目的端的数据,也可以通过对比记录数来看迁移结果是否成功、数据是否丢失。 修改 修改作业参数 可重新配置作业参数,支持重新选择源连接和目的连接。 编辑作业JSON 直接编辑作业的JSON文件,作用等同于修改作业的参数配置。
Oracle到DWS迁移时,可能出现目的端写太久导致迁移超时的情况。此时请减少Oracle源端“单次请求行数”参数值的设置。 1000 单次提交行数 可选参数,单击“显示高级属性”后显示。 指定单次批量提交的行数。
同时,可通过在Hudi的目的端配置中单击“Hudi表属性全局配置”或在映射后的单表“表属性编辑”中,添加优化参数。
在选择UDF Jar之前,您需要将UDF Jar包上传至OBS桶中,并在“资源管理”页面中新建资源,具体操作请参考新建资源。 用户可以在SQL中调用插入Jar包中的自定义函数。 DLI队列 是 默认选择“共享队列”,用户也可以选择自定义的独享队列。
6 查看作业实例状态 单击作业名称前方的,查看该作业下的子作业ID、源端数据源、目的端数据源、异常信息等内容。 7 查看作业详细信息 单击作业名称,支持查看该作业的基本信息、监控信息、日志信息。查看作业详细信息请参见实时集成作业监控:查看作业详细信息。
指定每次批量提交的行数,根据数据目的端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 10000 SSL加密 可选参数,控制是否通过SSL加密方式连接数据仓库。 是 说明: 启用SSL加密需确保DWS本身已启用SSL加密。
Doris数据连接参数说明 表1 Doris数据连接 参数 是否必选 说明 数据连接类型 是 Doris连接固定选择为Doris。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理
在选择Jar包之前,您需要先将Jar包上传至OBS桶中,并在“资源管理”页面中新建资源将Jar包添加到资源管理列表中,具体操作请参考新建资源。 Jar包参数 否 Jar包的参数。 输入数据路径 否 选择输入数据所在的路径。 输出数据路径 否 选择输出数据存储的路径。
准备工作简介 您需要完成注册华为账号、购买DataArts Studio实例、访问DataArts Studio实例控制台、管理工作空间、授权用户使用DataArts Studio等一系列准备工作,才能开始DataArts Studio的正式使用。 需要进行的准备工作如下图所示,具体操作请参考后续章节
查看并修改CDM集群配置 操作场景 CDM集群已经创建成功后,您可以查看集群基本信息,并修改集群的配置。 查看集群基本信息: 集群信息:集群版本、创建时间、项目ID、实例ID和集群ID等。 节点配置:集群规格、CPU和内存配置等信息。 网络信息:网络配置。 支持修改集群的以下配置:
创建数据连接需要注意哪些事项? RDS数据连接方式依赖于OBS。如果没有与DataArts Studio同区域的OBS,则不支持RDS数据连接。 主机连接当前仅支持Linux系统主机。 当所连接的数据湖发生变化(如MRS集群扩容等情况)时,您需要重新编辑并保存该连接。 数据连接中的数据湖认证信息如果发生变化
OBS桶必须选择并行文件桶,可以在工作空间进行默认配置,请参见Flink调试OBS桶,支持在Flink SQL作业调试时修改。 查看脚本执行结果时,双击任意一行的一个字段,可以查看该行的结果详情,支持复制字段名称。
None 特性讲解 DataArts Studio 离线集成功能介绍 05:41 离线集成功能介绍 DataArts Studio 实时集成功能介绍 08:30 实时集成功能介绍 DataArts Studio 数据安全功能介绍 09:35 数据安全功能介绍 DataArts Studio
如何降低CDM使用成本? 如果是迁移公网的数据上云,可以使用NAT网关服务,实现CDM服务与子网中的其他弹性云服务器共享弹性IP,可以更经济、更方便的通过Internet迁移本地数据中心或第三方云上的数据。 具体操作如下: 假设已经创建好了CDM集群(无需为CDM集群绑定专用弹性IP
选择文件:本地导入的文件选择本地路径;OBS导入的文件选择OBS桶路径。 建议通过导出标签功能获取导入文件,导入文件的第一行为标签名,第一列为作业名。某作业具有某一标签,记录为1,否则记录为0。如果某单元格为空,导入时系统会按0标记。 导入的文件大小最大支持10Mb。
对账作业结果 对账作业运行结果中,左侧表示源端表行数规则运行结果,右侧表示目的端表行数规则运行结果,误差率表示两端数据行数的差异比率,误差率为0表示两端一致。 更多 > 处理&记录 对当前规则实例进行进一步处理。支持填写处理意见,关闭问题和移交他人。
通过数据开发实现数据增量迁移 DataArts Studio服务的DLF组件提供了一站式的大数据协同开发平台,借助DLF的在线脚本编辑、周期调度CDM的迁移作业,也可以实现增量数据迁移。 这里以DWS导入到OBS为例,介绍DLF配合CDM实现增量迁移的流程: 获取CDM作业的JSON