检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
BINARY_FILE:二进制格式,不解析文件内容直接传输,不要求文件格式必须为二进制。适用于文件到文件的原样复制。 当选择“BINARY_FILE”时,目的端也必须为文件系统。 fromJobConfig.lineSeparator 否 String 文件中的换行符,默认自动识别"\\n"、"\
Snapshot复制文件至MRS。CDM的作业配置: “源目录或文件”输入:/hbase/data/default/src_test/.snapshot/s0 目的端“写入目录”输入:/hbase/data/default/表名 执行fixMeta和fixAssignments等命令恢复表,参考使用命令恢复历史不变的数据。
指定每次请求获取的行数,根据数据源端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 Oracle到DWS迁移时,可能出现目的端写太久导致迁移超时的情况。此时请减少Oracle源端“单次请求行数”参数值的设置。 1000 单次提交行数 可选参数,单击“显示高级属性”后显示。
直接编辑作业的JSON文件,作用等同于修改作业的参数配置。 源目的统计查询 可对已经配置好的数据库类作业打开预览窗口,预览最多1000条数据内容。可对比源端和目的端的数据,也可以通过对比记录数来看迁移结果是否成功、数据是否丢失。 修改 修改作业参数 可重新配置作业参数,支持重新选择源连接和目的连接。 编辑作业JSON
小,只按照数据条数计算。在debezium.max.queue.size无法有效限制内存占用时,考虑显式设置该值来限制缓存数据的大小。 目的端优化 Hudi写入优化 Hudi表写入性能慢,优先审视表设计是否合理,建议使用Hudi Bucket索引的MOR表,并根据实际数据量配置B
SQL脚本,脚本参数发生变化,可单击刷新按钮同步。 UDF Jar 否 当作业所属集群选择独享集群时,该参数有效。在选择UDF Jar之前,您需要将UDF Jar包上传至OBS桶中,并在“资源管理”页面中新建资源,具体操作请参考新建资源。 用户可以在SQL中调用插入Jar包中的自定义函数。 DLI队列 是 默认选
除新建的存储桶即可;另外,DataArts Studio作业日志和DLI脏数据默认存储在以dlf-log-{Project id}命名的OBS桶中,在退订DataArts Studio后可以一并删除。 MRS MRS计费说明 MRS服务支持按需和包周期计费。本例中使用按需计费,完
在作业的“操作”列,支持作业级别的恢复。停止操作请参见实时集成作业监控:恢复。 6 查看作业实例状态 单击作业名称前方的,查看该作业下的子作业ID、源端数据源、目的端数据源、异常信息等内容。 7 查看作业详细信息 单击作业名称,支持查看该作业的基本信息、监控信息、日志信息。查看作业详细信息请参见实时集成作业监控:查看作业详细信息。
果配置过大或过小,可能影响作业的时长。 1000 单次提交行数 可选参数,单击“显示高级属性”后显示。 指定每次批量提交的行数,根据数据目的端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 10000 SSL加密 可选参数,控制是否通过SSL加密方式连接数据仓库。
CSV_FILE:CSV格式。 PARQUET_FILE:PARQUET格式。 BINARY_FILE:二进制格式。 当选择“BINARY_FILE”时,目的端也必须为文件系统。 fromJobConfig.columnList 否 String 需要抽取的列号,列号之间使用“&”分割,并由小到大排序,例如:“1&3&5”。
作业名称不得包含中文字符、超出长度限制等。如果作业名称不符合规则,将导致提交MRS作业失败。 Jar包资源 是 选择Jar包。在选择Jar包之前,您需要先将Jar包上传至OBS桶中,并在“资源管理”页面中新建资源将Jar包添加到资源管理列表中,具体操作请参考新建资源。 Jar包参数 否 Jar包的参数。 输入数据路径
准备工作简介 您需要完成注册华为账号、购买DataArts Studio实例、访问DataArts Studio实例控制台、管理工作空间、授权用户使用DataArts Studio等一系列准备工作,才能开始DataArts Studio的正式使用。 需要进行的准备工作如下图所示,具体操作请参考后续章节。
查看并修改CDM集群配置 操作场景 CDM集群已经创建成功后,您可以查看集群基本信息,并修改集群的配置。 查看集群基本信息: 集群信息:集群版本、创建时间、项目ID、实例ID和集群ID等。 节点配置:集群规格、CPU和内存配置等信息。 网络信息:网络配置。 支持修改集群的以下配置:
SQL管理面直连的作业支持调试,MRS租户面连接暂不支持。 Flink SQL作业调试仅支持MRS集群,进行调试前请先选择MRS集群。OBS桶必须选择并行文件桶,可以在工作空间进行默认配置,请参见Flink调试OBS桶,支持在Flink SQL作业调试时修改。 查看脚本执行结果时,双击任意一行的一个字段,可以查看该行的结果详情,支持复制字段名称。
如何降低CDM使用成本? 如果是迁移公网的数据上云,可以使用NAT网关服务,实现CDM服务与子网中的其他弹性云服务器共享弹性IP,可以更经济、更方便的通过Internet迁移本地数据中心或第三方云上的数据。 具体操作如下: 假设已经创建好了CDM集群(无需为CDM集群绑定专用弹性
”对话框。 配置导入信息。 文件位置:支持从本地导入和从OBS导入两种方式。 选择文件:本地导入的文件选择本地路径;OBS导入的文件选择OBS桶路径。 建议通过导出标签功能获取导入文件,导入文件的第一行为标签名,第一列为作业名。某作业具有某一标签,记录为1,否则记录为0。如果某单元格为空,导入时系统会按0标记。
(可选)购买DataArts Studio功能增量包 DataArts Studio采用基础包+增量包的计费模式。如果购买的基础包无法满足您的使用需求,您可以额外购买增量包。在购买增量包前,请确保您已购买DataArts Studio实例。 增量包大体可分为功能增量包与规格增量包,功能增量包用于拓展DataArts
CDM有哪些优势? 云数据迁移(Cloud Data Migration,简称CDM)服务基于分布式计算框架,利用并行化处理技术,使用CDM迁移数据的优势如表1所示。 表1 CDM优势 优势项 用户自行开发 CDM 易使用 自行准备服务器资源,安装配置必要的软件并进行配置,等待时间长。
自定义SQL的运行结果展示最多300条,超出部分会自动截断。 对账作业结果 对账作业运行结果中,左侧表示源端表行数规则运行结果,右侧表示目的端表行数规则运行结果,误差率表示两端数据行数的差异比率,误差率为0表示两端一致。 更多 > 处理&记录 对当前规则实例进行进一步处理。支持填写处理意见,关闭问题和移交他人。
Flink调试OBS桶 在进行Flink SQL作业调试时,调试OBS桶必须选择并行桶,可以在工作空间进行默认配置。 在数据开发主界面的左侧导航栏,选择“配置管理 > 配置”。 单击“默认项设置”,可设置“Flink调试OBS桶”配置项。 配置Flink调试OBS桶。 单击“保存”,对设置的配置项进行保存。