检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
提交版本 提交版本涉及到数据开发的版本管理功能。 版本管理:用于追踪脚本/作业的变更情况,支持版本对比和回滚。系统最多保留最近100条的版本记录,更早的版本记录会被删除。另外,版本管理还可用于区分开发态和生产态,这两种状态隔离,互不影响。 开发态:未提交版本的脚本/作业为开发态,仅用于
用于连通数据源和资源组网络的中间桥梁,本方案中需要使用虚拟专用网络VPN网关所配置的虚拟私有云和对应的子网。 查看方式: 登录虚拟专用网络控制台,在左侧导航栏,选择“虚拟专用网络 > VPN网关”,在列表中找到连通其他云所使用的VPN网关,单击VPN网关名称,查看关联的虚拟私有云和本端子网。
您可以将某个DataArts Studio实例的数据架构中已建立的流程设计信息导出到Excel文件中。导出后的文件可用于导入。导出流程的操作请参见导出流程。 下载的流程模板参数如表3所示,其中名称前带“*”的参数为必填参数,名称前未带“*”的参数为可选参数。一个流程需要填写一条记录。 表3 流程导入参数说明
提交版本 提交版本涉及到数据开发的版本管理功能。 版本管理:用于追踪脚本/作业的变更情况,支持版本对比和回滚。系统最多保留最近100条的版本记录,更早的版本记录会被删除。另外,版本管理还可用于区分开发态和生产态,这两种状态隔离,互不影响。 开发态:未提交版本的脚本/作业为开发态,仅用于
在配置实时同步任务前,您需要确保源端和目的端的数据库与运行实时同步任务的实时计算资源组之间网络连通,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。 本章节主要为您介绍数据库部署在华为云,且与Migration资源组同Region不同租户的场景下,通过对等连接打通网络的方案。 图1 网络示意图
行后续的作业节点。 如果您需要匹配多条消息记录,可以添加多个Dummy节点并分别添加到Subjob节点的IF条件,然后将数据开发组件配置项中的“多IF策略”设置为“逻辑或”即可。 图4 编辑参数表达式 测试运行作业job_agent,在工作空间A的作业job1未运行的情况下,前往实例监控中查看执行结果是否符合预期。
当作业源端为OBS、迁移CSV文件时,并且配置“解析首行为列名”参数的场景下显示列名。 当使用二进制格式进行文件到文件的迁移时,没有字段映射这一步。 自动创表场景下,需在目的端表中提前手动新增字段,再在字段映射里新增字段。 添加完字段后,新增的字段在界面不显示样值,不会影响字段值的传输,CDM会将字段值直接写入目的端。
在配置实时同步任务前,您需要确保源端和目的端的数据库与运行实时同步任务的实时计算资源组之间网络连通,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。 本章节主要为您介绍数据库部署在华为云,且与Migration资源组同Region不同租户场景下,通过企业路由器打通网络的方案。 图1 网络示意图
有需要可以通过白名单授权的方式授权给其他账号,详见通过白名单授权IAM认证方式API。 IAM认证方式的API只能授权给IAM类型的应用。 如果对无认证方式的API进行应用授权,则系统会忽略此操作。 IAM类型的应用每个DataArts Studio实例下仅能创建一个,名称固定为华为账号,且不支持修改。
图3 下载集群客户端 选择客户端类型、平台类型(与执行任务的服务器保持一致),如果不修改保存路径,会自动下载客户端到MRS主节点对应路径下,在拷贝客户端软件包到待安装客户端节点的指定目录。以待安装客户端的用户登录将要安装客户端的节点,并解压客户端软件包后,执行install命令进行安装,详细内容请参考安装客户端(3
当作业源端为OBS、迁移CSV文件时,并且配置“解析首行为列名”参数的场景下显示列名。 当使用二进制格式进行文件到文件的迁移时,没有字段映射这一步。 自动创表场景下,需在目的端表中提前手动新增字段,再在字段映射里新增字段。 添加完字段后,新增的字段在界面不显示样值,不会影响字段值的传输,CDM会将字段值直接写入目的端。
当作业源端为OBS、迁移CSV文件时,并且配置“解析首行为列名”参数的场景下显示列名。 当使用二进制格式进行文件到文件的迁移时,没有字段映射这一步。 自动创表场景下,需在目的端表中提前手动新增字段,再在字段映射里新增字段。 添加完字段后,新增的字段在界面不显示样值,不会影响字段值的传输,CDM会将字段值直接写入目的端。
关键配置:文件/路径过滤器+定时执行作业。 前提条件:源端目录或文件名带有时间字段。 增量导出指定时间以后的文件 适用场景:源端数据源为文件类型(OBS/HDFS/FTP/SFTP)。这里的指定时间,是指文件的修改时间,当文件的修改时间大于等于指定的起始时间,CDM才迁移该文件。 关键配置:时间过滤+定时执行作业。 前提条件:无。
项目ID CloudTable服务所在区域的项目ID。 项目ID表示租户的资源,账号ID对应当前账号,IAM用户ID对应当前用户。用户可在对应页面下查看不同Region对应的项目ID、账号ID和用户ID。 注册并登录管理控制台。 在用户名的下拉列表中单击“我的凭证”。 在“API凭
可追溯性:数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。 层次性:数据的血缘关系是有层次的。对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次。 DataArts Studio生成的血缘关系图如图1所示,为数据表对象,为
可追溯性:数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。 层次性:数据的血缘关系是有层次的。对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次。 DataArts Studio生成的血缘关系图如图1所示,为数据表对象,为
基本概念 账号 用户的账号对其所拥有的资源及云服务具有完全的访问权限,可以重置用户密码、分配用户权限等。为了确保账号安全,建议您不要直接使用账号进行日常管理工作,而是创建用户并使用用户进行日常管理工作。 用户 由账号在IAM中创建的用户,是云服务的使用人员,具有身份凭证(密码和访问密钥)。
关键配置:文件/路径过滤器+定时执行作业。 前提条件:源端目录或文件名带有时间字段。 增量导出指定时间以后的文件 适用场景:源端数据源为文件类型(OBS/HDFS/FTP/SFTP)。这里的指定时间,是指文件的修改时间,当文件的修改时间大于等于指定的起始时间,CDM才迁移该文件。 关键配置:时间过滤+定时执行作业。 前提条件:无。
其中Hive提供类SQL查询语言,帮助用户对大规模的数据进行提取、转换和加载,即通常所称的ETL(Extraction,Transformation,and Loading)操作。对庞大的数据集查询需要耗费大量的时间去处理,在许多场景下,可以通过建立Hive分区方法减少每一次扫描的总数据量,这种做法可以显著地改善性能。
连接源和目标数据库的账号密码修改后,请同步修改管理中心对应的连接信息,避免任务连接失败后自动重试,导致数据库账号被锁定影响使用。 支持的同步对象范围 在使用Migration进行同步时,不同类型的链路,支持的同步对象范围不同,详细情况可参考下表。 表3 同步对象范围 类型名称 使用须知