检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过VPN连通网络 在配置实时同步任务前,您需要确保源端和目的端的数据库与运行实时同步任务的实时计算资源组之间网络连通,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。 本章节主要为您介绍数据库部署在本地IDC场景下,通过VPN打通网络的方案。 图1 网络示意图 约束限制 资源
同步场景:包含单表、整库、分库分表场景,各数据源支持的场景不一,详情请参见使用教程。 不同场景介绍如表1所示。 表1 同步场景参数说明 场景类型 说明 单表 支持将源端一个实例下的单张表实时同步至目的端一个实例下的单张表。 整库 支持将源端一个实例下多个库的多张表批量实时同步到目的端一个实例下的多个库表,一个任务中最多支持200张目标表。
索服务的任务。 图4 创建Oracle到云搜索服务的迁移任务 作业名称:用户自定义便于记忆、区分的任务名称。 源端作业配置 源连接名称:选择创建Oracle连接中的“oracle_link”。 模式或表空间:待迁移数据的数据库名称。 表名:待迁移数据的表名。 高级属性里的可选参数一般情况下保持默认即可。
可追溯性:数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。 层次性:数据的血缘关系是有层次的。对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次。 DataArts Studio生成的血缘关系图如图1所示,为数据表对象,为作
理。 对象存储服务(OBS)数据源约束 迁移文件时系统会自动并发,任务配置中的“抽取并发数”无效。 不支持断点续传。CDM传文件失败会产生OBS碎片,需要用户到OBS控制台清理碎片文件避免空间占用。 不支持对象多版本的迁移。 增量迁移时,单个作业的源端目录下的文件数量或对象数量,
数据库是“按照数据结构来组织、存储和管理数据的仓库”。 广义上的数据库,在20世纪60年代已经在计算机中应用了。但这个阶段的数据库结构主要是层次或网状的,且数据和程序之间具备非常强的依赖性,应用较为有限。 现在通常所说的数据库指的是关系型数据库。关系数据库是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数
分库分表同步:适用于数据入湖和数据上云场景下,多库多表同步场景,支持的数据源请参见分库分表同步支持的数据源类型。 整库迁移:适用于数据入湖和数据上云场景下,离线或自建数据库整体同步场景,支持的数据源请参见整库同步支持的数据源类型。 因各版本集群支持的数据源有所差异,其他版本支持的数据源仅做参考。
Studio实例的数据架构中已建立的主题设计信息导出到Excel文件中。导出后的文件可用于导入。关于导出主题设计的更多信息,请参见导出主题设计信息。 下载的主题导入模板参数如表3所示,其中名称前带“*”的参数为必填参数,名称前未带“*”的参数为可选参数。一个主题对象需要填写一行信息。 表3
当“资源位置”选择OBS时,文件路径选择OBS文件路径。 当“资源位置”选择HDFS时,文件路径选择MRS集群名称。 依赖包 否 当前只支持DLI Spark节点。 选择已上传到OBS中的依赖Jar包。“类型”为“jar”或“pyFile”时,配置该参数。 选择目录 是 选择资源所属的目录,默认为根目录。
更直观的数据资产相关信息,有助于投资者对企业进行更好的估值;可以改善企业财务报表,进而降低资产负债率,提升利润率;数据入表后可以通过数据交易为企业增值,并促进数据资产开发的相关投入。 企业数据资产的计量方法分为成本法、收益法、市场法。具体每个企业有哪些数据资产能入表,怎么开展相关
服务的作业时,节点名称不会同步变化。 是否使用简易变量集 作业开发 简易变量集提供了一系列自定义的变量,实现在任务调度时间内参数的动态替换。 忽略失败的通知策略 运维调度 对于运行状态为忽略失败的作业,支持发送的通知类型。 节点超时是否重试 作业运行 作业节点运行超时导致的失败也会重试。
在连接管理界面找到需要修改的连接: 删除连接:单击操作列的“删除”删除该连接,或者勾选连接后单击列表上方的“删除连接”来批量删除未被任何作业使用的连接。 编辑连接:单击该连接名称,或者单击操作列的“编辑”进入修改连接的界面,修改连接时需要重新输入数据源的登录密码。 测试连通性:单击操作列的“测试连通性”,直接测试已保存连接的连通性。
配置OBS目的端参数 支持使用CSV、CarbonData或二进制格式批量传输大量文件到OBS。 表1 OBS作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 桶名 写入数据的OBS桶名。 bucket_2 写入目录 写入数据到OBS服务器的目录,目录前面不加“/”。
包,可以跳过这部分内容。 如果您需要再创建新的CDM集群,请参考购买批量数据迁移增量包章节,完成购买数据集成增量包的操作。 集群规格选择“cdm.xlarge”。 集群所属的VPC与MRS所属的VPC一致,同时也要与云专线连通的VPC的一致。 其它参数可以自定义,或者保持默认。 创建CDH
锁定影响使用。 支持的同步对象范围 在使用Migration进行同步时,不同类型的链路,支持的同步对象范围不同,详细情况可参考下表。 表3 同步对象范围 类型名称 使用须知 同步对象范围 支持同步所有Kafka消息,其中支持对JSON或CSV格式的消息体进行解析。 注意事项 除了
通过目录ID获取路径对象 功能介绍 通过目录id获取路径对象。通过目录id获取从根目录至当前目录链路上每一层的路径信息。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/service/servicecatalogs/{catalog_id}/layerpaths
performed.”,可能是权限不足引起的。 解决方案 则需要使用账号给当前用户添加“查看委托列表”的权限。 先创建自定义策略(查询指定条件下的委托列表),再通过给用户组授予自定义策略来进行精细的访问控制。 登录华为云控制台。 在控制台页面,鼠标移动至右上方的账号名,在下拉列表中选择“统一身份认证”。
数据集市 数据集市,也称为DM模型。是汇总表的统称。汇总逻辑表是由一个特定的分析对象(如会员)及其相关的统计指标组成的。组成一个汇总逻辑表的统计指标都具有相同的统计粒度(如会员),汇总逻辑表面向用户提供了以统计粒度(如会员)为主题的所有统计数据(如会员主题集市)。 汇总表分为“手
脏数据要写入的连接,目前只支持写入到OBS连接。 obs_link OBS桶 当“脏数据写入连接”为OBS类型的连接时,才显示该参数。 写入脏数据的OBS桶的名称。 dirtydata 脏数据目录 “是否写入脏数据”选择为“是”时,该参数才显示。 OBS上存储脏数据的目录,只有在
STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的情况,这时需要将源端或目的端放在STANDALONE进程里,防止冲突导致迁移失败。 单击“测试”,测试数据连接的连通性。如果无法连通,数据连接将无法创建。