检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
标准管理 新建码表并发布 新建数据标准并发布 关系建模 数仓规划:新建SDI层和DWI层两个模型 维度建模 维度建模:在DWR层新建并发布维度 维度建模:在DWR层新建并发布事实表 指标设计 指标设计:新建并发布技术指标 数据集市建设 数据集市:在DM层新建并发布汇总表 步骤6:数据开发处理
CDM采用独立集群的方式为用户提供安全可靠的数据迁移服务,各集群之间相互隔离,不可相互访问。 CDM集群可用于如下场景: 用于创建并运行数据迁移作业。 作为管理中心组件连接数据湖时的Agent代理。 前提条件 已申请VPC、子网和安全组。CDM集群连接云上其它服务时,需确保CDM集群与待连接的云服务在同一个VP
新建一个对账作业实例 场景说明 数据对账对于数据开发和数据迁移流程中的数据一致性至关重要,而跨源数据对账的能力是检验数据迁移或数据加工前后是否一致的关键指标。本章分别以DLI和DWS作为数据源,介绍如何通过DataArts Studio中的数据质量模块实现跨源数据对账的基本一致性校验。
任务组的名称。任务组名称不能重名。 最大并发数 当前任务组作业节点最大并发数。 最大节点并发数即为当前DataArts Studio实例的并发数。 当前DataArts Studio实例的节点并发数上限为1000,请不要超过该上限。 最大并发数与DataArts Studio实例规
连接参数说明。 连接主机的用户需要具有主机/tmp目录下文件的创建与执行权限。 Shell或Python脚本可以在该ECS主机上运行的最大并发数由ECS主机的/etc/ssh/sshd_config文件中MaxSessions的配置值确定。请根据Shell或Python脚本的调度
],["\"01\""]];[['\'00\''],['\'01\'']] 子作业并发数 是 循环产生的子作业可以并发执行,您可设置并发数。 说明: 如果子作业中包含CDM Job节点,子作业并发数需要设置为1。 子作业实例名称后缀 否 For循环生成的子任务名称:For循环节点名称
单击“下一步”配置任务参数。 图3 任务参数 各参数说明如表3所示。 表3 任务配置参数 参数 说明 取值样例 同时执行的表个数 抽取时并发执行的表的数量。 3 抽取并发数 设置同时执行的抽取任务数,一般保持默认即可。 1 是否写入脏数据 选择是否记录脏数据,默认不记录脏数据。 是 脏数据写入连接
批量启动作业、按分组导出作业等操作。 是否定时执行:如果需要配置作业定时自动执行可开启。这里保持默认值“否”。 抽取并发数:设置同时执行的抽取任务数,适当的抽取并发数可以提升迁移效率,配置原则请参见性能调优。这里保持默认值“1”。 是否写入脏数据:如果需要将作业执行过程中处理失败
效。 最大抽取并发数:限制作业运行的总抽取并发数,如果当前所有作业总并发数超出限制,超出部分将排队等待。 注意,最大抽取并发数取值范围为1-1000,建议根据集群规格进行配置,建议值详见最大抽取并发数。过高的并发数可能导致内存溢出,请谨慎修改。 此处的“最大抽取并发数”参数与作业
CLICKHOUSE_0_3_1:适用于连接ClickHouse 20.7以下版本,此驱动版本不支持多IP连接数据库服务器。 CLICKHOUSE_0_4_2:适用于连接ClickHouse 20.7及以上版本,支持多IP连接数据库服务器。 说明: 选择CLICKHOUSE_0_4_2驱动版本时,支持的ti
的费用? 如何查看套餐包的剩余时长? CDM可以跨账户使用吗? CDM集群是否支持升级操作? CDM迁移性能如何? CDM不同集群规格对应并发的作业数是多少? 是否支持增量迁移? 是否支持字段转换? Hadoop类型的数据源进行数据迁移时,建议使用的组件版本有哪些? 数据源为Hive时支持哪些数据格式?
a\hudi等数据源抽取速度慢,请优先尝试加大作业并发数,以提高作业的并发抽取速率。 Mysql\Oracle\SqlServer\PostGres\OpenGauss等关系型数据为保证事务有序,在增量阶段是单并发抽取,加大并发一般不会提升抽取性能。 如果第2步也无法有效提升性能,请根据源端优化尝试进行参数优化。
迁移的目的端为文件时,CDM不支持多并发,此时应配置为单进程抽取数据。 表中每行数据大小为1MB以下的可以设置多并发抽取,超过1MB的建议单线程抽取数据。 作业抽取并发数可参考集群最大抽取并发数配置,但不建议超过集群最大抽取并发数上限。 目的端为DLI数据源时,抽取并发数建议配置为1,否则可能会导致写入失败。
65075 90155(并发度:10) 86248 86248(并发度:1) 76687 76687(并发度:1) DWS 8U 16G 8.1.1.300 26624 27902(并发度:10) DLI 16U SQL队列 15211 18430(并发度:10) MRS Hudi(MOR)
员审核通过后,业务对象发布成功。如果当前账号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。 图9 发布业务对象 新建码表并发布 在本示例中,您需要新建如表2所示的3个码表: 表2 码表 目录 *表名称 *表编码 表描述 *字段名称 *字段编码 *字段数据类型 字段描述
数据仓库服务(DWS)连接参数说明 连接数据仓库服务(DWS)时,相关参数如表1所示。 作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户,密码不会立即生效且作业会运行失败。 表1 数据仓库服务(DWS)连接参数 参数名 说明 取值样例 名称 连接的名称,根
是否定时执行:如果需要配置作业定时自动执行,可打开此配置。这里保持默认值“否”。 抽取并发数:设置同时执行的抽取任务数。CDM支持并发抽取MySQL数据,如果源表配置了索引,可调大抽取并发数提升迁移速率。 是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉
请参考查看云服务器详细信息获取。 绑定Agent 是 选择CDM集群,CDM集群提供Agent。 说明: CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运
集群才能更新生效。 单作业的抽取并发数取值范围为1-300,集群的总抽取并发数取值范围为1-1000。其中集群最大抽取并发数的设置与CDM集群规格有关,并发数上限建议配置为vCPU核数*2,作业的抽取并发数建议不超过集群的总抽取并发数,过高的并发数可能导致内存溢出,请谨慎修改。
批量启动作业、按分组导出作业等操作。 是否定时执行:如果需要配置作业定时自动执行可开启。这里保持默认值“否”。 抽取并发数:设置同时执行的抽取任务数,适当的抽取并发数可以提升迁移效率,配置原则请参见性能调优。这里保持默认值“1”。 是否写入脏数据:如果需要将作业执行过程中处理失败