检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
一个正常的MRS集群数据连接。因此建议一个Agent对应一个MRS集群数据连接。 服务器列表 是 手动参数为连接串模式时显示该参数。 一个或多个通过逗号分割的服务器列表(服务器域名或IP地址:服务器端口)。 例如: 192.168.0.1:27017,192.168.0.2:27017
关系数据库增量迁移 CDM支持对关系型数据库进行增量迁移,全量迁移完成之后,可以增量迁移指定时间段内的数据(例如每天晚上0点导出前一天新增的数据)。 增量迁移指定时间段内的数据 适用场景:源端为关系型数据库,目的端没有要求。 关键配置:Where子句+定时执行作业。 前提条件:数据表中有时间日期字段或时间戳字段。
表1 数据开发的主要功能 支持的功能 说明 数据管理 支持管理DWS、DLI、MRS Hive等多种数据仓库。 支持可视化和DDL方式管理数据库表。 脚本开发 提供在线脚本编辑器,支持多人协作进行SQL、Shell、Python脚本在线代码开发和调测。 支持使用变量和函数。 作业开发
ms //执行SQL后处理耗时 获取API信息 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studio控制台首页,选择对应工作空间的“数据服务”模块,进入数据服务页面。 在左侧导航栏选择服务版本(例如:专享版),进入总览页。
因此作业抽取并发数和集群最大抽取并发数参数设置为适当的值可以有效提升迁移速度。关于如何调整抽取并发数,详情请参考如何调整抽取并发数。 如何调整抽取并发数 集群最大抽取并发数的设置与CDM集群规格有关,并发数上限建议配置为vCPU核数*2,如表1所示。 表1 集群最大抽取并发数配置建议
“DEFAULT”。在CDM“作业管理”界面,支持作业分组显示、按组批量启动作业、按分组导出作业等操作。 是否定时执行:如果需要配置作业定时自动执行可开启。这里保持默认值“否”。 抽取并发数:设置同时执行的抽取任务数,适当的抽取并发数可以提升迁移效率,配置原则请参见性能调优。这里保持默认值“1”。
开发组件创建集成作业时支持选择本数据连接。 离线处理集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 基础与网络连通配置 SSL加密 是 DWS支持SSL通道加密和证书认证两种方式进行客户端与服务器端的通信。您可以通过服务器端是否强制使用SSL连接进行设置。
AULT”。在CDM“作业管理”界面,支持作业分组显示、按组批量启动作业、按分组导出作业等操作。 是否定时执行:如果需要配置作业定时自动执行,可打开此配置。这里保持默认值“否”。 抽取并发数:设置同时执行的抽取任务数。CDM支持多个文件的并发抽取,调大参数有利于提高迁移效率 是否
300 > 80000 400 当前工作空间级别的节点并发数支持配置,方法如下: 配置方法 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
],["\"01\""]];[['\'00\''],['\'01\'']] 子作业并发数 是 循环产生的子作业可以并发执行,您可设置并发数。 说明: 如果子作业中包含CDM Job节点,子作业并发数需要设置为1。 子作业实例名称后缀 否 For循环生成的子任务名称:For循环节点名称
任务组的名称。任务组名称不能重名。 最大并发数 当前任务组作业节点最大并发数。 最大节点并发数即为当前DataArts Studio实例的并发数。 当前DataArts Studio实例的节点并发数上限为1000,请不要超过该上限。 最大并发数与DataArts Studio实例规
登录CDM管理控制台。单击左侧导航上的“集群管理”,进入集群管理界面。 或参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。在DataArts Studio控制台首页,选择对应工作空间的“数据集成”模块,进入CDM首页。 图1 集群列表 “创建来源”列仅通过DataArts
CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。 数据源认证及其他功能配置
信息。 您也可以根据您的实际情况,参考主题流程配置对主题层级进行自定义配置。 约束与限制 单工作空间允许创建的主题个数最多5000个。 新建主题并发布 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 单击左侧导航栏中“主题设计”
迁移的目的端为文件时,CDM不支持多并发,此时应配置为单进程抽取数据。 表中每行数据大小为1MB以下的可以设置多并发抽取,超过1MB的建议单线程抽取数据。 作业抽取并发数可参考集群最大抽取并发数配置,但不建议超过集群最大抽取并发数上限。 目的端为DLI数据源时,抽取并发数建议配置为1,否则可能会导致写入失败。
提供图形化设计器,支持拖拉拽方式快速构建数据处理工作流。 预设数据集成、计算&分析、资源管理、数据监控、其他等多种任务类型,通过任务间依赖完成复杂数据分析处理。 支持多种作业调度方式。 支持导入和导出作业。 支持作业状态运维监控和作业结果通知。 提供编辑锁定能力,支持多人协同开发场景。
说明: SQL语句只能查询数据,支持join和嵌套写法,但不能有多条查询语句,比如 select * from table a; select * from table b。 不支持with语句。 不支持注释 ,比如 "--" ,“/*”。 不支持增删改操作,包括但不限于以下操作:
适用于数据量较少(100W以下)的情况。 基于采样数据,采样数量为x条 基于已采集的全量数据在数据目录中生成数据概要。 适用于数据量较多的情况。 基于全量数据,随机取x%的数据 基于已采集的全量数据在数据目录中生成数据概要。 适用于数据量较多的情况。 DLI队列 选择获取profile数据,执行DLI SQL用的队列。
需要对哪些数据源进行访问管理? 本示例不涉及 支持DLI、DWS和Hive等数据源 需要支持静态脱敏? 本示例不涉及 支持对DLI、DWS和Hive数据源数据进行静态脱敏 需要支持动态脱敏? 本示例不涉及 支持对DWS和Hive数据源数据进行动态脱敏 需要支持数据水印? 本示例不涉及 支持对Hive数据源数据进行数据水印嵌入
影响因素 说明 业务相关因素 作业抽取并发数配置 创建CDM迁移作业时,支持设置该作业的抽取并发数。 该参数设置为适当的值可以有效提升迁移速度,过小则会限制迁移速度,过大则会导致任务过载、迁移失败。 迁移的目的端为文件时,CDM不支持多并发,此时应配置为单进程抽取数据。 表中每行数据大小