云服务器内容精选

  • 约束限制 该功能适用于以下场景: Flink SQL脚本可以引用脚本模板。 在pipeline作业开发中, MRS Flink Job节点可以使用引入了脚本模板的Flink SQL脚本,同时在MRS Flink Job节点的“运行程序参数”里面可以引用参数模板。 在Flink SQL单任务作业中引用脚本模板。 在Flink Jar单任务作业中使用参数模板。 Spark SQL和Hive SQL脚本及单任务作业支持引用参数模板。模板配置好之后,请到配置默认项去使用该模板。
  • 按需计费方式购买数据集成集群 购买“按需计费”增量包,系统会按照您所选规格自动创建一个数据集成 CDM 集群。 单击已开通实例卡片上的“购买增量包”。 进入购买 DataArts Studio 增量包页面,参见表1进行配置。 表1 配置数据集成的增量包 参数 说明 增量包类型 选择批量数据迁移增量包。 计费方式 选择按需计费。 可用区 第一次购买DataArts Studio实例或增量包时,可用区无要求。 再次购买DataArts Studio实例或增量包时,是否将资源放在同一可用区内,主要取决于您对容灾能力和网络时延的要求。 如果您的应用需要较高的容灾能力,建议您将资源部署在同一区域的不同可用区内。 如果您的应用要求实例之间的网络延时较低,则建议您将资源创建在同一可用区内。 详情请参见什么是可用区。 工作空间 选择需要使用批量数据迁移增量包的工作空间。只有在关联了工作空间后,才能在此工作空间中使用创建的CDM集群。 企业项目 当关联了多个工作空间后,需要为CDM集群指定一个企业项目。 集群名称 自定义数据集成集群名称。 实例类型 目前数据集成集群支持以下部分规格供用户选择: cdm.large:大规格,8核CPU、16G内存的虚拟机,最大带宽/基准带宽为3/0.8 Gbps,集群作业并发数上限为16。 cdm.xlarge:超大规格,16核CPU、32G内存的虚拟机,最大带宽/基准带宽为10/4 Gbps,集群作业并发数上限为32,适合使用10GE高速带宽进行TB级以上的数据量迁移。 cdm.4xlarge:4倍超大规格,64核CPU、128G内存的虚拟机,最大带宽/基准带宽为40/36 Gbps,集群作业并发数上限为128。 虚拟私有云 DataArts Studio实例中的数据集成CDM集群所属的VPC、子网、安全组。 如果DataArts Studio实例或CDM集群需连接云上服务(如DWS、MRS、RDS等),则您需要确保CDM集群与该云服务网络互通。同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通,如果同虚拟私有云而子网或安全组不同,还需配置路由规则及安全组规则。 VPC、子网、安全组的详细操作,请参见《虚拟私有云用户指南》。 说明: 目前CDM实例创建完成后不支持切换VPC、子网、安全组,请谨慎选择。 此处支持选择共享VPC子网,即由VPC的所有者将VPC内的子网共享给当前账号,由当前账号在购买CDM集群时选择共享VPC子网。通过共享VPC子网功能,可以简化网络配置,帮助您统一配置和运维多个账号下的资源,有助于提升资源的管控效率,降低运维成本。如何共享VPC子网,请参考《共享VPC》。 子网 安全组 IPv6双栈支持 开启IPv6双栈后,集群内网IP支持IPv4和IPv6,可通过IPv4或IPv6内网地址访问集群。 说明: 开启IPv6双栈后,仅支持选择已开启IPv6网段的子网。如果待选择的子网未开启IPv6网段,则需要在 虚拟私有云VPC 服务中开启。 仅支持为内网IP启用IPv6双栈,暂不支持为公网IP启用IPv6双栈。 集群创建好以后不支持修改规格,如果需要使用更高规格,需要重新创建。 单击“立即购买”,确认规格后单击“创建”。 购买成功后,即可返回对应的工作空间查看已购买的数据集成集群。
  • 套餐包方式购买数据集成集群 如果您希望享受“套餐包”的优惠价格,您需要先购买一个“套餐包”增量包,再购买一个和“套餐包”增量包具有相同区域和规格的“按需计费”增量包。 单击已开通实例卡片上的“购买增量包”。 进入购买DataArts Studio增量包页面,按照如下配置: 增量包类型:选择批量数据迁移增量包。 计费方式:选择套餐包。 购买时长:表示此套餐包的有效时长。 购买数量:表示购买套餐包的数量。例如当购买时长选择1个月,购买数量选择2,那么您将拥有1490小时的额度,有效期是1个月。 单击“立即购买”,确认规格后提交订单。 购买套餐包成功后,系统不会自动创建数据集成集群。此时您还需要参考按需计费方式购买数据集成集群再购买一个和“套餐包”具有相同区域和规格的“按需计费”增量包,创建成功后您即可享受套餐包的优惠价格。
  • 操作场景 DataArts Migration作业运行于资源组提供的资源之上,因此资源组与数据源之间必须保证连通,才能实现对数据的实时ETL(抽取(Extract)、清洗转换(Transform)、加载(Load))。 集成作业创建后,选定了数据源端、目的端及资源组后,需要检测资源组与两个数据源之间的连通性。 资源组与两个数据源分布在不同账号和云时的打通网络方案不同,具体如下: 数据源创建在本租户的VPC时通过对等连接打通网络,详情请参见数据连接与资源组同时创建在华为云同一个租户。 图1 原理图 通过对等连接打通资源组网段和数据源VPC。 数据源创建在本地机房/其他区域/其他租户/其他公有云时,通过业务VPC、中转VPC打通网络:数据连接与资源组分布在不同租户或分布在不同云上。 主推方案:使用中转VPC中转网络。 图2 原理图 数据源VPC与资源组网段不在一起时,首先通过云专线等方式连通华为云专有网络(业务VPC)和数据源VPC,再通过购买私网NAT和创建中转IP方式连通与资源组打通网络的中转VPC。 使用限制: 用户已具备一个业务VPC账号。 新建的中转VPC必须和资源组在同一个账号下。 优点:通用性强,无需在网络链路上多处放通资源组网段及添加对应路由,后续新增资源组仅需增加SNAT规则,适配工作量小。 缺点:需要额外购买 私网NAT网关 、创建中转VPC、且实时同步速率因此也受NAT带宽限制。 备选方案:根据实际组网手动添加路由配置。 图3 原理图 数据源VPC与资源组网段不在一起时,首先通过云专线等方式连通华为云专有网络(业务VPC)和数据源VPC,再通过对等连接方式连通业务VPC与资源组网段。 优点:无需额外购买其他服务。 缺点:操作复杂,局限性大,需要根据用户实际组网去修改网络链路上的路由及服务配置,后续每增加一个资源组就须重复操作一遍整个流程。
  • 作业实例运行状态 表4 作业实例运行状态说明 运行状态 场景描述 等待运行 如果作业实例依赖的前置作业实例未最终完成(未最终完成的状态包括:未生成实例、等待运行、运行失败),该实例处于等待运行。 运行中 作业正常运行中。说明前置的依赖作业都已完成,该作业调度时间已到。 运行成功 作业真正成功执行了业务逻辑,并且最终成功(包含失败重试的成功)。 强制成功 作业实例处于失败或取消状态时,进行手动执行强制成功。 忽略失败成功 如下图所示,节点B设置了失败处理策略,当B执行失败了,会跳过B继续执行C,当存在这种节点运行失败,整个作业执行完成了就是忽略失败成功。 图10 失败处理策略-继续执行下一节点 运行异常 这种运行状态场景较少。如下图所示,节点B设置了失败处理策略,当B执行失败了,作业实例立即挂起,不会继续执行C,作业实例进入异常运行状态。 图11 失败处理策略-挂起当前作业执行计划 已暂停 这种运行状态场景较少。当某个作业的实例正在运行,测试人员在作业监控界面,手工暂停作业调度。此时,该作业正在运行的实例会进入已暂停状态。 已取消 等待运行状态的作业实例,进行手工停止,则实例处于已取消状态。 如果作业实例依赖的直接上游作业被停止调度了,该作业实例会自动进入已取消状态。作业A依赖作业B,作业B被停止调度,作业A实例生成后会自动取消。 冻结 对于未来时间内尚未生成的作业实例,进行冻结后,该作业实例会进入冻结状态。 失败 作业执行失败。
  • 属性和方法 表1 属性说明 属性 类型 描述 name String 作业名称。 planTime java.util.Date 作业调度计划时间,即周期调度配置的时间,例如每天凌晨1:01调度作业。 startTime java.util.Date 作业执行时间,有可能与planTime同一个时间,也有可能晚于planTime(由于作业引擎繁忙等)。 eventData String 当作业使用事件驱动调度时,从通道获取的消息。 projectId String 当前数据开发模块所处项目ID。 表2 方法说明 方法 描述 示例 String getNodeStatus(String nodeName) 获取指定节点运行状态,成功状态返回success,失败状态返回fail。 例如,判断节点是否运行成功,可以使用如下判断条件,其中test为节点名称: #{(Job.getNodeStatus("test")) == "success" } 获取test节点运行状态。 #{Job.getNodeStatus("test")} String getNodeOutput(String nodeName) 获取指定节点的输出。此方法只能获取前面依赖节点的输出。 获取test节点输出。 #{Job.getNodeOutput("test")} 当前一节点执行无结果时,输出结果为“null”。 当前一节点的输出结果是一个字段时,输出结果形如[["000"]]所示。此时可通过EL表达式分割字符串结果,获取前一节点输出的字段值,但注意输出结果类型为String。需要输出原数据类型时,仍需通过For Each节点及其支持的Loop内嵌对象EL表达式获取。 #{StringUtil.split(StringUtil.split(StringUtil.split(Job.getNodeOutput("前一节点名"),"]")[0],"[")[0],"\\"")[0]} 当前一节点的输出结果是多个(两个及以上)字段时,输出结果形如[["000"],["001"]]所示。此时需要结合For Each节点及其支持的Loop内嵌对象EL表达式如#{Loop.current[0]},循环获取输出结果,详见获取SQL节点的输出结果值。 String getParam(String key) 获取作业参数。 注意此方法只能直接获取当前作业里配置的参数值,并不能获取到父作业传递过来的参数值,也不能获取到工作空间里面配置的全局变量,作用域仅为本作业。 这种情况下建议使用表达式${job_param_name},既可以获取到父作业传递过来的参数值,也可以获取到全局配置的变量。 获取参数test的值: #{Job.getParam("test")} String getPlanTime(String pattern) 获取指定pattern的计划时间字符串,pattern为日期、时间模式,请参考日期和时间模式。 获取作业调度计划时间,具体到毫秒: #{Job.getPlanTime("yyyy-MM-dd HH:mm:ss:SSS")} String getYesterday(String pattern) 获取执行pattern的计划时间前一天的时间字符串,pattern为日期、时间模式,请参考日期和时间模式。 获取作业调度计划时间的前一天的时间,具体到日期: #{Job.getYesterday("yyyy-MM-dd HH:mm:ss:SSS")} String getLastHour(String pattern) 获取执行pattern的计划时间前一小时的时间字符串,pattern为日期、时间模式,请参考日期和时间模式。 获取作业调度计划时间前一小时的时间,具体到小时: #{Job.getLastHour("yyyy-MM-dd HH:mm:ss:SSS")} String getRunningData(String nodeName) 获取指定节点运行中记录的数据,当前只支持获取 DLI SQL节点SQL语句运行的作业id。此方法只能获取前面依赖节点的输出。 例如,想要获取DLI节点第3条语句的job ID(DLI节点名为DLI_INSERT_DATA),可以这样使用:#{JSONUtil.path(Job.getRunningData("DLI_INSERT_DATA"),"jobIds[2]")}。 获取指定DLI SQL节点test中第三条语句的job ID: #{JSONUtil.path(Job.getRunningData("test"),"jobIds[2]")} String getInsertJobId(String nodeName) 返回指定DLI SQL或Transform Load节点第一个Insert SQL语句的作业ID,不指定参数nodeName时,获取前面一个节点第一个DLI Insert SQL语句的作业ID,如果无法获取到作业ID,返回null值。 获取DLI SQL节点test中第一个Insert SQL语句的job ID: #{Job.getInsertJobId("test")} String getPreviousWorkday(Integer num, String pattern) 按照指定的pattern返回计划时间前第num个工作日的时间字符串,num只可为正整数。若没有获取到符合条件的结果则返回null值。 该EL表达式适用于按照日历选择自定义日期进行周期调度。 获取作业调度前五天的工作日的日期。 #{Job.getPreviousWorkday(5, "yyyyMMdd")} String getPreviousNonWorkday(Integer num, String pattern) 按照指定的pattern返回计划时间前第num个非工作日的时间字符串,num只可为正整数。若没有获取到符合条件的结果则返回null值。 该EL表达式适用于按照日历选择自定义日期进行周期调度。 获取作业调度前一天的非工作日的日期。 #{Job.getPreviousNonWorkday(1, "yyyyMMdd")}
  • 使用场景 当某参数被多个作业调用时,可将此参数提取出来作为默认配置项,无需每个作业都配置该参数。 表1 配置项列表 配置项 影响模块 主要用途 配置工作空间模式 作业调度 普通模式 业务日期模式 系统支持按照作业调度计划时间去运行,同时支持按照业务日期去运行。 配置周期调度 作业调度 当前作业所依赖的作业执行失败后,当前作业的处理策略。 依赖的作业停止时,当前作业实例处理策略。 配置多IF策略 作业调度 节点执行依赖多个IF条件的处理策略。 配置软硬锁策略 脚本/作业开发 作业或脚本的抢锁操作依赖于软硬锁处理策略。 脚本变量定义 脚本开发 脚本变量的格式定义。SQL脚本的变量格式有${}和${dlf.}两种。 配置数据导出策略 脚本/作业开发 对SQL执行结果框中的数据配置下载或转储的策略。 所有用户都可以 所有用户都不能 仅工作空间管理员可以 禁用作业节点名称同步变化 作业开发 DataArts Studio作业中的节点关联脚本或者其他服务的作业时,节点名称不会同步变化。 是否使用简易变量集 作业开发 简易变量集提供了一系列自定义的变量,实现在任务调度时间内参数的动态替换。 忽略失败状态的 消息通知 策略 运维调度 对于运行状态为忽略失败的作业,支持发送的通知类型。 节点超时是否重试 作业运行 作业节点运行超时导致的失败也会重试。 实例超时是否忽略等待时间 作业运行 实例运行时超时计算将忽略等待时间。 MRS jar包参数拆分规则 作业开发 MRS MapReduce算子和MRS Spark算子jar包参数中字符串参数(使用""括起来的参数)拆分规则。 等待运行实例同步作业版本策略 运维调度 已生成的等待运行的作业实例,此时发布新的作业版本后,实例是否会使用最新的作业版本运行。 Hive SQL及Spark SQL执行方式 脚本/作业开发 SQL语句放置在OBS中:将OBS路径返回给MRS。 SQL语句放置在请求的消息体中:将脚本内容返回给MRS。 MRS资源队列是否必填 作业开发 如果默认项选择“是”,作业算子中的“MRS资源队列”参数为必须项。 补数据优先级设置 运维调度-补数据 设置补数据作业的优先级。当系统资源不充足时,可以优先满足优先级较高的作业的计算资源,数字越大优先级越高,当前只支持对DLI SQL算子设置优先级。 历史作业实例取消策略 运维调度 配置等待运行作业实例的超期天数。当作业实例等待运行的时间,超过了所配置的期限天数时,作业实例将取消执行。超期天数,最小需配置2天,即至少需要等待2天,才可取消未运行的作业实例。超期天数默认为60天,单位:天。 历史作业实例告警策略 运维调度 配置“通知管理”中通知告警能监控的天数范围。 通知管理中配置的告警通知能监控的作业实例天数范围,默认配置为7天,即对7天内满足触发条件的作业实例都能正常上报通知告警,但7天之前的作业实例不会再上报告警。 作业告警通知主题 通知配置 按责任人发送通知时所使用的主题。 作业算子失败重试默认策略 运维调度 设置作业算子失败重试默认策略。 作业每次重试失败即告警 运维调度 当作业配置失败告警的时候,该配置项会触发作业每次重试失败即告警,可作用于全部作业、实时作业和批作业。 若选择不支持,则作业达到最大失败重试次数时才触发失败告警。 作业运行自动传递脚本名称 作业开发(作业运行) 开关打开后,系统自动传参将生效:将对当前空间内作业运行时,将Hive SQL脚本set mapreduce.job.name=脚本名称,自动传递至MRS。 作业依赖规则 作业调度 作业能被其他空间作业依赖,需要该空间作业列表的查询权限。工作空间内的默认角色均有该权限,自定义角色需要在有数据开发下的作业查询权限。 脚本执行历史展示 脚本/作业开发 对脚本执行历史结果进行权限管控。 仅自己可见:脚本执行历史只显示本用户的执行历史。 所有用户可见:脚本执行历史显示所有用户的执行历史。 作业测试运行使用的身份 作业开发(作业测试运行) 配置作业测试运行使用的身份。 公共委托或 IAM 账号:使用配置的公共委托或公共IAM账号身份执行作业。 个人账号:使用点击测试作业用户的身份执行作业。 Spark SQL作业/脚本默认模板配置 Spark SQL脚本/作业开发 Spark SQL作业/脚本配置运行,是否允许用户设置任意参数。 Hive SQL作业/脚本默认模板配置 Hive SQL脚本/作业开发 Hive SQL作业/脚本配置运行,是否允许用户设置任意参数。 作业/脚本变更管理 作业/脚本的导入和导出 工作空间是否开启作业/脚本变更管理。 是:表示作业/脚本变化时记录变更事件,支持根据时间点增量导出和导入所有变化的作业/脚本。 否:表示作业/脚本变化时不记录变更事件,只支持选定作业/脚本的导出和导入。 Flink调试OBS桶 Flink SQL实时作业开发 在进行Flink SQL作业调试时,调试OBS桶必须选择并行桶。
  • 操作步骤 参见新建离线处理集成作业创建一个离线处理集成作业。 类型配置。 图1 类型配置 配置数据连接类型,包含配置源端数据类型和目的端数据类型,支持的数据类型请参见支持的数据源。 选择集成作业类型。 同步类型:默认为离线,不可更改。 同步场景:支持单表、分库分表和整库三种同步方式,具体支持的数据源请参见支持的数据源。 设置网络资源配置。 选择已创建的源端数据连接,且创建的连接必须已勾选数据集成选项。连接不存在时可参见配置DataArts Studio数据连接参数创建所需连接。 需要测试数据源端和资源组之间网络是否可用,不可用时根据界面提示修改。 选择资源组,集群创建可参见创建CDM集群。 选多个集群时系统会随机下发任务,故需要多个集群时版本规格建议选择集群版本一致的集群,否则可能因为集群版本不一致导致作业失败。 选择已创建的目的端数据连接,且创建的连接必须已勾选数据集成选项。连接不存在时可参见配置DataArts Studio数据连接参数。 需要测试数据连接是否可用,不可用时根据界面提示修改。 配置源端数据参数。 各数据源及各同步场景配置存在一定差异,选择源端配置后,请参见配置作业源端参数配置作业参数。 表1 源端需要配置的作业参数 同步场景 源端需要配置参数 字段映射 单表 基本参数 高级属性 支持 分库分表 选择库表方式:精准匹配或正则匹配 高级属性 支持 整库迁移 添加源数据,选择需要迁移的库表 高级属性 不支持 配置目的端数据参数。 各数据源及各同步场景配置存在一定差异,选择目的端配置后,请参见配置作业目的端参数配置作业参数。 表2 目的端需要配置的作业参数 同步场景 目的端需要配置参数 字段映射 单表 基本参数 高级属性 支持 分库分表 基本参数 高级属性 支持 整库迁移 选择库匹配策略和表匹配策略 不支持 配置字段映射关系。 配置作业源端参数和目的端参数后,需要配置源端和目的端列的映射关系,配置字段映射关系后,任务将根据字段映射关系,将源端字段写入目标端对应类型的字段中。 字段映射配置:选择字段映射关系、设置字段批量映射规则。 字段映射关系 同名映射:对字段名称相同的字段进行映射。使用已有数据进行相同列名的字段自动映射。 同行映射:源表和目标表的字段名称不一致,但字段对应相同行的数据进行映射。查询源端和目的端的字段,再进行相同行的字段自动映射。 字段批量映射:源端配置使用SQL语句为是时不显示该参数。 批量输入字段映射数据,一行输入一个字段映射,等号左边为源表字段右边为目标表字段,例如:reader_column=writer_column。 单击“查看编辑”,设置批量映射关系。 字段映射关系:支持批量转换,添加字段,行移动等功能。 批量转换器:批量转换源字段名。 勾选需要转换的字段名,单击“批量转换器”,在弹出的转换器列表对话框中根据提示新建转换器。 批量移除字段:源端配置使用SQL语句为是时不显示该参数,勾选需要移除的字段名,单击“批量移除字段”。 已移除的字段可以在添加字段里的“添加被移除的字段”中看到。 添加字段:源端配置使用SQL语句为是时不显示该参数。可以为源端和目的端添加新的字段。包含添加已被移除的字段和添加新字段。 添加新字段支持以下类型: 支持函数,例如mysql填写now()、curdate()、postgresql。 支持填写now()、transaction_timestamp()。 支持函数配合关键字,例如postgresql填写to_char(current_date,'yyyy-MM-dd')。 支持填写固定值,例如:123、'123',这两种填法都代表字符串:123。 支持填写变量值,例如:${workDate},workDate需要在作业变量中进行定义。 JDBC支持填写固定变量,例如:DB_NAME_SRC(原始数据库名称)、TABLE_NAME_SRC(源端表名称)、DATASOURCE_NAME_SRC(源端数据源名称)。 支持as语句,例如:'123' as test, now() as curTime。 行移动:源端配置使用SQL语句为是时,在设置字段映射关系阶段不支持该功能。鼠标拖住需要移动的字段所在行,可以任意移动上下位置。 查看转换器:(可选)CDM支持字段内容转换,如果需要可单击操作列下,进入转换器列表界面,再单击“新建转换器”。转换器使用详情请参见字段转换器配置指导。 查找目的端字段:CDM支持搜索查找目的端字段名并匹配字段,如果需要可单击操作列下,进入匹配目的字段对话框,通过搜索关键字或者直接单击目标进行匹配。 删除字段:CDM支持删除原有表的默认字段,如果需要可单击操作列下删除字段,已移除的字段可以在添加字段里的“添加被移除的字段”中看到。 字段映射样例:源端配置使用SQL语句为是时不显示该参数,查看源端和目的端样例数据。 文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,且源端“文件格式”配置为“二进制格式”(即不解析文件内容直接传输),没有字段映射这一步骤。 整库迁移没有配置字段映射关系这一步骤。 迁移过程中可能存在源端与目标端字段类型不匹配,产生脏数据,导致数据无法正常写入目标端,迁移过程中关于脏数据的容忍条数,请参考下一步任务属性进行配置。 当源端某字段未与目标端字段进行映射时,源端该字段数据将不会同步到目标端。 其他场景下,CDM会自动匹配源端和目的端数据表字段,需用户检查字段映射关系和时间格式是否正确,例如:源字段类型是否可以转换为目的字段类型。 如果字段映射关系不正确,用户可以通过拖拽字段来调整映射关系(源端配置使用SQL语句为否时支持该功能)。 如果在字段映射界面,CDM通过获取样值的方式无法获得所有列,则可以单击自定义新增字段,也可单击操作列下创建字段转换器,确保导入到目的端的数据完整。 支持通过字段映射界面的,可自定义添加常量、变量及表达式。 列名仅支持源端为OBS数据源,迁移 CS V文件时配置“解析首行为列名”参数为“是”时显示。 SQLServer作为目的端数据源时,不支持timestamp类型字段的写入,需修改为其他时间类型字段写入(如datatime)。 如果是导入到 数据仓库 服务(DWS),则还需在目的字段中选择分布列,建议按如下顺序选取分布列: 有主键可以使用主键作为分布列。 多个数据段联合做主键的场景,建议设置所有主键作为分布列。 在没有主键的场景下,如果没有选择分布列,DWS会默认第一列作为分布列,可能会有数据倾斜风险。 配置任务属性。 通过任务配置,控制数据同步过程的相关属性,具体请参见表3。 表3 任务配置参数 参数 说明 取值样例 抽取并发数 配置作业抽取并发数,控制将CDM作业拆分为多个Task。 CDM通过数据迁移作业,将源端数据迁移到目的端数据源中。其中,主要运行逻辑如下: 数据迁移作业提交运行后,CDM会根据作业配置中的“抽取并发数”参数,将每个作业拆分为多个Task,即作业分片。 说明: 不同源端数据源的作业分片维度有所不同,因此某些作业可能出现未严格按作业“抽取并发数”参数分片的情况。 CDM依次将Task提交给运行池运行。根据集群配置管理中的“最大抽取并发数”参数,超出规格的Task排队等待运行。 因此作业抽取并发数和集群最大抽取并发数参数设置为适当的值可以有效提升迁移速度。 作业抽取并发数的配置原则如下: 迁移的目的端为文件时,CDM不支持多并发,此时应配置为单进程抽取数据。 表中每行数据大小为1MB以下的可以设置多并发抽取,超过1MB的建议单线程抽取数据。 作业抽取并发数可参考集群最大抽取并发数配置,但不建议超过集群最大抽取并发数上限。 目的端为DLI数据源时,抽取并发数建议配置为1,否则可能会导致写入失败。 其中,集群最大抽取并发数的设置与CDM集群规格有关,并发数上限建议配置为vCPU核数*2。例如8核16GB规格集群的最大抽取并发数上限为16。 3 分片重试次数 每个分片执行失败时的重试次数,为0表示不重试。 说明: 目前仅对目的端为Hudi、DWS,导入模式为UPSERT生效,其他场景及配置分片重试次数不生效。 0 是否写入脏数据 选择是否记录脏数据,默认不记录脏数据,当脏数据过多时,会影响同步任务的整体同步速度。 否:默认为否,不记录脏数据。 表示不允许脏数据存在。如果同步过程中产生脏数据,任务将失败退出。 是:允许脏数据,即任务产生脏数据时不影响任务执行。 允许脏数据并设置其阈值时: 若产生的脏数据在阈值范围内,同步任务将忽略脏数据(即不会写入目标端),并正常执行。 若产生的脏数据超出阈值范围,同步任务将失败退出。 说明: 脏数据认定标准:脏数据是对业务没有意义,格式非法或者同步过程中出现问题的数据;单条数据写入目标数据源过程中发生了异常,则此条数据为脏数据。 因此只要是写入失败的数据均被归类于脏数据。 例如,源端是VARCHAR类型的数据写到INT类型的目标列中,则会因为转换不合理导致脏数据不会成功写入目的端。用户可以在同步任务配置时,配置同步过程中是否写入脏数据,配置脏数据条数(单个分片的最大错误记录数)保证任务运行,即当脏数据超过指定条数时,任务失败退出。 否 脏数据写入连接 当“是否写入脏数据”为“是”才显示该参数。 脏数据要写入的连接,目前只支持写入到OBS连接。 obslink OBS桶 当“脏数据写入连接”为OBS类型的连接时,才显示该参数。 写入脏数据的OBS桶的名称。 dirtydata 脏数据目录 “是否写入脏数据”选择为“是”时,该参数才显示。 OBS上存储脏数据的目录,只有在配置了脏数据目录的情况下才会记录脏数据。 用户可以进入脏数据目录,查看作业执行过程中处理失败的数据或者被清洗过滤掉的数据,针对该数据可以查看源数据中哪些数据不符合转换、清洗规则。 /user/dirtydir 单个分片的最大错误记录数 当“是否写入脏数据”为“是”才显示该参数。 单个分区的错误记录超过设置的最大错误记录数则任务自动结束,已经导入的数据不支持回退。 推荐使用临时表作为导入的目标表,待导入成功后再改名或合并到最终数据表。 0 开启限速 是否开启同步限速。该速率代表CDM传输速率,而非网卡流量。 限速:用户可以通过限速控制同步速率,可以保护读取端数据库,避免抽取速度过大,给源库造成太大的压力。限速最小配置为1MB/S。 不限速:在不限速的情况下,任务将在所配置的并发数的限制基础上,提供现有硬件环境下最大的传输性能。 说明: 支持对MRS Hive\DLI\关系数据库\OBS\Apache HDFS作为目的端的作业进行单并发限速。 如果作业配置多并发则实际限制速率需要乘以并发数。 是 单并发速率上限(MB/s) 开启限速情况下设置的单并发速率上限值,如果配置多并发则实际速率限制需要乘以并发数。 说明: 限制速率为大于1的整数。 10 保存作业。 作业配置完毕后,单击作业开发页面左上角“保存”按钮,保存作业的配置信息。 保存后,在右侧的版本里面,会自动生成一个保存版本,支持版本回滚。保存版本时,一分钟内多次保存只记录一次版本。对于中间数据比较重要时,可以通过“新增版本”按钮手动增加保存版本。 测试运行作业。 作业配置完毕后,单击作业开发页面左上角“测试运行”按钮,测试作业。如果测试未通过,请您查看作业节点的运行日志,进行定位处理。 测试运行类似于单次运行,会对数据进行真实迁移。 用户可以查看该作业的测试运行日志,单击“查看日志”可以进入查看日志界面查看日志的详细信息记录。 作业未提交版本之前,进行手动测试运行,作业监控里面的作业运行实例版本显示是0。 提交作业版本。 若任务需要进行周期性调度运行,您需要将任务发布至生产环境。关于任务发布,详情请参见:发布作业任务。 调度作业。 对已编排好的作业设置调度方式。关于调度作业,详情请参见:调度作业。
  • 前提条件 已完成数据连接的创建,且创建的连接必须已勾选数据集成选项,详情请参见配置DataArts Studio数据连接参数 。 存在正在运行的CDM集群,详情请参见创建CDM集群。 DataArts Studio实例中已经包含一个CDM集群(试用版除外),如果该集群已经满足需求,您无需再购买数据集成增量包,可以跳过这部分内容。如果您需要再创建新的CDM集群,请参考购买批量数据迁移增量包,完成购买数据集成增量包的操作。 CDM集群与待同步数据源可以正常通信。 当CDM集群与其他云服务所在的区域、VPC、子网、安全组一致时,可保证CDM集群与其他云服务内网互通,无需专门打通网络。 当CDM集群与其他云服务所在的区域和VPC一致、但子网或安全组不一致时,需配置路由规则及安全组规则以打通网络。配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则章节。 当CDM集群与其他云服务所在的区域一致、但VPC不一致时,可以通过对等连接打通网络。配置对等连接请参见如何配置对等连接章节。 注:如果配置了VPC对等连接,可能会出现对端VPC子网与CDM管理网重叠,从而无法访问对端VPC中数据源的情况。推荐使用公网做跨VPC数据迁移,或联系管理员在CDM后台为VPC对等连接添加特定路由。 当CDM集群与其他云服务所在的区域不一致时,则需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 另外,如果创建了企业项目,则企业项目也会影响CDM集群与其他云服务的网络互通,只有企业项目一致的云服务才能打通网络。
  • 参考:创建委托 登录IAM服务控制台。 选择“委托”,单击“创建委托”。 设置“委托名称”。例如:DGC_agency。 在创建委托页面,委托类型选择“云服务”,云服务选择“ 数据湖 治理中心DGC”,将操作权限委托给DataArts Studio,让DataArts Studio以您的身份使用其他云服务,代替您进行一些资源运维工作。 图3 创建委托 单击“下一步”,进入授权页面。 在授权页面中搜索“Tenant Administrator”策略,勾选“Tenant Administrator”策略并单击“下一步”。 因Tenant Administrator策略具有除 统一身份认证 服务IAM外,其他所有服务的所有执行权限。所以给委托服务DataArts Studio配置Tenant Administrator,可访问周边所有服务。 若您想达到对权限较小化的安全管控要求,Tenant Administrator可不配置,仅配置OBS OperateAccess权限(因作业执行过程中,需要往OBS写执行日志信息,因此需要添加 OBS OperateAccess权限)。然后再根据作业中的节点类型,配置不同的委托权限。例如某作业仅包含Import GES节点,可配置GES Administrator权限和OBS OperateAccess权限即可。详细方案请参考参考:配置委托权限。 图4 配置权限 单击“确定”完成委托创建。
  • 参考:配置委托权限 将账号的操作权限委托给DataArts Studio服务后,需要配置委托身份的权限,才可与其他服务进行交互。 为实现对权限较小化的安全管控要求,可根据作业中的节点类型,以服务为粒度,参见表1配置相应的服务Admin权限。 也可精确到具体服务的操作、资源以及请求条件等。根据作业中的节点类型,以对应服务API接口为粒度进行权限拆分,满足企业对权限最小化的安全管控要求。参见表2进行配置。例如包含Import GES节点的作业,您只需要创建自定义策略,并勾选ges:graph:getDetail(查看图详情),ges:jobs:getDetail(查询任务状态),ges:graph:access(使用图)这三个授权项即可。 当满足如下条件之一时,MRS集群才支持委托方式提交作业。 非安全集群。 安全集群,集群版本大于 2.1.0,并且安装了MRS 2.1.0.1及以上版本的补丁。 当MRS集群不支持委托方式提交作业时,如下节点相关作业不能配置委托。 MRS相关的节点(MRS Presto SQL、MRS Spark、MRS Spark Python、MRS Flink Job、 MRS MapReduce),以及通过API方式连接的(MRS Spark SQL、MRS Hive SQL)节点。 配置服务级Admin权限 因作业执行过程中,需要往OBS写执行日志信息,因此粗粒度授权时,所有作业都需要添加OBS OperateAccess权限。 表1 配置相关节点的admin权限 节点名称 系统权限 权限描述 CDM Job、DIS Stream、DIS Dump、DIS Client DAYU Administrator 数据治理中心 服务的所有执行权限。 Import GES GES Administrator 图引擎服务的所有执行权限。该角色有依赖,需要在同项目中勾选依赖的角色:Tenant Guest、Server Administrator。 MRS Presto SQL、MRS Spark、MRS Spark Python、MRS Flink Job、 MRS MapReduce MRS Spark SQL、MRS Hive SQL(通过MRS API方式连接MRS集群的) MRS Administrator MRS Fullaccess KMS Administrator MRS Administrator:RBAC策略下 MapReduce服务 的所有执行权限。该角色有依赖,需要在同项目中勾选依赖的角色:Tenant Guest、Server Administrator。 MRS Fullaccess:细粒度策略下MRS管理员权限,拥有该权限的用户可以拥有MRS所有权限。 KMS Administrator: 数据加密 服务加密密钥的管理员权限。 MRS Spark SQL、MRS Hive SQL、MRS Kafka、Kafka Client(通过代理方式连接集群) DAYU Administrator KMS Administrator DAYU Administrator: 数据治理 中心服务的所有执行权限。 KMS Administrator:数据加密服务加密密钥的管理员权限。 DLI Flink Job、DLI SQL、DLI Spark DLI Service Admin 数据湖探索 的所有执行权限。 DWS SQL、Shell、RDS SQL(通过代理方式连接数据源) DAYU Administrator KMS Administrator DAYU Administrator:数据治理中心服务的所有执行权限。 KMS Administrator:数据加密服务加密密钥的管理员权限。 CSS DAYU Administrator Elasticsearch Administrator DAYU Administrator:数据治理中心服务的所有执行权限。 Elasticsearch Administrator: 云搜索服务 的所有执行权限。该角色有依赖,需要在同项目中勾选依赖的角色:Tenant Guest、Server Administrator。 Create OBS、Delete OBS、OBS Manager OBS OperateAccess 查看桶、上传对象、获取对象、删除对象、获取对象ACL等对象基本操作权限 SMN SMN Administrator 消息通知服务的所有执行权限。 配置细粒度权限(根据各服务支持的授权项,创建自定义策略) 创建自定义策略的详细操作请参见创建自定义策略。 作业执行过程中,需要向OBS中写入执行日志。当采取精细化授权方式时,任何类型的作业均需要添加OBS的如下授权项: obs:bucket:GetBucketLocation obs:object:GetObject obs:bucket:CreateBucket obs:object:PutObject obs:bucket:ListAllMyBuckets obs:bucket:ListBucket CDM Job、DIS Stream、DIS Dump、DIS Client节点隶属于DataArts Studio模块,DataArts Studio不支持细粒度授权。因此包含这几类节点的作业,给服务配置权限仅支持DataArts Studio Administarator。 CSS不支持细粒度授权,且需要通过代理执行。因此包含这类节点的作业,需要配置DataArts Studio Administarator和Elasticsearch Administrator权限。 SMN不支持细粒度授权,因此包含这类节点的作业,需要配置SMN Administarator权限。 表2 自定义策略 节点名称 授权项 Import GES ges:graph:access ges:graph:getDetail ges:jobs:getDetail MRS Presto SQL、MRS Spark、MRS Spark Python、MRS Flink Job、 MRS MapReduce MRS Spark SQL、MRS Hive SQL(通过MRS API方式连接MRS集群的) mrs:job:delete mrs:job:stop mrs:job:submit mrs:cluster:get mrs:cluster:list mrs:job:get mrs:job:list kms:dek:crypto kms:cmk:get MRS Spark SQL、MRS Hive SQL、MRS Kafka、Kafka Client(通过代理方式连接集群) kms:dek:crypto kms:cmk:get DataArts Studio Administarator(角色) DLI Flink Job、DLI SQL、DLI Spark dli:jobs:get dli:jobs:update dli:jobs:create dli:queue:submit_job dli:jobs:list dli:jobs:list_all DWS SQL、Shell、RDS SQL(通过代理方式连接数据源) kms:dek:crypto kms:cmk:get DataArts Studio Administarator(角色) Create OBS、Delete OBS、OBS Manager obs:bucket:GetBucketLocation obs:bucket:ListBucketVersions obs:object:GetObject obs:bucket:CreateBucket obs:bucket:DeleteBucket obs:object:DeleteObject obs:object:PutObject obs:bucket:ListAllMyBuckets obs:bucket:ListBucket
  • 调度身份的分类 调度身份分为委托和IAM账户两大类。 委托:由于云各服务之间存在业务交互关系,一些云服务需要与其他云服务协同工作,需要您创建云服务委托,将操作权限委托给这些服务,让这些服务以您的身份使用其他云服务,代替您进行一些资源运维工作。 委托可以分为: 公共委托:工作空间级别的全局委托。适用于该空间内的所有作业。配置公共委托请参考配置公共委托。 作业委托:适用于单个作业级别。配置作业委托请参考配置作业委托。 IAM账号:通过用户组统一配置,权限管理相对于委托来说,流程简便;并且使用IAM账号的兼容性更好,可支持MRS相关的节点(MRS Presto SQL、MRS Spark、MRS Spark Python、MRS Flink Job、 MRS MapReduce),通过直连方式的(MRS Spark SQL、MRS Hive SQL)节点,以及目标端为DWS的ETL Job节点,解决部分MRS集群和部分ETL Job节点不支持委托方式提交作业的问题。 IAM账户可分为: 公共IAM账户:工作空间级别的全局IAM账户。适用于该空间内的所有作业。配置公共IAM账户请参考配置公共IAM账号。 执行用户:作业级别的IAM账户,适用于单个作业级别。配置执行用户请参考配置执行用户。 配置执行用户调度功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。
  • DMS Kafka数据连接参数说明 表1 DMS Kafka数据连接 参数 是否必选 说明 数据连接类型 是 DMS Kafka连接固定选择为DMS Kafka。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。 说明: 当开启数据集成作业特性后,可勾选数据集成组件,勾选后在数据开发组件创建集成作业时支持选择本数据连接。 离线处理集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 基础与网络连通配置 Kafka Broker 是 Kafka Broker 格式为 host:port。例如:127.0.0.1:9092,127.0.0.1:9093 Kafka SASL_SSL 是 开启Kafka SASL_SSL,数据将加密传输,安全性更高,但性能会下降。请根据创建的kafka集群认证填入相应配置:security.protocol=SASL_SSL/SASL_PLAINTEXT,sasl.mechanism=PLAIN/SC RAM -SHA-512 KMS密钥 是 通过KMS加解密数据源认证信息,选择KMS中已创建的密钥。 KMS是一种安全、可靠、简单易用的密钥托管服务,对密钥的所有操作都会进行访问控制及日志跟踪,提供所有密钥的使用记录,满足审计和合规性要求。 绑定Agent 是 DataArts无法直接与非全托管服务进行连接,需要提供DataArts Studio与非全托管服务通信的代理。CDM集群可以提供通信代理服务,请选择一个CDM集群,如果没有可用的CDM集群,请先通过数据集成增量包进行创建。 当多个数据连接共用同一Agent时,通过这些数据连接提交SQL作业、Shell脚本、Python脚本等任务的同时运行上限为200。 数据集成配置 连接属性 否 例如:1. socketTimeout:配置JDBC连接超时时间,单位为毫秒;2. mysql.bool.type.transform:配置mysql读取时,是否将tinyint(1)解析成boolean类型,默认为true 数据源认证及其他功能配置 用户名 是 开启Kafka SASL_SSL时的必选项。 连接DMS Kafka的用户名。 密码 是 开启Kafka SASL_SSL时的必选项。 连接DMS Kafka的密码。 父主题: 配置DataArts Studio数据连接参数
  • 前提条件 在创建数据连接前,请确保您已创建所要连接的数据湖(如DataArts Studio所支持的数据库、云服务等)。 在创建DWS类型的数据连接前,您需要先在DWS服务中创建集群,并且具有KMS密钥的查看权限。 在创建MRS HBase、MRS Hive等MRS类型的数据连接前,需确保您已购买MRS集群,并且集群中包含所需要的组件。 在创建数据连接前,请确保待连接的数据湖与DataArts Studio实例之间网络互通。 如果数据湖为云下的数据库,则需要通过公网或者专线打通网络,确保数据源所在的主机可以访问公网,并且防火墙规则已开放连接端口。 如果数据湖为云上服务(如DWS、MRS等),则网络互通需满足如下条件: DataArts Studio实例(指DataArts Studio实例中的CDM集群)与云上服务处于不同区域的情况下,需要通过公网或者专线打通网络。 DataArts Studio实例(指DataArts Studio实例中的CDM集群)与云上服务同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则章节。 此外,您还必须确保该云服务的实例与DataArts Studio工作空间所属的企业项目必须相同,如果不同,您需要修改工作空间的企业项目。 如果使用企业模式,您还需要注意以下事项: 由于企业模式下需要区分开发环境和生产环境,因此您需要分别准备对应生产环境和开发环境的两套数据湖服务,用于隔离开发和生产环境: 对于集群化的数据源(例如MRS、DWS、RDS、MySQL、Oracle、DIS、ECS),如果使用两套集群,DataArts Studio通过管理中心的创建数据连接区分开发环境和生产环境的数据湖服务,在开发和生产流程中自动切换对应的数据湖。因此您需要准备两套数据湖服务,且两套数据湖服务的版本、规格、组件、区域、VPC、子网以及相关配置等信息,均应保持一致。创建数据连接的详细操作请参见创建DataArts Studio数据连接。 对于Serverless服务(例如DLI),DataArts Studio通过管理中心的环境隔离来配置生产环境和开发环境数据湖服务的对应关系,在开发和生产流程中自动切换对应的数据湖。因此您需要在Serverless数据湖服务中准备两套队列、数据库资源,建议通过名称后缀进行区分,详细操作请参见配置DataArts Studio企业模式环境隔离。 对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,详细操作请参见DB配置。 离线处理集成作业不支持在企业模式下运行。 例如,当您的数据湖服务为MRS集群时,需要准备两套MRS集群,且版本、规格、组件、区域、VPC、子网等保持一致。如果某个MRS集群修改了某些配置,也需要同步到另一套MRS集群上。
  • 创建数据连接 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。 在DataArts Studio控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。 在管理中心页面,单击“数据连接”,进入数据连接页面并单击“创建数据连接”。 图1 创建数据连接 单击“创建数据连接”,在弹出的页面中,选择“数据连接类型”为“数据仓库服务(DWS)”,并参见表1配置相关参数。 图2 DWS连接配置参数 表1 DWS数据连接 参数 是否必选 说明 数据连接类型 是 DWS连接固定选择为数据仓库服务(DWS)。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。 说明: 当开启数据集成作业特性后,可勾选数据集成组件,勾选后在数据开发组件创建集成作业时支持选择本数据连接。 离线处理集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 基础与网络连通配置 SSL加密 是 DWS支持SSL通道加密和证书认证两种方式进行客户端与服务器端的通信。您可以通过服务器端是否强制使用SSL连接进行设置。开关打开,即只能通过SSL方式连接。开关关闭,即两种方式均可。默认关闭。 手动 是 选择连接模式。 使用集群名模式时,通过选择已有集群名称进行连接配置。 使用连接串模式时,手动填写对应集群的IP或 域名 、端口进行连接配置,且需打通本连接Agent(即CDM集群)和DWS集群之间的网络。 DWS集群名 是 “手动”选择为“集群名模式”时需要配置本参数。 选择DWS集群,系统会显示所有项目ID和企业项目相同的DWS集群。 IP或域名 是 “手动”选择为“连接串模式”时需要配置本参数。 “IP或域名”如果手动填写,必须写内网IP,端口必须为对资源组网段放开的端口(如需设置请参见设置安全组规则),否则可能导致网络连接不通。 表示通过内部网络访问集群数据库的访问地址,可填写为IP或域名。内网访问IP或域名地址在创建集群时自动生成,您可以通过管理控制台获取访问地址: 根据注册的账号登录DWS云服务管理控制台。 从左侧列表选择实例管理。 单击某一个实例名称,进入实例基本信息页面。在连接信息标签中可以获取到内网IP、域名和端口等信息。 端口 是 “手动”选择为“连接串模式”时需要配置本参数。 表示创建DWS集群时指定的数据库端口号。请确保您已在安全组规则中开放此端口,以便DataArts Studio实例可以通过该端口连接DWS集群数据库。 KMS密钥 是 通过KMS加解密数据源认证信息,选择KMS中已创建的密钥。 绑定Agent 是 DWS为非全托管服务,DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理,所以创建DWS的数据连接时,请选择一个CDM集群。如果没有可用的CDM集群,请先进行创建。 CDM集群作为网络代理,必须和DWS集群网络互通才可以成功创建DWS连接,为确保两者网络互通,CDM集群必须和DWS集群处于相同的区域、可用区,且使用同一个VPC和子网,安全组规则需允许两者网络互通。 说明: CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。 数据源认证及其他功能配置 用户名 是 数据库的用户名,创建DWS集群时指定的用户名。 密码 是 数据库的访问密码,创建DWS集群时指定的密码。 数据集成配置 数据库名称 是 适用组件勾选数据集成后,呈现此参数。 配置为要连接的数据库名称。 单次请求行数 否 适用组件勾选数据集成后,呈现此参数。 指定每次请求获取的行数,根据数据源端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 连接属性 否 适用组件勾选数据集成后,呈现此参数。 可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。 常见配置举例如下: connectTimeout=360000与socketTimeout=360000:迁移数据量较大、或通过查询语句检索全表时,会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间(单位ms),避免超时导致失败。 useCursorFetch=false:CDM作业默认打开了JDBC连接器与关系型数据库通信使用二进制协议开关,即useCursorFetch=true。部分第三方可能存在兼容问题导致迁移时间转换出错,可以关闭此开关;开源MySQL数据库支持useCursorFetch参数,无需对此参数进行设置。 引用符号 否 适用组件勾选数据集成后,呈现此参数。 可选参数,连接引用表名或列名时的分隔符号,参考对应数据库的产品文档进行配置。 单击“测试”,测试数据连接的连通性。如果无法连通,数据连接将无法创建。 测试通过后,单击“确定”,创建数据连接。