数据治理中心 DATAARTS STUDIO-新建DataArts Studio与DWS数据湖的连接:创建数据连接
创建数据连接
- 参考访问 DataArts Studio 实例控制台,登录DataArts Studio管理控制台。
- 在DataArts Studio控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。
- 在管理中心页面,单击“数据连接”,进入数据连接页面并单击“创建数据连接”。
图1 创建数据连接
- 单击“创建数据连接”,在弹出的页面中,选择“数据连接类型”为“ 数据仓库 服务(DWS)”,并参见表1配置相关参数。
图2 DWS连接配置参数
表1 DWS数据连接 参数
是否必选
说明
数据连接类型
是
DWS连接固定选择为数据仓库服务(DWS)。
数据连接名称
是
数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。
标签
否
标识数据连接的属性。设置标签后,便于统一管理。说明:标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。
适用组件
是
选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。
说明:- 当开启数据集成作业特性后,可勾选数据集成组件,勾选后在数据开发组件创建集成作业时支持选择本数据连接。
- 离线处理集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。
基础与网络连通配置
SSL加密
是
DWS支持SSL通道加密和证书认证两种方式进行客户端与服务器端的通信。您可以通过服务器端是否强制使用SSL连接进行设置。- 开关打开,即只能通过SSL方式进行通信。
- 开关关闭,SSL通道加密和证书认证两种方式均可进行通信。
手动
是
选择连接模式。
DWS集群名
是
“手动”选择为“集群名模式”时需要配置本参数。
选择DWS集群,系统会显示所有项目ID和企业项目相同的DWS集群。
IP或域名
是
“手动”选择为“连接串模式”时需要配置本参数。
“IP或域名”如果手动填写,必须写内网IP,端口必须为对资源组网段放开的端口(如需设置请参见设置安全组规则),否则可能导致网络连接不通。
表示通过内部网络访问集群数据库的访问地址,可填写为IP或域名。内网访问IP或域名地址在创建集群时自动生成,您可以通过管理控制台获取访问地址:- 根据注册的账号登录DWS云服务管理控制台。
- 从左侧列表选择实例管理。
- 单击某一个实例名称,进入实例基本信息页面。在连接信息标签中可以获取到内网IP、域名和端口等信息。
端口
是
“手动”选择为“连接串模式”时需要配置本参数。
表示创建DWS集群时指定的数据库端口号。请确保您已在安全组规则中开放此端口,以便DataArts Studio实例可以通过该端口连接DWS集群数据库。
KMS密钥
是
通过KMS加解密数据源认证信息,选择KMS中的任一默认密钥或自定义密钥即可。说明:第一次通过DataArts Studio或KPS使用KMS加密时,会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息,请参见什么是默认密钥。
绑定Agent
是
DWS为非全托管服务,DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理,所以创建DWS的数据连接时,请选择一个CDM集群。如果没有可用的CDM集群,请先进行创建。
CDM集群作为网络代理,必须和DWS集群网络互通才可以成功创建DWS连接,为确保两者网络互通,CDM集群必须和DWS集群处于相同的区域、可用区,且使用同一个VPC和子网,安全组规则需允许两者网络互通。
说明:CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。
数据源认证及其他功能配置
用户名
是
数据库的用户名,创建DWS集群时指定的用户名。
密码
是
数据库的访问密码,创建DWS集群时指定的密码。
数据集成配置
数据库名称
是
适用组件勾选数据集成后,呈现此参数。
配置为要连接的数据库名称。
单次请求行数
否
适用组件勾选数据集成后,呈现此参数。
指定每次请求获取的行数,根据数据源端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。
连接属性
否
适用组件勾选数据集成后,呈现此参数。
可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。
常见配置举例如下:- connectTimeout=360000与socketTimeout=360000:迁移数据量较大、或通过查询语句检索全表时,会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间(单位ms),避免超时导致失败。
- useCursorFetch=false:CDM作业默认打开了JDBC连接器与关系型数据库通信使用二进制协议开关,即useCursorFetch=true。部分第三方可能存在兼容问题导致迁移时间转换出错,可以关闭此开关;开源MySQL数据库支持useCursorFetch参数,无需对此参数进行设置。
引用符号
否
适用组件勾选数据集成后,呈现此参数。
可选参数,连接引用表名或列名时的分隔符号,参考对应数据库的产品文档进行配置。
- 单击“测试”,测试数据连接的连通性。如果无法连通,数据连接将无法创建。
- 测试通过后,单击“确定”,创建数据连接。