数据治理中心 DATAARTS STUDIO-步骤2:数据准备:准备数据湖
准备 数据湖
在使用 DataArts Studio 前,您需要根据业务场景选择符合需求的云服务或数据库作为数据湖底座,由数据湖底座提供存储和计算的能力,DataArts Studio基于数据湖底座进行一站式数据开发、治理和服务。
DataArts Studio平台支持对接如 DLI 、DWS、 MRS Hive等云服务,也支持对接如MySQL、Oracle等传统数据库,支持程度各有不同,详情请参见DataArts Studio支持的数据源章节。
本示例选择 MapReduce服务 (MRS)的Hive组件作为DataArts Studio平台的数据湖底座。您需要先创建一个MRS安全集群(即开启“Kerberos认证”的MRS集群,安全性更强),具体操作请参见创建集群。
为确保MRS集群与DataArts Studio实例网络互通,MRS集群需满足如下要求:
- MRS集群必须包含Hive组件。
- 如需使用基于DataArts Studio数据架构的数据标准自动生成质量作业的功能,MRS集群版本必须是2.0.3及以上版本,集群必须包含Hive和Spark组件,集群总节点数至少4个。本示例需要使用该功能,因此必须满足这个条件。
如果选择集群后连接失败,请检查MRS集群与作为Agent的 CDM 实例是否网络互通。网络互通需满足如下条件:
- DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群处于不同区域的情况下,需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP,MRS集群可以访问公网且防火墙规则已开放连接端口。
- DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则章节。
- 此外,还需确保该MRS集群与DataArts Studio工作空间所属的企业项目相同,如果不同,您需要修改工作空间的企业项目。
当同一Agent连接多个MRS集群时,如果其中一个MRS集群被删除或状态异常,会影响另外一个正常的MRS集群数据连接。因此建议一个Agent对应一个MRS集群数据连接。