数据治理中心 DATAARTS STUDIO-创建企业模式工作空间:前提条件

时间:2024-12-04 08:59:52

前提条件

创建工作空间模式前,您需要先了解以下内容:

  • 已了解简单模式与企业模式工作空间的区别,包括不同工作空间的开发流程等差异,详情请参见简单模式与企业模式介绍
  • 已配置空间级的身份调度,包含公共委托和公共 IAM 账号,详情请参见配置公共委托配置公共IAM账号
  • 已准备好两套相互隔离的 数据湖 引擎,用于隔离开发和生产环境。
    • 配置两套数据湖服务,进行开发与生产环境隔离。

      对于集群化的数据源(例如 MRS 、DWS、RDS、MySQL、Oracle、DIS、E CS 等), DataArts Studio 通过管理中心的创建数据连接区分开发环境和生产环境的数据湖服务,在开发和生产流程中自动切换对应的数据湖。因此您需要准备两套数据湖服务,且两套数据湖服务的版本、规格、组件、区域、VPC、子网以及相关配置等信息,均应保持一致,详细操作请参见创建DataArts Studio数据连接

      创建数据连接时,通过不同的集群来进行开发与生产环境的隔离,如图1所示。

      图1 创建数据连接时选择不同集群

    • 配置 DLI 环境隔离。

      配置企业模式环境隔离,包含DLI队列配置和DB配置。

      对于Serverless服务(例如DLI),DataArts Studio通过管理中心的环境隔离来配置生产环境和开发环境数据湖服务的对应关系,在开发和生产流程中自动切换对应的数据湖。因此您需要在Serverless数据湖服务中准备两套队列、两套数据库资源,建议通过名称后缀进行区分,详细操作请参见配置DataArts Studio企业模式环境隔离

    • 配置DB,在同一个数据湖服务下配置两套数据库,进行开发与生产环境隔离。

      对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群,如图2所示,则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离,如图3所示。详细操作请参见DB配置

      图2 创建数据连接时选择同一个集群

      图3 DB配置

  • 数据准备与同步
    • 数据湖服务创建完成后,您需要按照项目规划(例如数据开发需要操作的库表等),分别在开发和生产环境的数据湖服务中,新建数据库、数据库模式(仅DWS需要)、数据表等。
      • 对于集群化的数据源(例如MRS、DWS、RDS、MySQL、Oracle、DIS、ECS),使用两套集群资源,两套环境中的数据库、数据库模式(仅DWS需要)和数据表必须保持同名。
      • 对于Serverless服务(例如DLI),两套队列和两套数据库建议通过名称和后缀(开发环境添加后缀“_dev”,生产环境无后缀)进行关联与区分,数据表必须保持同名。
      • 对于DWS、MRS Hive和MRS Spark数据源,如果使用一套相同的集群资源,通过两个数据库(开发环境添加后缀“_dev”,生产环境无后缀)进行开发生产环境隔离,两套环境中数据库模式(仅DWS需要)和数据表必须保持同名。
    • 数据库、数据库模式(仅DWS需要)、数据表等新建完成后,如果涉及原始数据表等,您还需要将两套数据湖服务之间的数据进行同步:
      • 数据湖中已有数据:通过 CDM 或DRS等数据迁移服务,在数据湖间批量同步数据。
      • 数据源待迁移数据:通过对等的CDM或DRS等数据迁移服务作业进行同步,保证生产环境和开发环境的数据湖服务数据一致。
support.huaweicloud.com/usermanual-dataartsstudio/dataartsstudio_01_5135.html