数据治理中心 DATAARTS STUDIO-步骤1:数据准备:数据湖准备

时间:2024-09-24 15:16:26

数据湖 准备

在本示例中,选择 数据仓库 服务(DWS)服务作为数据湖。

创建DWS集群的具体操作请参见创建集群。为确保DWS集群与 DataArts Studio 实例网络互通,DWS集群需满足如下要求:
  • DataArts Studio实例(指DataArts Studio实例中的 CDM 集群)与DWS集群处于不同区域的情况下,需要通过公网或者专线打通网络。
  • DataArts Studio实例(指DataArts Studio实例中的CDM集群)与DWS集群同区域情况下,同虚拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置安全组规则章节。
  • 此外,您还必须确保DWS集群与DataArts Studio工作空间所属的企业项目必须相同,如果不同,您需要修改工作空间的企业项目。

创建DWS集群后,您需要在管理中心创建DWS连接,然后通过数据开发组件新建数据库、数据库模式,再执行SQL来创建DWS表。操作步骤如下:

  1. 参考访问DataArts Studio实例控制台登录DataArts Studio管理控制台。
  2. DataArts Studio控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。
  3. “数据连接”页面,单击“创建数据连接”按钮。

    图1 数据连接

  4. 在弹出窗口中,配置数据连接参数,完成配置后,单击“确定”完成数据连接的创建。参数配置如图2所示。

    • 数据连接类型:数据仓库服务(DWS)
    • 数据连接名称:dws_link
    • 标签:可选参数。您可以输入新的标签名称,也可以在下拉列表中选择已有的标签。
    • 适用组件:保持默认即可。
    • SSL加密:是否开启,请与源端DWS集群的配置保持一致。
    • 连接方式:选择“通过代理连接”。
    • 手动:选择“集群名”模式,“IP”“端口”不需要手动填写。
    • DWS集群名:选择所创建的DWS集群。
    • KMS密钥:选择一个KMS密钥,使用KMS密钥对敏感数据进行加密。如果未创建KMS密钥,请单击“访问KMS”进入KMS控制台创建一个密钥。
    • 绑定Agent:需选择一个数据集成集群作为连接代理,该集群和DWS集群必须网络互通。本示例可选择创建DataArts Studio实例时自动创建的数据集成集群。
    • 用户名:数据库的用户名,创建DWS集群时指定的用户名,默认为dbadmin。
    • 密码:数据库的访问密码,创建DWS集群时指定的密码。
    图2 DWS连接配置参数

  5. DWS连接创建完成后,跳转到数据开发页面。

    图3 跳转到数据开发页面

  6. 创建DWS数据库和数据库模式。

    1. 在数据开发界面,在DWS连接上右键单击,选择“新建数据库”,创建一个数据库用于存放数据表,数据库名称为“demo”
      图4 创建数据库
    2. 展开DWS连接目录至demo数据库的数据库模式层级,然后再右键单击,选择“新建模式”,创建数据库模式用于存放数据表,数据库模式名称为“dgc”
      图5 创建数据库模式

  7. 创建一个DWS SQL脚本,以通过DWS SQL语句来创建数据表。

    图6 新建脚本

  8. 在新建脚本弹出的SQL编辑器中输入如下SQL语句,并单击“运行”来创建数据表。其中,movies_item、ratings_item为原始数据表,具体数据将在之后通过CDM由OBS迁移到表中;top_rating_movie和top_active_movie为结果表,用于存放分析结果。

    SET SEARCH_PATH TO dgc;
    CREATE TABLE IF NOT EXISTS movies_item(
        movieId INT,
        movieTitle VARCHAR,
        videoReleaseDate VARCHAR,
        IMDbURL VARCHAR,
        unknown INT,
        Action INT,
        Adventure INT,
        Animation INT,
        Children INT,
        Comedy INT,
        Crime INT,
        Documentary INT,
        Drama INT,
        Fantasy INT,
        FilmNoir INT,
        Horror INT,
        Musical INT,
        Mystery INT,
        Romance INT,
        SciFi INT,
        Thriller INT,
        War INT,
        Western INT
    );
    
    CREATE TABLE IF NOT EXISTS ratings_item(  
      userId INT,
      movieId INT,
      rating INT,
      timestamp VARCHAR
    );
    
    CREATE TABLE IF NOT EXISTS top_rating_movie(
      movieTitle VARCHAR,
      avg_rating float,
      rating_user_number int
    ); 
    
    CREATE TABLE IF NOT EXISTS top_active_movie(
      movieTitle VARCHAR,
      avg_rating float,
      rating_user_number int
    ); 
    图7 创建数据表
    关键参数说明:
    • 数据连接:步骤4中创建的DWS数据连接。
    • 数据库:步骤6中创建的数据库。

  9. 脚本运行成功后,可以通过如下脚本检查数据表是否创建成功。确认数据表创建成功后,该脚本后续无需使用,可直接关闭。

    SELECT * FROM pg_tables;

support.huaweicloud.com/qs-dataartsstudio/dataartsstudio_04_0032.html